Tendinţe în managentul datelor




Creşterea în mărime şi număr a bazelor de date depăşeşte pe de parte abilităţile umane de a analiza datele. Azi, cele mai multe date sunt stocate în calculatoare şi un număr din ce în ce mai mare sunt administrate de sisteme de administrare a bazelor de date. Limbajele lor de interogare permit interogarea bazele de date, dar găsirea informaţiilor interesante rămâne adesea o problemă. Chiar şi utilizatorii experimentaţi pot avea dificultăţi în depistarea unor elemente semnificative.

Nevoia de a sprijini procesul de interogare şi analiză a bazelor de date a fost larg recunoscută şi chiar a fost ridicată la rangul de prioritate în cercetare în anii '90. Guvernul SUA, de exemplu, sponsorizează proiecte (cum este proiectul Sequoia) pentru dezvoltarea tehnicilor avansate de analiză a datelor aflate în depozite de baze de date foarte mari (data warehouses). Tehnicile avansate pentru analiza datelor nu sunt încă mature iar distanţa dintre cantitatea datelor ce trebuie analizate şi cantitatea de date ce poate fi analizată creşte pe zi ce trece.


Procesul de căutare şi analizare a cantităţi mari de date este numit data mining. Marile colecţii de date sunt potenţiale filoane de informaţii valoroase, dar ca şi mineritul real, căutarea şi extracţia pot fi procese dificile şi costisitoare. De aceea, uneltele adecvate şi eficiente de minerit sunt esenţiale pentru succes. Într-un anume sens data mining este ca munca unui radiolog. Scanarea bazei de date pentru identificarea fenomenelor care trebuie observate arătă structura regulată a datelor, dar ajută de asemenea la găsirea anomaliilor.



Fie D = {d1, . dn} setul de date supus analizei. Data mining este procesul de găsire a unui subset D' a lui D şi ipotezelor Hu (D', C) despre D' pe care un utilizator U le consideră folositoare în contextul aplicat C. Această definiţie poate fi detaliată, de exemplu, prin definirea limbajului de descriere a ipotezelor, a descrierii contextelor etc.