■
un depozit de date este o colecție de date orientate spre subiect, integrat, timp-Varianta, și nevolatile organizate în sprijinul de luare a deciziilor de management. Mai mulți factori disting depozitele de date de bazele de date operaționale. Deoarece cele două sisteme oferă funcționalități destul de diferite și necesită tipuri diferite de date, este necesar să se mențină depozitele de date separat de bazele de date operaționale.depozitele de date adoptă adesea o arhitectură pe trei niveluri., Nivelul de jos este un server de baze de date depozit, care este de obicei un sistem de baze de date relaționale. Nivelul de mijloc este un server OLAP, iar nivelul superior este un client care conține instrumente de interogare și raportare.un depozit de date conține instrumente și utilități back-end pentru popularea și reîmprospătarea depozitului. Acestea acoperă extragerea datelor, curățarea datelor, transformarea datelor, încărcarea, reîmprospătarea și gestionarea depozitelor.metadatele depozitului de date sunt date care definesc obiectele depozitului., Un depozit de metadate oferă detalii privind structura depozitului, istoricul datelor, algoritmii utilizați pentru sumarizare, mapările de la datele sursă la formularul depozitului, performanța sistemului și termenii și problemele de afaceri.un model de date multidimensional este de obicei utilizat pentru proiectarea depozitelor de date corporative și a piețelor de date departamentale. Un astfel de model poate adopta o schemă stea, schema fulg de zăpadă, sau schema constelație fapt. Nucleul modelului multidimensional este cubul de date, care constă dintr-un set mare de fapte (sau măsuri) și un număr de dimensiuni., Dimensiunile sunt entitățile sau perspectivele cu privire la care o organizație dorește să țină înregistrări și au un caracter ierarhic.un cub de date constă dintr-o rețea de cuboizi, fiecare corespunzând unui grad diferit de sumarizare a datelor multidimensionale date.
■
ierarhiile conceptuale organizează valorile atributelor sau dimensiunilor în niveluri graduale de abstractizare. Ele sunt utile în minerit la mai multe niveluri de abstractizare.procesarea analitică online poate fi efectuată în depozite/piețe de date folosind modelul de date multidimensional., Operațiunile OLAP tipice includ roll-up și drill-(down, across, through), slice-and-dice și pivot (rotate), precum și operațiuni statistice, cum ar fi clasarea și calcularea mediilor mobile și a ratelor de creștere. Operațiunile OLAP pot fi implementate eficient folosind structura cubului de date.depozitele de date sunt utilizate pentru prelucrarea informațiilor (interogare și raportare), prelucrarea analitică (care permite utilizatorilor să navigheze prin date rezumate și detaliate prin operațiunile OLAP) și extragerea datelor (care susține descoperirea cunoștințelor)., Mineritul de date bazat pe OLAP este denumit minerit de date multidimensional (cunoscut și sub denumirea de explorare multidimensională a datelor, minerit analitic online sau OLAM). Acesta subliniază natura interactivă și exploratorie a exploatării datelor.serverele OLAP pot adopta o implementare OLAP relațională (ROLAP), o implementare OLAP multidimensională (MOLAP) sau o implementare OLAP hibridă (HOLAP). Un server ROLAP utilizează un DBMS relațional extins care mapează operațiunile OLAP pe date multidimensionale la operații relaționale standard. Un server MOLAP mapează vizualizările de date multidimensionale direct la structurile de matrice., Un server HOLAP combină ROLAP și MOLAP. De exemplu, poate utiliza ROLAP pentru Date istorice, menținând în același timp date accesate frecvent într-un magazin MOLAP separat.materializarea completă se referă la calculul tuturor cuboidelor din zăbrele care definesc un cub de date. De obicei, necesită o cantitate excesivă de spațiu de stocare, în special pe măsură ce numărul de dimensiuni și dimensiunea ierarhiilor conceptuale asociate cresc. Această problemă este cunoscută sub numele de blestemul dimensionalității. În mod alternativ, materializarea parțială este calculul selectiv al unui subset de cuboizi sau subcuburi din zăbrele., De exemplu, un cub iceberg este un cub de date care stochează numai acele celule cub care au o valoare agregată (de exemplu, conta ) peste un prag minim de suport.procesarea interogărilor OLAP poate fi mai eficientă prin utilizarea tehnicilor de indexare. În indexarea bitmap, fiecare atribut are propriul tabel de index bitmap. Indexarea Bitmap reduce operațiile de îmbinare, agregare și comparație cu aritmetica bitului. Alăturați-vă indexării înregistrează rândurile alăturate a două sau mai multe relații dintr-o bază de date relațională, reducând costul total al operațiunilor OLAP join., Bitmapped join indexing, care combină metodele bitmap și join index, poate fi utilizat pentru a accelera în continuare procesarea interogărilor OLAP.generalizarea datelor este un proces care abstractizează un set mare de date relevante pentru sarcini într-o bază de date de la un nivel conceptual relativ scăzut la niveluri conceptuale superioare. Abordările de generalizare a datelor includ agregarea datelor bazate pe cubul de date și inducția orientată spre atribute. Descrierea conceptului este cea mai de bază formă de extragere a datelor descriptive., Acesta descrie un set dat de date relevante pentru sarcini într-o manieră concisă și rezumativă, prezentând proprietăți generale interesante ale datelor. Descrierea conceptului (sau a clasei) constă în caracterizare și comparație (sau discriminare ). Primul rezumă și descrie o colecție de date, numită clasa țintă, în timp ce acesta din urmă rezumă și distinge o colecție de date, numită clasa țintă, de alte colecții de date, numite colectiv clasa contrastantă.,
■
caracterizarea conceptului poate fi implementată folosind abordări bazate pe cubul de date (OLAP) și abordarea de inducție orientată spre atribute. Acestea sunt abordări de generalizare bazate pe atribute sau dimensiuni. Abordarea de inducție orientată spre atribute constă în următoarele tehnici: focalizarea datelor, generalizarea datelor prin eliminarea atributelor sau generalizarea atributelor, acumularea numărului și a valorii agregate, controlul generalizării atributelor și vizualizarea generalizării datelor.