■
Un data warehouse è una raccolta di dati orientata al soggetto, integrata, variante temporale e non volatile organizzata a supporto del processo decisionale della gestione. Diversi fattori distinguono i data warehouse dai database operativi. Poiché i due sistemi forniscono funzionalità molto diverse e richiedono diversi tipi di dati, è necessario mantenere i data warehouse separatamente dai database operativi.
■
I data warehouse spesso adottano un’architettura a tre livelli., Il livello inferiore è un server di database di magazzino, che in genere è un sistema di database relazionale. Il livello intermedio è un server OLAP e il livello superiore è un client che contiene strumenti di query e reporting.
■
Un data warehouse contiene strumenti di back-end e utilità per il popolamento e l’aggiornamento del magazzino. Questi riguardano l’estrazione dei dati, la pulizia dei dati, la trasformazione dei dati, il caricamento, l’aggiornamento e la gestione del magazzino.
■
I metadati del data warehouse sono dati che definiscono gli oggetti warehouse., Un repository di metadati fornisce dettagli relativi alla struttura del magazzino, alla cronologia dei dati, agli algoritmi utilizzati per il riepilogo, alle mappature dai dati di origine al modulo di magazzino, alle prestazioni del sistema e ai termini e problemi aziendali.
■
Un modello di dati multidimensionale viene in genere utilizzato per la progettazione di data warehouse aziendali e data mart dipartimentali. Tale modello può adottare uno schema a stella, uno schema a fiocco di neve o uno schema a costellazione di fatto. Il nucleo del modello multidimensionale è il cubo di dati, che consiste in un ampio insieme di fatti (o misure) e un numero di dimensioni., Le dimensioni sono le entità o le prospettive rispetto alle quali un’organizzazione desidera conservare i record e sono di natura gerarchica.
■
Un cubo di dati è costituito da un reticolo di cuboidi, ciascuno corrispondente a un diverso grado di sintesi dei dati multidimensionali dati.
■
Le gerarchie concettuali organizzano i valori degli attributi o delle dimensioni in livelli di astrazione graduale. Sono utili nel mining a più livelli di astrazione.
■
L’elaborazione analitica online può essere eseguita in data warehouse/mart utilizzando il modello di dati multidimensionali., Le operazioni OLAP tipiche includono roll-up e drill – (down, across, through), slice-and-dice e pivot ( ruota), nonché operazioni statistiche come la classifica e il calcolo delle medie mobili e dei tassi di crescita. Le operazioni OLAP possono essere implementate in modo efficiente utilizzando la struttura del cubo di dati.
■
I data warehouse sono utilizzati per l’elaborazione delle informazioni (query e reporting), l’elaborazione analitica (che consente agli utenti di navigare tra i dati riepilogati e dettagliati dalle operazioni OLAP) e il data mining (che supporta la scoperta della conoscenza)., Il data mining basato su OLAP è indicato come data mining multidimensionale (noto anche come data mining multidimensionale esplorativo, mining analitico online o OLAM). Sottolinea la natura interattiva ed esplorativa del data mining.
■
I server OLAP possono adottare un OLAP relazionale (ROLAP), un OLAP multidimensionale (MOLAP) o un’implementazione OLAP ibrida (HOLAP). Un server ROLAP utilizza un DBMS relazionale esteso che associa le operazioni OLAP su dati multidimensionali alle operazioni relazionali standard. Un server MOLAP mappa le viste di dati multidimensionali direttamente alle strutture dell’array., Un server HOLAP combina ROLAP e MOLAP. Ad esempio, può utilizzare ROLAP per i dati storici mantenendo i dati a cui si accede frequentemente in un archivio MOLAP separato.
■
La materializzazione completa si riferisce al calcolo di tutti i cuboidi nel reticolo che definisce un cubo di dati. In genere richiede una quantità eccessiva di spazio di archiviazione, in particolare con l’aumentare del numero di dimensioni e delle dimensioni delle gerarchie concettuali associate. Questo problema è noto come la maledizione della dimensionalità. In alternativa, la materializzazione parziale è il calcolo selettivo di un sottoinsieme dei cuboidi o sottocubi nel reticolo., Ad esempio, un cubo iceberg è un cubo di dati che memorizza solo le celle del cubo che hanno un valore aggregato (ad esempio, count ) al di sopra di una soglia minima di supporto.
■
L’elaborazione delle query OLAP può essere resa più efficiente con l’uso di tecniche di indicizzazione. Nell’indicizzazione bitmap, ogni attributo ha la propria tabella di indice bitmap. L’indicizzazione bitmap riduce le operazioni di join, aggregazione e confronto in aritmetica bit. L’indicizzazione join registra le righe unibili di due o più relazioni da un database relazionale, riducendo il costo complessivo delle operazioni di join OLAP., L’indicizzazione join bitmap, che combina i metodi bitmap e join index, può essere utilizzata per accelerare ulteriormente l’elaborazione delle query OLAP.
■
La generalizzazione dei dati è un processo che astrae un ampio insieme di dati rilevanti per le attività in un database da un livello concettuale relativamente basso a livelli concettuali superiori. Gli approcci di generalizzazione dei dati includono l’aggregazione dei dati basata su cubo di dati e l’induzione orientata agli attributi. La descrizione del concetto è la forma più basilare di data mining descrittivo., Descrive un dato insieme di dati rilevanti per le attività in modo conciso e riassuntivo, presentando interessanti proprietà generali dei dati. La descrizione del concetto (o della classe) consiste nella caratterizzazione e nel confronto (o discriminazione ). Il primo riassume e descrive una raccolta di dati, chiamata classe target, mentre il secondo riassume e distingue una raccolta di dati, chiamata classe target, da altre raccolte di dati, chiamate collettivamente classi contrastanti.,
■
La caratterizzazione concettuale può essere implementata utilizzando approcci data cube (basati su OLAP) e l’approccio di induzione orientato agli attributi. Questi sono approcci di generalizzazione basati su attributi o dimensioni. L’approccio di induzione orientata agli attributi consiste nelle seguenti tecniche: messa a fuoco dei dati, generalizzazione dei dati mediante rimozione degli attributi o generalizzazione degli attributi, conteggio e accumulo di valori aggregati, controllo della generalizzazione degli attributi e visualizzazione dei dati di generalizzazione.