■
un entrepôt de données est une collecte de données non volatiles, intégrée, temporelle et orientée vers le sujet organisée à l’appui de la prise de décision de la direction. Plusieurs facteurs distinguent les entrepôts de données des bases de données opérationnelles. Étant donné que les deux systèmes offrent des fonctionnalités très différentes et nécessitent différents types de données, il est nécessaire de maintenir des entrepôts de données séparément des bases de données opérationnelles.
■
les entrepôts de données adoptent souvent une architecture à trois niveaux., Le niveau inférieur est un serveur de base de données d’entrepôt, qui est généralement un système de base de données relationnelle. Le niveau intermédiaire est un serveur OLAP et le niveau supérieur est un client qui contient des outils de requête et de création de rapports.
■
un entrepôt de données contient des outils back-end et des utilitaires pour remplir et actualiser l’entrepôt. Ceux-ci couvrent l’extraction de données, le nettoyage des données, la transformation des données, le chargement, l’actualisation et la gestion des entrepôts.
■
Les métadonnées d’entrepôt de données sont des données définissant les objets d’entrepôt., Un référentiel de métadonnées fournit des détails concernant la structure de l’entrepôt, l’historique des données, les algorithmes utilisés pour la synthèse, les mappages des données source vers le formulaire d’entrepôt, les performances du système et les Termes et problèmes métier.
■
un modèle de données multidimensionnel est généralement utilisé pour la conception d’entrepôts de données d’entreprise et de centres de données ministériels. Un tel modèle peut adopter un schéma d’étoile, un schéma de flocon de neige ou un schéma de constellation de faits. Le noyau du modèle multidimensionnel est le cube de données, qui se compose d’un grand ensemble de faits (ou de mesures) et d’un certain nombre de dimensions., Les Dimensions sont les entités ou les perspectives à l’égard desquelles une organisation souhaite conserver des enregistrements et sont de nature hiérarchique.
■
Un cube de données est constitué d’un treillis de le cuboïdage, correspondant chacun à un degré différent de synthèse des données multidimensionnelles.
■
les hiérarchies de concepts organisent les valeurs des attributs ou des dimensions en niveaux d’abstraction graduels. Ils sont utiles dans l’exploitation minière à plusieurs niveaux d’abstraction.
■
le traitement analytique en ligne peut être effectué dans des entrepôts de données/marts à l’aide du modèle de données multidimensionnel., Les opérations OLAP typiques incluent le roll-up et le drill – (down, across, through), le slice-and-dice et le pivot ( rotate), ainsi que des opérations statistiques telles que le classement et le calcul des moyennes mobiles et des taux de croissance. Les opérations OLAP peuvent être mises en œuvre efficacement à l’aide de la structure data cube.
■
les entrepôts de données sont utilisés pour le traitement de l’information (requêtes et rapports), le traitement analytique (qui permet aux utilisateurs de naviguer dans des données résumées et détaillées par opérations OLAP) et l’exploration de données (qui prend en charge la découverte des connaissances)., L’exploration de données basée sur OLAP est appelée exploration de données multidimensionnelles (également appelée exploration de données multidimensionnelles exploratoires, exploration analytique en ligne ou OLAM). Il met l’accent sur la nature interactive et exploratoire de l’exploration de données.
■
les serveurs OLAP peuvent adopter un OLAP relationnel (ROLAP), un OLAP multidimensionnel (MOLAP) ou une implémentation OLAP hybride (HOLAP). Un serveur ROLAP utilise un SGBD relationnel étendu qui mappe les opérations OLAP sur des données multidimensionnelles aux opérations relationnelles standard. Un serveur MOLAP mappe les vues de données multidimensionnelles directement aux structures de tableau., Un serveur HOLAP combine ROLAP et MOLAP. Par exemple, il peut utiliser ROLAP pour les données historiques tout en conservant les données fréquemment consultées dans un magasin MOLAP distinct.
■
la matérialisation complète fait référence au calcul de tous les cuboïdes du réseau définissant un cube de données. Il nécessite généralement une quantité excessive d’espace de stockage, en particulier à mesure que le nombre de dimensions et la taille des hiérarchies de concepts associées augmentent. Ce problème est connu sous le nom de malédiction de la dimensionnalité. En variante, la matérialisation partielle est le calcul sélectif d’un sous-ensemble des cuboïdes ou sous-cubes dans le réseau., Par exemple, un cube iceberg est un cube de données qui stocke uniquement les cellules de cube qui ont une valeur agrégée (par exemple, count ) au-dessus d’un seuil de support minimum.
■
le traitement des requêtes OLAP peut être rendu plus efficace grâce à l’utilisation de techniques d’indexation. Dans l’indexation bitmap, chaque attribut a sa propre table d’index bitmap. L’indexation Bitmap réduit les opérations de jointure, d’agrégation et de comparaison à l’arithmétique des bits. L’indexation des jointures enregistre les lignes joignables de deux relations ou plus à partir d’une base de données relationnelle, réduisant ainsi le coût global des opérations de jointure OLAP., L’indexation de jointure bitmap, qui combine les méthodes bitmap et join index, peut être utilisée pour accélérer davantage le traitement des requêtes OLAP.
■
la généralisation des données est un processus qui résume un grand ensemble de données pertinentes pour les tâches dans une base de données d’un niveau conceptuel relativement faible à des niveaux conceptuels plus élevés. Les approches de généralisation des données comprennent l’agrégation de données basée sur des cubes de données et l’induction orientée attribut. La description de Concept est la forme la plus élémentaire d’exploration de données descriptives., Il décrit un ensemble donné de données pertinentes pour les tâches de manière concise et résumée, présentant des propriétés générales intéressantes des données. La description du Concept (ou de la classe) consiste en la caractérisation et la comparaison (ou la discrimination). Le premier résume et décrit une collection de données, appelée la classe cible, tandis que le second résume et distingue une collection de données, appelée la classe cible, des autres collections de données, appelées collectivement les classes contrastées.,
■
la caractérisation du Concept peut être mise en œuvre à l’aide d’approches basées sur le cube de données (OLAP) et de l’approche d’induction orientée attribut. Ce sont des approches de généralisation basées sur des attributs ou des dimensions. L’approche d’induction orientée attribut comprend les techniques suivantes: focalisation des données, généralisation des données par suppression d’attribut ou généralisation d’attribut, accumulation de valeurs de comptage et d’agrégation, contrôle de généralisation d’attribut et visualisation de données de généralisation.