■
un almacén de datos es una recopilación de datos orientada a temas, integrada, con variantes temporales y no volátiles organizada en apoyo de la toma de decisiones de gestión. Varios factores distinguen los almacenes de datos de las bases de datos operacionales. Debido a que los dos sistemas ofrecen funcionalidades muy diferentes y requieren diferentes tipos de datos, es necesario mantener almacenes de datos separados de las bases de datos operacionales.
■
Los almacenes de datos suelen adoptar una arquitectura de tres niveles., El nivel inferior es un servidor de base de datos de almacén, que normalmente es un sistema de base de datos relacional. El nivel medio es un servidor OLAP, y el nivel superior es un cliente que contiene herramientas de consulta e informes.
■
un almacén de Datos contiene herramientas y utilidades de back-end para rellenar y actualizar el almacén. Estos abarcan la extracción de datos, la limpieza de datos, la transformación de datos, la carga, la actualización y la gestión de almacenes.
■
los metadatos del almacén de datos son datos que definen los objetos del almacén., Un repositorio de metadatos proporciona detalles sobre la estructura del almacén, el historial de datos, los algoritmos utilizados para el resumen, las asignaciones de los datos de origen al formulario del almacén, el rendimiento del sistema y los términos y problemas comerciales.
■
un modelo de datos multidimensional se utiliza típicamente para el diseño de almacenes de datos corporativos y data marts departamentales. Este modelo puede adoptar un esquema de estrella, un esquema de copo de nieve o un esquema de constelación de hechos. El núcleo del modelo multidimensional es el cubo de datos, que consiste en un gran conjunto de hechos (o medidas) y una serie de dimensiones., Las dimensiones son las entidades o perspectivas con respecto a las cuales una organización quiere mantener registros y son de naturaleza jerárquica.
■
un cubo de datos consiste en una red de cuboides, cada uno correspondiente a un grado diferente de resumen de los datos multidimensionales dados.
■
las jerarquías de conceptos organizan los valores de atributos o dimensiones en niveles de abstracción gradual. Son útiles en la minería en múltiples niveles de abstracción.
■
el procesamiento analítico en línea se puede realizar en Data warehouses/marts utilizando el modelo de datos multidimensional., Las operaciones OLAP típicas incluyen roll-up y drill – (down, across, through), slice-and-dice y pivot ( rotate), así como operaciones estadísticas como la clasificación y la computación de promedios móviles y tasas de crecimiento. Las operaciones OLAP se pueden implementar de manera eficiente utilizando la estructura de cubo de datos.
■
los almacenes de datos se utilizan para el procesamiento de la información (consultas e informes), el procesamiento analítico (que permite a los usuarios navegar a través de datos resumidos y detallados por operaciones OLAP) y la minería de datos (que admite el descubrimiento de conocimientos)., La minería de datos basada en OLAP se conoce como minería de datos multidimensional (también conocida como minería de datos multidimensional exploratoria, minería analítica en línea o OLAM). Hace hincapié en la naturaleza interactiva y exploratoria de la minería de datos.
■
los servidores OLAP pueden adoptar una implementación OLAP relacional (ROLAP), una OLAP multidimensional (MOLAP) o una OLAP híbrida (HOLAP). Un servidor ROLAP utiliza un DBMS relacional extendido que asigna operaciones OLAP en datos multidimensionales a operaciones relacionales estándar. Un servidor MOLAP asigna vistas de datos multidimensionales directamente a estructuras de matriz., Un servidor HOLAP combina ROLAP y MOLAP. Por ejemplo, puede usar ROLAP para datos históricos mientras mantiene los datos a los que se accede con frecuencia en un almacén MOLAP separado.
■
la materialización completa se refiere al cálculo de todos los cuboides en la red que definen un cubo de datos. Por lo general, requiere una cantidad excesiva de espacio de almacenamiento, particularmente a medida que crece el número de dimensiones y el tamaño de las jerarquías de conceptos asociados. Este problema se conoce como la maldición de la dimensionalidad. Alternativamente, la materialización parcial es el cálculo selectivo de un subconjunto de los cuboides o subcubos en la red., Por ejemplo, un cubo de iceberg es un cubo de datos que almacena solo aquellas celdas cúbicas que tienen un valor agregado (por ejemplo, count ) por encima de algún umbral mínimo de soporte.
■
el procesamiento de consultas OLAP se puede hacer más eficiente con el uso de técnicas de indexación. En la indexación de mapa de bits, cada atributo tiene su propia tabla de índices de mapa de bits. La indexación de mapas de bits reduce las operaciones de combinación, agregación y comparación a la aritmética de bits. La indexación de uniones registra las filas combinables de dos o más relaciones de una base de datos relacional, lo que reduce el costo total de las operaciones de unión OLAP., Bitmapped join indexing, que combina los métodos bitmap y join index, se puede utilizar para acelerar aún más el procesamiento de consultas OLAP.
■
la generalización de datos es un proceso que abstrae un gran conjunto de datos relevantes para una tarea en una base de datos de un nivel conceptual relativamente bajo a niveles conceptuales más altos. Los enfoques de generalización de datos incluyen la agregación de datos basada en cubos de datos y la inducción orientada a atributos. La descripción del concepto es la forma más básica de minería de datos Descriptiva., Describe un conjunto dado de datos relevantes para la tarea de manera concisa y resumida, presentando propiedades generales interesantes de los datos. La descripción del concepto (o clase) consiste en la caracterización y comparación (o discriminación ). El primero resume y describe una colección de datos, llamada la clase objetivo, mientras que el segundo resume y distingue una colección de datos, llamada la clase objetivo, de otra colección de datos, colectivamente llamada la clase contrastante.,
■
la caracterización de conceptos se puede implementar utilizando enfoques de cubo de datos (basados en OLAP) y el enfoque de inducción orientado a atributos. Estos son enfoques de generalización basados en atributos o dimensiones. El enfoque de inducción orientado a atributos consiste en las siguientes técnicas: enfoque de datos, generalización de datos por eliminación de atributos o generalización de atributos, recuento y acumulación de valor agregado, control de generalización de atributos y visualización de datos de generalización.