El modelado dimensional representa los datos con una operación de cubo, haciendo más adecuada la representación lógica de los datos con la gestión de datos OLAP. La percepción del modelado dimensional fue desarrollada por Ralph Kimball y se compone de tablas de «hechos» y «dimensiones».
En el modelado dimensional, el registro de transacciones se divide en «hechos», que suelen ser datos numéricos de la transacción, o en «dimensiones», que son la información de referencia que da contexto a los hechos. Por ejemplo, una transacción de venta puede dañarse en hechos como el número de productos pedidos y el precio pagado por los productos, y en dimensiones como la fecha del pedido, el nombre del usuario, el número de producto, las ubicaciones de envío y facturación del pedido, y el vendedor responsable de recibir el pedido.
Objetivos del modelado dimensional
Los objetivos del modelado dimensional son:
- Producir una arquitectura de base de datos que sea fácil de entender para los clientes finales y escribir consultas.
- Maximizar la eficiencia de las consultas. Logra estos objetivos minimizando el número de tablas y las relaciones entre ellas.
Ventajas del modelado dimensional
Los siguientes son los beneficios del modelado dimensional son:
El modelado dimensional es simple: Los métodos de modelado dimensional hacen posible que los diseñadores de almacenes creen esquemas de bases de datos que los clientes de las empresas puedan retener y comprender fácilmente. No hay necesidad de una amplia formación sobre cómo leer los diagramas, y no hay una relación complicada entre los diferentes elementos de datos.
El modelado dimensional promueve la calidad de los datos: El esquema en estrella permite a los administradores del almacén aplicar controles de integridad referencial en el almacén de datos. Dado que la clave de información de hechos es una concatenación de los elementos esenciales de sus dimensiones asociadas, un registro de hechos se carga activamente si los registros de las dimensiones correspondientes están debidamente descritos y también existen en la base de datos.
Al hacer cumplir las restricciones de clave ajena como forma de comprobación de la integridad referencial, los administradores de almacenes de datos añaden una línea de defensa contra los datos corruptos de los almacenes.
La optimización del rendimiento es posible gracias a los agregados: A medida que aumenta el tamaño del almacén de datos, la optimización del rendimiento se convierte en una preocupación acuciante. Los clientes que tienen que esperar durante horas para obtener una respuesta a una consulta se desanimarán rápidamente con los almacenes. Los agregados son uno de los métodos más sencillos con los que se puede optimizar el rendimiento de las consultas.
Desventajas del modelado dimensional
- Para mantener la integridad de los hechos y las dimensiones, cargar los almacenes de datos con un registro procedente de varios sistemas operativos es complicado.
- Es severo modificar el funcionamiento del almacén de datos si la organización que adopta la técnica dimensional cambia el método en que hace negocios.
Elementos del modelado dimensional
Hecho
Es una colección de elementos de datos asociados, que consiste en medidas y datos de contexto. Típicamente representa elementos de negocio o transacciones de negocio.
Dimensiones
Es una colección de datos que describen una dimensión de negocio. Las dimensiones deciden el fondo contextual para los hechos, y son el marco sobre el que se realiza OLAP.
Medida
Es un atributo numérico de un hecho, que representa el rendimiento o el comportamiento del negocio en relación con las dimensiones.
Considerando el contexto relacional, hay dos modelos básicos que se utilizan en el modelado dimensional:
- Modelo de estrella
- Modelo de copo de nieve
El modelo de estrella es la estructura subyacente para un modelo dimensional. Tiene una tabla central amplia (tabla de hechos) y un conjunto de tablas más pequeñas (dimensiones) dispuestas en un diseño radial alrededor de la tabla primaria. El modelo de copo de nieve es la conclusión de la descomposición de una o más de las dimensiones.
Tabla de hechos
Las tablas de hechos se utilizan para los hechos de datos o medidas en el negocio. Los hechos son los elementos de datos numéricos que son de interés para la empresa.
Características de la tabla de hechos
La tabla de hechos incluye valores numéricos de lo que medimos. Por ejemplo, un valor de hecho de 20 podría significar que se han vendido 20 widgets.
Cada tabla de hechos incluye las claves de las tablas de dimensiones asociadas. Estas se conocen como claves externas en la tabla de hechos.
Las tablas de hechos suelen incluir un pequeño número de columnas.
Cuando se compara con las tablas de dimensiones, las tablas de hechos tienen un gran número de filas.
Tabla de dimensiones
Las tablas de dimensiones establecen el contexto de los hechos. Las tablas de dimensiones almacenan campos que describen los hechos.
Características de la tabla de dimensiones
Las tablas de dimensiones contienen los detalles sobre los hechos. Eso, como ejemplo, permite a los analistas de negocio entender mejor los datos y sus informes.
Las tablas de dimensiones incluyen datos descriptivos sobre los valores numéricos de la tabla de hechos. Es decir, contienen los atributos de los hechos. Por ejemplo, las tablas de dimensiones para una función de análisis de marketing podrían incluir atributos como la hora, la región de marketing y el tipo de producto.
Como el registro de una tabla de dimensiones está desnormalizado, suele tener un gran número de columnas. Las tablas de dimensiones incluyen un número significativamente menor de filas de información que la tabla de hechos.
Los atributos de una tabla de dimensiones se utilizan como encabezados de filas y columnas en la visualización de un documento o de los resultados de una consulta.
Ejemplo: Una ciudad y un estado pueden ver un resumen de la tienda en una tabla de hechos. El resumen de artículos puede verse por marca, color, etc. La información del cliente se puede ver por nombre y dirección.
Tabla de hechos
Identificación del tiempo | Identificación del producto | Identificación del cliente | Unidad vendida | ||
---|---|---|---|---|---|
4 | 17 | 2 | 1 | ||
8 | 21 | 3 | 2 | ||
8 | 4 | 1 |
Identificación del cliente | Nombre | Género | Ingresos | Educación | Región |
---|---|---|---|---|---|
1 | Rohan | Hombre | 2 | 3 | 4 |
2 | Sandeep | Hombre | 3 | 5 | 1 |
3 | Gaurav | Macho | 1 | 7 | 3 |