Ir al contenido principal

¿Qué es el esquema en estrella?

Diseño de almacén dimensional con una tabla de hechos central conectada a tablas de dimensiones a través de claves externas, optimizada para consultas analíticas con menos uniones

4 Personas Analytics AIBI 2a

Summary

  • Las tablas de hechos contienen métricas cuantitativas (importe de ventas, cantidades, recuentos) y claves externas para las dimensiones, con granularidad que define el nivel de medición (transacción, agregado diario) y admite medidas aditivas, semiaditivas y no aditivas.
  • Las tablas de dimensiones proporcionan un contexto descriptivo (atributos del cliente, detalles del producto, jerarquías temporales), generalmente desnormalizado con estrategias de dimensión de cambio lento (SCD) que rastrean los cambios históricos a través del Tipo 1 (sobrescritura), Tipo 2 (control de versiones) o Tipo 3 (actual/anterior).
  • La optimización de consultas se beneficia del almacenamiento en columnas, la eliminación de particiones, las tablas de resumen preagregadas y la integración de herramientas de BI que admiten operaciones de desglose, segmentación y cubo OLAP para el análisis multidimensional.

¿Qué es un esquema de estrella?

Un esquema de estrella es un modelo de datos multidimensional que se utiliza para organizar datos en una base de datos de modo que sea fácil de entender y analizar. Los esquemas de estrella pueden aplicarse a almacenes de datos, bases de datos, data marts y otras herramientas. El diseño de esquema de estrella está optimizado para consultar grandes conjuntos de datos.

Introducidos por Ralph Kimball en la década de 1990, los esquemas de estrella son eficientes para almacenar datos, mantener el historial y actualizar los datos, ya que reducen la duplicación de definiciones de negocio repetitivas, lo que agiliza la agregación y el filtrado de datos en el almacén de datos.

 

Tablas de hechos y tablas de dimensiones

Un esquema de estrella se usa para desnormalizar los datos de negocio en dimensiones (como el tiempo y el producto) y hechos (como transacciones en montos y cantidades).

Un esquema de estrella tiene una única tabla de hechos en el centro, que contiene "hechos" de negocio (como importes de transacciones y cantidades). La tabla de hechos se conecta a múltiples tablas de dimensión a lo largo de "dimensiones" como el tiempo o el producto. Los esquemas de estrella permiten a los usuarios analizar y desglosar los datos como mejor les parezca, por lo general, uniendo dos o más tablas de hechos y tablas de dimensiones.

Datos desnormalizados

Los esquemas de estrella desnormalizan los datos, lo que significa agregar columnas redundantes a algunas tablas de dimensiones para que consultar y trabajar con los datos sea más rápido y fácil. El objetivo es intercambiar cierta redundancia (duplicación de datos) en el modelo de datos por una mayor velocidad de consulta, evitando operaciones de unión computacionalmente costosas.

En este modelo, la tabla de hechos está normalizada, pero las tablas de dimensiones no lo están. Es decir, los datos de la tabla de hechos solo existen en la tabla de hechos, pero las tablas dimensionales pueden contener datos redundantes.

LÍDER 5X

Gartner®: Databricks, líder en bases de datos en la nube

Beneficios de los esquemas de estrella

  • Los modelos de hechos/dimensionales, como los esquemas de estrella, son sencillos de entender e implementar, y facilitan que los usuarios finales encuentren los datos que necesitan. Se pueden aplicar a los data marts y a otros recursos de datos.
  • Ideal para consultas sencillas debido a su menor dependencia de las uniones al acceder a los datos, en comparación con los modelos normalizados como los esquemas de copo de nieve.
  • Se adaptan bien a los modelos OLAP.
  • Rendimiento de consulta mejorado en comparación con los datos normalizados, porque los esquemas de estrella intentan evitar las uniones computacionalmente costosas.

¿En qué se diferencia un esquema de estrella de la 3NF (tercera forma normal)?

3NF, o Tercera Forma Normal, es un método para reducir la redundancia de datos mediante la normalización. Es un estándar común para las bases de datos que se consideran totalmente normalizadas. Suele tener más tablas que un esquema de estrella debido a la normalización de datos. Por otro lado, las consultas tienden a ser más complejas debido al mayor número de uniones entre tablas grandes.

RECURSOS

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.