Ir al contenido principal

Arquitectura Medallion

¿Qué es una arquitectura medallion?

Una arquitectura Medallion es un patrón de diseño de datos que se utiliza para organizar los datos de forma lógica en un lakehouse, con el objetivo de mejorar de forma incremental y progresiva la estructura y la calidad de los datos a medida que fluyen por cada capa de la arquitectura (de las tablas de la capa Bronce ⇒ Plata ⇒ Oro). A las arquitecturas Medallion a veces también se las denomina arquitecturas "multi-hop".

Hay más para explorar aquí

Creación de pipelines de datos con arquitectura medallion

Databricks proporciona herramientas como Spark Declarative Pipelines que permiten a los usuarios crear al instante canalizaciones de datos con tablas de bronce, plata y oro a partir de solo unas pocas líneas de código. Y, con las tablas de streaming y las vistas materializadas, los usuarios pueden crear canalizaciones de Lakeflow de streaming basadas en Apache Spark™️ Structured Streaming que se actualizan de forma incremental. Para obtener más detalles, consulte la documentación de Databricks sobre cómo combinar tablas de streaming y vistas materializadas en una sola canalización.

Capa de bronce (datos crudos)

La capa Bronce es donde guardamos todos los datos de sistemas de origen externos. Las estructuras de las tablas de esta capa corresponden a las estructuras de las tablas del sistema de origen "tal cual," junto con las columnas de metadatos adicionales que capturan la fecha/hora de carga, el ID del proceso, etc. El enfoque en esta capa es la captura de datos de cambios rápida y la capacidad de proporcionar un archivo histórico de origen (almacenamiento en frío), linaje de datos, auditabilidad y reprocesamiento si es necesario sin volver a leer los datos del sistema de origen.

Capa Silver (datos limpios y conformados)

En la capa de plata del lakehouse, los datos de la capa de bronce se cotejan, fusionan, ajustan y limpian ("lo suficiente") para que la capa de plata pueda proporcionar una "vista empresarial" de todas sus entidades, conceptos y transacciones comerciales clave. Por ejemplo, clientes maestros, tiendas, transacciones no duplicadas y tablas de referencias cruzadas).

La capa Silver reúne los datos de diferentes fuentes en una vista empresarial y habilita el análisis de autoservicio para informes ad hoc, análisis avanzados y ML. Funciona como una fuente para que los analistas departamentales, los ingenieros de datos y los científicos de datos creen más proyectos y análisis para responder a problemas comerciales a través de proyectos de datos empresariales y departamentales en la capa Gold.

En el paradigma de ingeniería de datos del lakehouse, normalmente se sigue la metodología ELT en lugar de la ETL, lo que significa que solo se aplican transformaciones mínimas o "suficientes" y reglas de limpieza de datos mientras se carga la capa Silver. Se prioriza la velocidad y la agilidad para incorporar y entregar los datos en el lago de datos, y se aplican muchas transformaciones complejas y reglas de negocio específicas del proyecto mientras se cargan los datos de la capa Silver a la Gold. Desde la perspectiva del modelado de datos, la capa de plata tiene modelos de datos más parecidos a la tercera forma normal. En esta capa se pueden usar modelos de datos con buen rendimiento de escritura, del tipo Data Vault.

Capa Gold (tablas seleccionadas a nivel de negocio)

Los datos en la capa Gold del lakehouse suelen organizarse en bases de datos "específicas del proyecto" listas para el consumo. La capa Gold se usa para la generación de reportes y utiliza modelos de datos más desnormalizados y optimizados para la lectura con menos joins. Aquí se aplica la capa final de transformaciones de datos y reglas de calidad de datos. La capa de presentación final de proyectos como el análisis de clientes, el análisis de la calidad del producto, el análisis de inventario, la segmentación de clientes, las recomendaciones de productos, el análisis de marketing/ventas, etc., encaja en esta capa. Vemos que muchos modelos de datos basados en esquema de estrella estilo Kimball o Data marts estilo Inmon encajan en esta capa Gold del lakehouse.

Así, se puede ver que los datos se curan a medida que pasan por las diferentes capas de un lakehouse. En algunos casos, también vemos que muchos Data Marts y EDW de la pila de tecnología RDBMS tradicional se ingieren en el lakehouse, para que, por primera vez, las empresas puedan hacer analíticas avanzadas y ML "pan-EDW", lo que simplemente no era posible o era demasiado costoso de hacer en una pila tradicional. Por ejemplo, Los datos de IoT y fabricación se combinan con los datos de ventas y marketing para el análisis de defectos o la genómica del sector salud, así como los datos clínicos de EMR/HL7 se combinan con los datos de reclamos financieros para crear un lago de datos (Data Lake) de atención médica para un análisis oportuno y mejorado de la atención al paciente.)

Beneficios de una arquitectura de lakehouse

  • Modelo de datos simple
  • Fácil de entender e implementar
  • Permite un ETL incremental.
  • Puedes recrear tus tablas a partir de datos sin procesar en cualquier momento
  • Transacciones ACID, viaje en el tiempo

Una introducción rápida a los lakehouses

Un lakehouse es un paradigma de arquitectura de plataforma de datos que combina las mejores características de los data lakes y los data warehouses. Un lakehouse moderno es una plataforma de datos altamente escalable y de gran rendimiento que aloja conjuntos de datos tanto sin procesar como preparados para un consumo empresarial rápido y para impulsar estadísticas y decisiones empresariales avanzadas. Rompe los silos de datos y permite un acceso seguro y fluido a los datos para los usuarios autorizados de toda la empresa en una sola plataforma.

Arquitectura medallion y data mesh

La arquitectura Medallion es compatible con el concepto de una malla de datos. Las tablas de bronce y plata se pueden unir en una relación de "uno a varios", lo que significa que los datos de una sola tabla ascendente podrían usarse para generar varias tablas descendentes.

[ Pruebe Databricks gratis hoy ]

Volver al glosario