En el último blog "Databricks Lakehouse y Data Mesh", presentamos el Data Mesh basado en el Databricks Lakehouse. Este blog explorará cómo las capacidades de Databricks Lakehouse soportan el Data Mesh desde un punto de vista arquitectónico.
Data Mesh es un paradigma arquitectónico y organizativo, no una tecnología o solución que se compra. Sin embargo, para implementar un Data Mesh de manera efectiva, necesitas una plataforma flexible que garantice la colaboración entre las personas que trabajan con datos, ofrezca calidad de datos y facilite la interoperabilidad y la productividad en todas las cargas de trabajo de datos e IA.
Veamos cómo las capacidades de la Plataforma Databricks Lakehouse abordan estas necesidades.
El bloque de construcción básico de un data mesh es el dominio de datos, que generalmente se compone de los siguientes componentes:
Esto se representa en la siguiente figura:
Para facilitar la colaboración entre dominios y el análisis autoservicio, a menudo se proporcionan centralmente servicios comunes en torno a mecanismos de control de acceso y catalogación de datos. Por ejemplo, Databricks Unity Catalog proporciona no solo capacidades de catalogación informativas como el descubrimiento de datos y el linaje, sino también la aplicación de controles de acceso detallados y auditoría deseados por muchas organizaciones hoy en día.
Data Mesh se puede implementar en una variedad de topologías. Fuera de las empresas nativas digitales modernas, un Data Mesh altamente descentralizado con dominios completamente independientes generalmente no se recomienda, ya que conduce a complejidad y sobrecarga en los equipos de dominio en lugar de permitirles centrarse en la lógica de negocio y datos de alta calidad. Dos ejemplos populares que se ven a menudo en las empresas son el Data Mesh Armonizado y el Data Mesh Hub & Spoke.
Un data mesh armonizado enfatiza la autonomía dentro de los dominios:
Las implicaciones de un enfoque armonizado pueden incluir:
Este enfoque puede ser desafiante en organizaciones globales donde los diferentes equipos tienen diferente amplitud y profundidad de habilidades y pueden tener dificultades para mantenerse completamente sincronizados con las últimas prácticas y políticas.
Un Data Mesh Hub & Spoke incorpora una ubicación centralizada para gestionar activos de datos compartibles y datos que no pertenecen lógicamente a ningún dominio individual:
Las implicaciones para un Data Mesh Hub and Spoke incluyen:
En ambos enfoques, los dominios también pueden tener necesidades comunes y repetibles como:
Tener un grupo centralizado de habilidades y experiencia, como un centro de excelencia, puede ser beneficioso tanto para actividades repetibles comunes en todos los dominios como para actividades infrecuentes que requieren experiencia especializada que puede no estar disponible en cada dominio.
También es perfectamente factible tener alguna variación entre un data mesh completamente armonizado y un modelo hub-and-spoke. Por ejemplo, tener un data hub global mínimo para alojar solo activos de datos que no se encuentran lógicamente en un solo dominio y para gestionar datos adquiridos externamente que se utilizan en múltiples dominios. Unity Catalog juega un papel fundamental al proporcionar descubrimiento de datos autenticado dondequiera que se gestionen los datos dentro de una implementación de Databricks.
Independientemente del tipo de arquitectura lógica de Data Mesh implementada, muchas organizaciones se enfrentarán al desafío de crear un modelo operativo que abarque regiones en la nube, proveedores de nube e incluso entidades legales. Además, a medida que las organizaciones evolucionan hacia la productización (y potencialmente incluso la monetización) de activos de datos, el intercambio de datos interoperable a nivel empresarial sigue siendo primordial para la colaboración no solo entre dominios internos sino también entre empresas.
Delta Sharing ofrece una solución a este problema con los siguientes beneficios:
Data Mesh y Lakehouse surgieron debido a puntos débiles y deficiencias comunes de los data warehouses empresariales y los lagos de datos tradicionales[1][2]. Data Mesh articula de manera integral la visión y las necesidades del negocio para mejorar la productividad y el valor de los datos, mientras que Databricks Lakehouse proporciona una base abierta y escalable para satisfacer esas necesidades con la máxima interoperabilidad, rentabilidad y simplicidad.
En este artículo, enfatizamos dos capacidades de ejemplo de la plataforma Databricks Lakehouse que mejoran la colaboración y la productividad al tiempo que respaldan la gobernanza federada, a saber:
Sin embargo, existen una gran cantidad de otras características de Databricks que sirven como excelentes habilitadores en el viaje de Data Mesh para diferentes perfiles. Por ejemplo:
Para obtener más información sobre Lakehouse para Data Mesh:
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
