Ir al contenido principal

Data Mesh

Data Mesh

Los datos son críticos para las empresas, y sirven como materia prima para la innovación y el avance. Su importancia crece a medida que las organizaciones se vuelven más centradas en los datos y las decisiones, lo que crea grandes desafíos para las organizaciones que intentan mantenerse al día. Los lagos de datos y almacenes heredados contribuyen a este problema, crean silos, reducen la visibilidad de los datos y un procesamiento de datos lento y complicado. Estas barreras y cuellos de botella dificultan la colaboración y dejan recursos de datos valiosos sin utilizar. Las empresas necesitan una nueva arquitectura de datos para aprovechar al máximo sus datos. La malla de datos (Data Mesh) es una arquitectura de datos moderna que puede resolver este problema.

¿Qué es un Data Mesh?

La malla de datos es una arquitectura de datos organizacional para gestionar datos a escala y obtener más valor de esos datos.

La descentralización es fundamental para la malla de datos. Los datos se gestionan de forma independiente por varios dominios empresariales, en lugar de ser gestionados centralmente por un único equipo para toda la organización. Sin embargo, las normas centrales de gobernanza mantienen la interoperabilidad, la seguridad y la coherencia semántica de los datos.

Los administradores de datos de dominio son responsables de proporcionar productos de datos de alta calidad, así como de proteger sus datos. Debido a que solo son responsables de los datos comerciales de su dominio, no de los datos de toda la organización, pueden proporcionar datos más relevantes de manera más rápida y eficiente mientras mantienen una sólida gobernanza de datos.

Los principios de Data Mesh equilibran la autonomía empresarial con la interoperabilidad global. La arquitectura reduce la dependencia de equipos centralizados y evita los silos de datos, al tiempo que promueve un entorno colaborativo para que los equipos cocreen y compartan productos de datos que generen valor comercial para la organización.

Más temas para descubrir

Principios de arquitectura de la malla de datos

Cuatro principios constituyen la base de una arquitectura lógica de la malla de datos:

  1. Propiedad del dominio:la malla de datos utiliza una arquitectura distribuida en la que los equipos de dominio mantienen la plena responsabilidad y autonomía de sus datos a lo largo de su ciclo de vida. Estos equipos de dominio están compuestos por diferentes departamentos o funciones dentro de una organización, como ventas o contabilidad, cada uno de los cuales genera sus propios datos. La propiedad del dominio asegura que los datos sean propiedad de los usuarios más familiarizados con ellos.
  2. Datos como producto: los datos se consideran un producto y los equipos y departamentos dentro de una organización se consideran clientes. La organización aplica principios de gestión de productos al ciclo de vida del análisis de datos, lo que asegura que se ofrezcan datos de calidad a los consumidores de datos. Los productos de datos deben ser fáciles de descubrir, confiables, autodescriptivos, direccionables e interoperables. Además de datos y metadatos, pueden contener código, paneles, características, modelos y otros activos necesarios para crear y mantener el producto de datos.
  3. Plataforma de infraestructura de autoservicio: mientras los equipos de dominio gestionan sus propios productos de datos, la organización utiliza una plataforma armonizada y automatizada para construir, ejecutar y mantener productos de datos interoperables. Proveer herramientas estándar dentro del marco de una plataforma de autoservicio permite la escalabilidad de la arquitectura de la malla de datos.
  4. Gobernanza federada: este principio garantiza una gobernanza de datos centralizada y coherente en todos los dominios. El cumplimiento se supervisa y gestiona de forma centralizada mediante un catálogo de datos, herramientas de gobernanza de datos y la aplicación automatizada de políticas. Esto garantiza un ecosistema de datos que cumpla con las normas de la organización y las regulaciones del sector.

Beneficios de Data Mesh

Tradicionalmente, las organizaciones utilizan un equipo de datos centralizado para gestionar los datos de almacenamiento, formateo, procesamiento y análisis en toda la empresa. Esto garantiza una gestión y gobernanza coherentes de los datos, pero también crea cuellos de botella. Los equipos suelen escapar de esta centralización cuando crean inadvertidamente silos que aceleran las decisiones sobre los datos. Sin embargo, también impide que los usuarios de datos obtengan datos relevantes y precisos de manera oportuna. Además, los equipos centralizados de datos e inteligencia artificial suelen tener un conocimiento limitado del contexto único de los conjuntos de datos de dominio, por lo que pierden oportunidades de crear productos de datos significativos.

A medida que el volumen y el valor de los datos continúan creciendo, los equipos centralizados de datos e inteligencia artificial a menudo no pueden satisfacer la demanda. Esto lleva a un equipo abrumado, dificulta que los usuarios empresariales accedan y utilicen los datos que necesitan e impide que la organización aproveche todo el valor de sus datos.

En una malla de datos, la gestión de datos está descentralizada y queda en manos de expertos en el dominio que comprenden los datos con los que trabajan. Esto resulta en varios beneficios:

  • Velocidad y simplicidad: los usuarios pueden acceder a los datos correctos con mayor rapidez al contactar directamente a los gestores de dominio para las solicitudes, cambios y aprobaciones.
  • Productos de datos de alta calidad: los gestores de datos de dominio crean productos más relevantes y de mayor calidad que aportan valor a los usuarios empresariales.
  • Descubrimiento mejorado: si bien la administración y el acceso están descentralizados, todos los datos se registran y se gobiernan de manera centralizada, lo que evita los silos y facilita su búsqueda.
  • Eficiencia de costos y rendimiento: la arquitectura de datos distribuidos fomenta la adopción de la transmisión de datos en tiempo real y mejora la visibilidad de la asignación de recursos y el almacenamiento, lo que resulta en una mayor eficiencia, una mejor planificación financiera y menores costos.
  • Gobernanza más sólida: Las políticas de seguridad y cumplimiento federadas se aplican dentro de los dominios, así como entre ellos. El monitoreo y la auditoría están centralizados para garantizar una adherencia constante.

Componentes básicos de la malla de datos

Para crear una malla de datos, las organizaciones deben tener ciertos elementos en su lugar:

  • Una estrategia integral de productos de datos que establezca estándares y procesos comunes, como un plan global para contratos de productos de datos, una plataforma de publicación para el descubrimiento de datos y procesos de gobernanza centralizados y autoridad, además de una estrategia que brinde una experiencia de autoservicio a sus usuarios.
  • Una plataforma armonizada donde residan todos los datos y esté lista para todos los diferentes tipos de cargas analíticas de trabajo, como una plataforma de inteligencia de datos.
  • Una plataforma flexible que garantice la colaboración entre diferentes perfiles de datos, que ofrezca calidad de datos y facilite la interoperabilidad y la productividad en todas las cargas de trabajo de datos e inteligencia artificial.
  • Servicios de gobernanza de datos gestionados de forma centralizada en torno al control de acceso y la catalogación de datos para facilitar la colaboración entre dominios y el análisis de autoservicio.
  • Una capa de uso compartido federado que permita compartir datos sin tener problemas entre los dominios.
  • Para muchas organizaciones, también es necesario considerar cómo se pueden compartir datos de forma segura con partes externas.

Adopción de una malla de datos con la plataforma de inteligencia de datos de Databricks

La plataforma de inteligencia de datos de Databricks (Databricks Data Intelligence Platform) ofrece una base tecnológica para que las organizaciones adopten una arquitectura de malla de datos y modernicen su enfoque de gestión de datos. Databricks es una plataforma nativa de la nube para datos, análisis e inteligencia artificial que combina el rendimiento y las características de un almacén de datos con la flexibilidad económica y la escalabilidad de un lago de datos moderno. Su arquitectura abierta ofrece flexibilidad en cómo se organizan y estructuran los datos, mientras proporciona una infraestructura de gestión unificada en todas las cargas de trabajo de datos y análisis.

La plataforma de Databricks está organizada en unidades denominadas espacios de trabajo que admiten una malla de datos centrada en el dominio. Databricks admite varios espacios de trabajo, cada uno correspondiente a uno o más dominios. Cada uno es de propiedad y gestión local y sirve como sede para la colaboración. Dentro del espacio de trabajo, los dominios pueden administrar productos de datos mediante una infraestructura de autoservicio para toda la organización.

Databricks ofrece herramientas para la gestión y el procesamiento de datos a lo largo de todo el ciclo de vida. Permite el procesamiento de datos tanto por lotes como por flujo, lo que permite a los usuarios crear y gestionar productos de datos de forma más eficiente. También puede unificar los formatos de almacenamiento de tablas para que cada dominio pueda utilizar su formato preferido, a la vez que mantiene un enfoque unificado para el almacenamiento de datos y la gestión de metadatos.

Unity Catalog de Databricks, la única solución de gobernanza de datos unificada y abierta de la industria para datos e inteligencia artificial, es fundamental para una malla de datos. Unity Catalog permite una administración centralizada mediante la integración de gobernanza, seguridad, gestión de usuarios y metadatos en todos los espacios de trabajo. Ofrece capacidades de catalogación de datos como descubrimiento y linaje, así como la aplicación de controles de acceso detallados y registros de auditoría. Los controles de seguridad y acceso solo se gestionan una vez, lo que simplifica la gobernanza de datos. Unity Catalog organiza los datos en catálogos, lo que permite la gestión de productos de datos específicos del dominio.

Databricks también ofrece un uso compartido de datos interoperable de nivel empresarial para fomentar la colaboración entre dominios internos y externos. Delta Sharing permite a las organizaciones compartir datos de forma segura sin realizar copias, independientemente de la plataforma informática o la región de la nube. Delta Sharing proporciona la base para una amplia gama de actividades de intercambio de datos externos, incluida la publicación o adquisición de datos a través de un mercado de datos.

Con Unity Catalog y Delta Sharing, Databricks ofrece a las organizaciones flexibilidad para organizar y gestionar datos y análisis a escala. Los datos se pueden organizar en una malla de datos o en una arquitectura multitenencia, lo que admite soluciones de gestión de datos centralizadas y distribuidas.

La arquitectura de Data Mesh ofrece a las empresas una nueva forma de abordar los datos y aprovechar al máximo su valor. Databricks proporciona una base abierta y escalable para hacer realidad esta visión, con interoperabilidad, rentabilidad, gobernanza y simplicidad garantizadas.

    Volver al glosario