No último post "Databricks Lakehouse e Data Mesh", apresentamos o Data Mesh com base no Databricks Lakehouse. Este post explorará como os recursos do Databricks Lakehouse suportam o Data Mesh de um ponto de vista arquitetônico.
Data Mesh é um paradigma arquitetônico e organizacional, não uma tecnologia ou solução que você compra. No entanto, para implementar um Data Mesh de forma eficaz, você precisa de uma plataforma flexível que garanta a colaboração entre personas de dados, entregue qualidade de dados e facilite a interoperabilidade e a produtividade em todas as cargas de trabalho de dados e IA.
Vamos ver como os recursos da plataforma Databricks Lakehouse atendem a essas necessidades.
O bloco de construção básico de um data mesh é o domínio de dados, geralmente composto pelos seguintes componentes:
Isso é representado na figura abaixo:
Para facilitar a colaboração entre domínios e a análise self-service, serviços comuns em torno de mecanismos de controle de acesso e catalogação de dados são frequentemente fornecidos centralmente. Por exemplo, o Databricks Unity Catalog fornece não apenas recursos de catalogação informativos, como descoberta de dados e linhagem, mas também a aplicação de controles de acesso granulares e auditoria desejados por muitas organizações hoje.
O Data Mesh pode ser implantado em uma variedade de topologias. Fora de empresas digitais modernas, um Data Mesh altamente descentralizado com domínios totalmente independentes geralmente não é recomendado, pois leva à complexidade e sobrecarga nas equipes de domínio, em vez de permitir que elas se concentrem na lógica de negócios e em dados de alta qualidade. Dois exemplos populares frequentemente vistos em empresas são o Harmonized Data Mesh e o Hub & Spoke Data Mesh.
Um data mesh harmonizado enfatiza a autonomia dentro dos domínios:
As implicações de uma abordagem harmonizada podem incluir:
Essa abordagem pode ser desafiadora em organizações globais onde diferentes equipes têm diferentes amplitudes e profundidades de habilidades e podem ter dificuldade em se manter totalmente sincronizadas com as práticas e políticas mais recentes.
Um Data Mesh Hub & Spoke incorpora um local centralizado para gerenciar ativos de dados compartilháveis e dados que não se encaixam logicamente em um único domínio:
As implicações para um Data Mesh Hub and Spoke incluem:
Em ambas essas abordagens, os domínios também podem ter necessidades comuns e repetíveis, como:
Ter um pool centralizado de habilidades e expertise, como um centro de excelência, pode ser benéfico tanto para atividades repetíveis comuns entre os domínios quanto para atividades infrequentes que exigem expertise de nicho que pode não estar disponível em cada domínio.
Também é perfeitamente viável ter alguma variação entre um data mesh totalmente harmonizado e um modelo hub-and-spoke. Por exemplo, ter um data hub global mínimo para hospedar apenas ativos de dados que não se encaixam logicamente em um único domínio e para gerenciar dados adquiridos externamente que são usados em vários domínios. O Unity Catalog desempenha o papel fundamental de fornecer descoberta de dados autenticada onde quer que os dados sejam gerenciados em uma implantação Databricks.
Independentemente do tipo de arquitetura lógica de Data Mesh implantada, muitas organizações enfrentarão o desafio de criar um modelo operacional que abranja regiões de nuvem, provedores de nuvem e até mesmo entidades legais. Além disso, à medida que as organizações evoluem para a produtização (e potencialmente até monetização) de ativos de dados, o compartilhamento de dados interoperável em nível empresarial permanece primordial para a colaboração não apenas entre domínios internos, mas também entre empresas.
Delta Sharing oferece uma solução para este problema com os seguintes benefícios:
Data Mesh e Lakehouse surgiram devido a pontos problemáticos e deficiências comuns de data warehouses corporativos e data lakes tradicionais[1][2]. O Data Mesh articula abrangentemente a visão de negócios e as necessidades para melhorar a produtividade e o valor dos dados, enquanto o Databricks Lakehouse fornece uma base aberta e escalável para atender a essas necessidades com máxima interoperabilidade, custo-benefício e simplicidade.
Neste artigo, enfatizamos duas capacidades de exemplo da plataforma Databricks Lakehouse que melhoram a colaboração e a produtividade, ao mesmo tempo em que suportam a governança federada, a saber:
No entanto, há uma infinidade de outros recursos do Databricks que servem como ótimos habilitadores na jornada da Data Mesh para diferentes personas. Por exemplo:
Para saber mais sobre Lakehouse para Data Mesh:
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
