Ir para o conteúdo principal

Databricks Lakehouse e Data Mesh, Parte 1

Databricks Lakehouse and Data Mesh, Part 1

Este é o primeiro post de uma série em duas partes. Neste artigo, apresentaremos o conceito de data mesh e as capacidades do Databricks disponíveis para implementar um data mesh. O segundo post examinará diferentes opções de data mesh e fornecerá detalhes sobre a implementação de um data mesh com base no Databricks Lakehouse.

Data mesh é um paradigma que descreve um conjunto de princípios e arquitetura lógica para escalar plataformas de análise de dados. O objetivo é extrair mais valor dos dados como um ativo em escala. A frase 'data mesh' foi introduzida por Zhamak Dehghani em 2019 e expandida em seu artigo de 2020 Data Mesh Principles and Logical Architecture.

No núcleo da arquitetura lógica do data mesh estão quatro princípios:

  1. Propriedade de domínio: adoção de uma arquitetura distribuída onde as equipes de domínio - produtoras de dados - mantêm total responsabilidade por seus dados ao longo de seu ciclo de vida, desde a captura até a curadoria, análise e reutilização
  2. Dados como produto: aplicação de princípios de gerenciamento de produtos ao ciclo de vida de análise de dados, garantindo que dados de qualidade sejam fornecidos aos consumidores de dados, que podem estar dentro e fora do domínio do produtor
  3. Plataforma de infraestrutura de autoatendimento: adoção de uma abordagem agnóstica ao domínio para o ciclo de vida de análise de dados, usando ferramentas e métodos comuns para construir, executar e manter produtos de dados interoperáveis
  4. Governança federada: garantia de um ecossistema de dados que adere às regras organizacionais e regulamentações do setor por meio de padronização

Produtos de dados são um conceito importante para o data mesh. Eles não são apenas conjuntos de dados, mas dados tratados como um produto: precisam ser descobertos, confiáveis, autodescritivos, endereçáveis e interoperáveis. Além de dados e metadados, eles podem conter código, dashboards, features, modelos e outros recursos necessários para criar e manter o produto de dados.

Muitos clientes perguntam: 'Podemos criar um data mesh com o Databricks Lakehouse?' A resposta é sim! Vários dos maiores clientes da Databricks no mundo adotaram o data mesh usando o Lakehouse como base tecnológica.

O Databricks Lakehouse é uma plataforma nativa em nuvem de dados, análise e IA que combina o desempenho e os recursos de um data warehouse com o baixo custo, flexibilidade e escalabilidade de um data lake moderno. Para uma introdução, leia O que é um Lakehouse?

O Lakehouse aborda uma preocupação fundamental com os data lakes que levou aos princípios do data mesh – que um data lake monolítico pode se tornar um pântano de dados incontrolável. O Databricks Lakehouse é uma arquitetura aberta que oferece flexibilidade na forma como os dados são organizados e estruturados, ao mesmo tempo que fornece uma infraestrutura de gerenciamento unificada para todas as cargas de trabalho de dados e análise.

UM LÍDER 5X

Gartner®: Databricks, líder em banco de dados em nuvem

A unidade primária de organização dentro da plataforma Databricks Lakehouse que mapeia para o conceito de domínios em um data mesh é o 'workspace'. Um Databricks Lakehouse pode ter um ou mais workspaces, com cada workspace permitindo propriedade de dados local e controle de acesso.

Figura 1: Recursos do Databricks Lakehouse para habilitar um data mesh
Figura 1: Recursos do Databricks Lakehouse para habilitar um data mesh

Cada workspace encapsula um ou mais domínios, serve como base para colaboração e permite que o(s) domínio(s) gerencie(m) seus produtos de dados usando uma infraestrutura comum de autoatendimento e agnóstica ao domínio. Isso pode incluir automação no provisionamento do ambiente e orquestração de pipelines de dados usando serviços integrados como Databricks Workflows, e automação de implantação usando o provedor Terraform do Databricks. O Unity Catalog fornece governança federada, descoberta e linhagem como um serviço centralizado no nível da conta da organização que executa o Databricks. (figura 1 lado esquerdo).

Para muitas organizações, há a necessidade de considerar como os dados podem ser compartilhados com segurança com partes externas além de um limite de governança. Isso também pode se aplicar a domínios internos hospedados em diferentes provedores de nuvem e regiões. O Databricks Lakehouse oferece uma solução na forma de Delta Sharing (figura 1 lado direito). O Delta Sharing permite que as organizações compartilhem dados com segurança com partes externas, independentemente da plataforma de computação. Os dados não precisam ser duplicados e o acesso é automaticamente auditado e registrado.

O Delta Sharing também fornece a base para uma gama mais ampla de atividades de compartilhamento de dados externos. Isso inclui publicar ou adquirir dados por meio de um marketplace de dados, como o Databricks Marketplace, e colaborar com segurança em dados entre limites organizacionais e técnicos, habilitado dentro da plataforma Databricks como Databricks Cleanrooms.

A combinação do Unity Catalog e Delta Sharing significa que a plataforma Databricks Lakehouse oferece flexibilidade na forma como uma organização escolhe organizar e gerenciar dados e análises em escala, incluindo implantações que abrangem vários provedores de nuvem, diferentes regiões geográficas e implantações que exigem a capacidade de compartilhar ativos de dados com entidades externas. Com o Databricks Lakehouse, os dados podem ser organizados em um data mesh, mas também podem ser organizados usando qualquer arquitetura apropriada, de totalmente centralizada a totalmente distribuída.

A segunda parte deste post examinará diferentes opções de data mesh e fornecerá detalhes sobre como implementar um data mesh com base no Databricks Lakehouse.

Para saber mais sobre os recursos do Databricks Lakehouse mencionados neste post:

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada