Os dados são críticos para as empresas, atuando como matéria-prima para a inovação e o progresso. Sua importância cresceu à medida que as organizações se tornaram mais centradas em dados e decisões, criando grandes desafios para as organizações que tentam acompanhar. Data lakes e warehouses legados contribuem para esse problema, criando silos, visibilidade reduzida de dados e processamento de dados lento e complicado. Essas barreiras e gargalos impedem a colaboração e deixam recursos valiosos de dados não utilizados. As empresas precisam de uma nova arquitetura de dados para maximizar o uso de seus dados. O Data Mesh é uma arquitetura de dados moderna que pode resolver esse problema.
Data Mesh é uma arquitetura de dados organizacional para gerenciar dados em escala e extrair mais valor desses dados.
A descentralização é a chave para o Data Mesh. Os dados são de propriedade e gerenciados de forma independente por vários domínios de negócios, em vez de serem gerenciados centralmente por uma única equipe para toda a organização — embora regras centrais de governança mantenham os dados interoperáveis, seguros e semanticamente consistentes.
Os gestores de dados de domínio são responsáveis por fornecer produtos de dados de alta qualidade e proteger seus dados. Como eles são responsáveis apenas pelos dados de negócios de seu domínio — e não pelos dados de toda a organização —, eles podem fornecer dados mais relevantes de forma mais rápida e eficiente, mantendo uma governança de dados robusta.
Os princípios do Data Mesh equilibram a autonomia empresarial com a interoperabilidade global. A arquitetura reduz a dependência de equipes centralizadas e evita silos de dados, promovendo um ambiente colaborativo para que as equipes cocriem e compartilhem produtos de dados que gerem valor de negócio para a organização.
Quatro princípios fornecem a base para uma arquitetura lógica do Data Mesh:
Tradicionalmente, as organizações utilizam uma equipe centralizada de dados para gerenciar dados — incluindo armazenamento, formatação, processamento e análise — em toda a organização. Isso garante uma gestão de dados e governança consistentes, mas também cria gargalos. Frequentemente, as equipes escapam dessa centralização ao criar, sem querer, silos que aceleram as decisões relacionadas a dados. No entanto, isso também impede que os usuários de dados acessem dados relevantes e precisos de forma oportuna. Além disso, as equipes centralizadas de dados e AI frequentemente têm uma compreensão limitada do contexto único dos datasets de domínio, o que as faz perder oportunidades de criar produtos de dados significativos.
À medida que o volume e o valor dos dados continuam a aumentar, as equipes centralizadas de dados e AI não conseguem atender à demanda com frequência. Isso resulta em uma equipe sobrecarregada, dificulta o acesso e uso dos dados necessários pelos usuários de negócios e impede que a organização aproveite plenamente o valor de seus dados.
Em um Data Mesh, a gestão de dados é descentralizada e confiada a especialistas de domínio que compreendem os dados com os quais trabalham. Isso resulta em vários benefícios:
Para criar um Data Mesh, as organizações devem ter certos elementos estabelecidos, incluindo:
A Databricks Data Intelligence Platform oferece uma base tecnológica para as organizações adotarem uma arquitetura de malha de dados e modernizarem sua abordagem de data management. A Databricks é uma plataforma nativa cloud para dados, análise de dados e AI que combina o desempenho e os recursos de um data warehouse com a flexibilidade e escalabilidade de baixo custo de um data lake moderno. Sua arquitetura aberta oferece flexibilidade na organização e estruturação dos dados, enquanto fornece uma infraestrutura de gerenciamento unificada para cargas de trabalho de dados e analítica.
A Databricks Platform é organizada em unidades chamadas workspaces compatíveis com um Data Mesh centrado no domínio. A Databricks é compatível com múltiplos workspaces, cada um correspondendo a um ou mais domínios. Cada um é de propriedade e gerenciado localmente e serve como o centro para a colaboração. Dentro do workspace, os domínios podem gerenciar produtos de dados usando uma infraestrutura de autoatendimento em toda a organização.
A Databricks oferece ferramentas para gestão de dados e processamento de dados ao longo de todo o ciclo de vida. Ela permite o processamento de dados em lotes e transmissão, permitindo que os usuários criem e gerenciem produtos de dados com mais eficiência. Ela também pode unificar os formatos de armazenamento de tabelas para que cada domínio possa usar seu formato preferido enquanto mantém uma abordagem unificada para o armazenamento de dados e o gerenciamento de metadados.
O Unity Catalog da Databricks, a única solução de governança de dados aberta e unificada do setor para dados e IA, é fundamental para um Data Mesh. O Unity Catalog permite o gerenciamento centralizado ao integrar governança, segurança, gerenciamento de usuários e metadados em workspaces. Ele oferece capacidades de catálogo de dados, como descobrimento e linhagem, além da aplicação de controles de acesso detalhados e registro de auditoria. Os controles de segurança e acesso são gerenciados uma única vez, o que simplifica a governança de dados. O Unity Catalog organiza dados em catálogos, permitindo o gerenciamento de produtos de dados específico para cada domínio.
A Databricks também oferece compartilhamento de dados interoperável de nível empresarial para apoiar a colaboração entre domínios internos e externos. O Delta Sharing permite que as organizações compartilhem dados com segurança e sem duplicação, independentemente da plataforma de computação ou da região da nuvem. O Delta Sharing oferece a base para uma ampla gama de atividades externas de compartilhamento de dados, incluindo a publicação ou aquisição de dados através de um marketplace de dados.
Com o Unity Catalog e o Delta Sharing, a Databricks oferece às organizações flexibilidade para organizar e gerenciar dados e analítica em escala. Os dados podem ser organizados em uma malha de dados ou em uma arquitetura multi-tenant, suportando tanto soluções de gestão de dados centralizadas quanto distribuídas.
A arquitetura Data Mesh oferece às empresas uma nova forma de abordar os dados e explorar completamente seu valor. A Databricks oferece uma base aberta e escalável para concretizar essa visão, garantindo interoperabilidade, custo-benefício, governança e simplicidade.
