Hoje, temos o prazer de anunciar que a Lakehouse Federation no Unity Catalog está agora em Disponibilidade Geral (GA) nas nuvens AWS, Azure e GCP! A Lakehouse Federation permite que você descubra, consulte e governe todos os seus dados em um só lugar. Com este lançamento GA, você pode esperar estabilidade, segurança e prontidão empresarial aprimoradas para suas cargas de trabalho federadas.
Neste post, abordamos as funcionalidades GA da Lakehouse Federation, exploramos como ela está impulsionando análises ágeis nas principais empresas do mundo e discutimos os próximos passos.
Guia Rápido da Lakehouse Federation
Organizações em todo o mundo, independentemente do tamanho ou setor, estão aproveitando dados e IA para impulsionar a inovação. No entanto, por razões históricas, organizacionais ou tecnológicas, os dados muitas vezes permanecem dispersos em vários sistemas operacionais e analíticos. Essa fragmentação leva a vários desafios:
- Dificuldade em descobrir e acessar todos os dados
- Execução lenta devido a gargalos de engenharia
- Conformidade fraca em sistemas isolados
A Lakehouse Federation aborda esses pontos críticos e simplifica a forma como as organizações expõem, consultam e governam sistemas de dados isolados como uma extensão de seu lakehouse. Com essas novas funcionalidades, você pode:
- Criar uma visão unificada do seu patrimônio de dados: Classifique e descubra automaticamente todos os seus dados, estruturados e não estruturados, em um só lugar e permita que todos em sua organização acessem e explorem com segurança todos os dados disponíveis em suas mãos - não importa onde eles residam.
- Consultar e combinar todos os dados de forma eficiente com um único motor: Acelere análises ad hoc e prototipagem em todos os seus dados, análises e casos de uso de IA nos dados mais completos - sem necessidade de ingestão - com um único motor. O planejamento avançado de consultas entre fontes e o cache garantem o desempenho ideal da consulta, mesmo ao acessar e combinar dados de várias plataformas com uma única consulta.
- Proteger dados em todas as fontes de dados: Use um modelo de permissão para definir e aplicar regras de acesso e proteger todos os seus dados em todas as fontes de dados. Aplique regras como segurança em nível de linha e coluna, políticas baseadas em tags, auditoria centralizada de forma consistente entre plataformas, rastreie o uso de dados e atenda aos requisitos de conformidade com linhagem de dados e auditabilidade integradas.
Mais de 5.000 clientes Databricks estão aproveitando a Lakehouse Federation para unificar seus patrimônios de dados, garantindo descoberta e governança de dados consistentes.

"A Lakehouse Federation nos permitiu combinar todos os nossos ativos de dados em vários data warehouses e bancos de dados sob o Unity Catalog, simplificando a descoberta e o gerenciamento de acesso aos dados. Isso desbloqueia uma variedade de casos de uso, incluindo ingestão e consultas ad hoc, tornando nossas análises mais fáceis do que nunca." — Alexander Booth, Assistant Director of Research com o Texas Rangers
Disponibilidade Geral
Temos o prazer de anunciar a Disponibilidade Geral para os conectores MySQL, PostgreSQL, Amazon Redshift, Snowflake, Azure SQL Database, SQL Server e Azure Synapse.
Este lançamento marca um marco importante em algumas áreas:
- Desempenho aprimorado: Com este lançamento, aumentamos significativamente a cobertura de expressões e operadores que podemos enviar (ou seja, delegar para o banco de dados subjacente) para conexões SQL Server, Postgres, MySQL, Snowflake, Redshift e Synapse. Na prática, isso significará consultas com menor latência e criação mais rápida de Materialized Views (MV), tudo isso sem exigir que os usuários modifiquem suas consultas.
- Estabilidade e observabilidade aprimoradas: Atualizamos nosso framework de federação e pushdown para ser mais resiliente e lidar com cenários de falha sem impactar as cargas de trabalho dos usuários.
Também introduzimos Perfis de Consulta aprimorados para dar suporte a metadados e estatísticas específicas de federação, oferecendo aos administradores melhores maneiras de monitorar e auditar. - Novas opções de segurança: A partir das fontes do ecossistema Azure e Snowflake, estamos adicionando suporte para opções de autenticação sem senha, suporte do Azure AD/Entra ID para Azure SQL e suporte OAuth para Snowflake. Nos próximos meses, também desenvolveremos funcionalidades semelhantes para os ecossistemas AWS/Google.
"A Lakehouse Federation nos ajudou a consolidar nosso cenário de dados com governança consistente em um só lugar e a gerar ganhos significativos de eficiência operacional. Os insights e a qualidade dos dados agora estão perfeitamente integrados, permitindo-nos focar em fornecer aos nossos clientes os melhores insights para maximizar o valor de seus investimentos em publicidade." — Bob Wuisman, Global Head of Production na Ebiquity plc.
Seu guia compacto para analítica moderna
Próximos Passos?
Federação de Catálogo
Descubra, governe e acesse dados do Hive Metastore (HMS) e AWS Glue com a Lakehouse Federation. Com a Federação de Catálogo, você poderá montar facilmente qualquer HMS externo (ou interno do Databricks) como um catálogo estrangeiro no Unity Catalog.
Para usuários do Databricks HMS (interno), esta é uma maneira simples e direta de começar com o Unity Catalog e se beneficiar das funcionalidades de governança unificada fornecidas pelo Unity Catalog.
Para usuários de HMS externo e AWS Glue, ele fornece uma maneira integrada de acessar dados externos do metastore diretamente do Unity Catalog sem alterar seus fluxos de trabalho.
A Federação de Catálogo está atualmente em Private Preview.
Novos Conectores
Expandir a lista de fontes de dados suportadas para a Lakehouse Federation continua sendo uma prioridade em nossa missão de ajudar os clientes a unificar seus patrimônios de dados. Temos o prazer de anunciar que os conectores Google BigQuery, completando o suporte de federação de Data Warehouse em todos os três principais provedores de nuvem, e Salesforce Data Cloud agora estão em Public Preview.
Os conectores Oracle e Teradata estarão disponíveis em breve para preview.
Conexões de Data Warehouse de Alto Rendimento
Para proporcionar uma experiência de consulta mais rápida em data warehouses, que tendem a conter tabelas maiores, estamos adicionando recursos para transferências automáticas de dados de alto rendimento.
No futuro, começando com os conectores Amazon Redshift & Snowflake, você poderá consultar e materializar tabelas de data warehouses rapidamente. Por baixo dos panos, o Lakehouse Federation aproveitará APIs mais rápidas/em lote (por exemplo, descarregar para armazenamento de objetos ou local de staging em paralelo) e buscará esses resultados em paralelo (sem gargalo no driver). Tudo isso sem qualquer intervenção do usuário!
Compartilhamento para Lakehouse Federation

Por fim, o compartilhamento de dados do Lakehouse Federation se tornará muito mais fácil. A integração futura com o Delta Sharing permitirá que os clientes compartilhem tabelas federadas externamente sem que os destinatários precisem de acesso ao Databricks ou ao sistema de dados subjacente. Isso simplificará o compartilhamento de dados, eliminando a necessidade de cópias redundantes em diferentes sistemas.
Comece Agora
- Leia nossa documentação (AWS, Azure, GCP) para começar com o Lakehouse Federation
- Assista à sessão do Lakehouse Federation do Data and AI Summit 2024 para um mergulho profundo no Lakehouse Federation
- Assista a Matei Zaharia, cofundador e Diretor de Tecnologia da Databricks, apresentar o discurso de abertura no Data+AI Summit 2023 para saber mais sobre os últimos anúncios no Unity Catalog!
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

