Ir para o conteúdo principal

Novidade no Unity Catalog: Lakehouse Federation

Descubra, consulte e controle todos os seus dados, não importa onde estejam

O Lakehouse Federation já está em visualização pública!

 

As equipes de dados enfrentam muitos desafios para acessar rapidamente os dados corretos, principalmente devido à fragmentação de dados, ao tempo e custo envolvidos na consolidação de dados e às dificuldades no gerenciamento da governança de dados em vários sistemas.

É por isso que hoje, no Data+AI Summit, temos o prazer de anunciar os recursos do Lakehouse Federation no Unity Catalog, que permitem que as organizações criem uma arquitetura de data mesh altamente escalável e de alto desempenho com governança unificada. 

Unity Catalog fornece uma solução unificada de governança para dados e IA. Os recursos do Lakehouse Federation no Unity Catalog permitem que você descubra, consulte e governe dados em várias plataformas de dados, incluindo MySQL, PostgreSQL, Amazon Redshift, Snowflake, Azure SQL Database, Azure Synapse, BigQuery do Google e muito mais, diretamente do Databricks, sem mover ou copiar os dados, tudo em uma experiência simplificada e unificada. Isso significa que os recursos de segurança avançados do Unity Catalog, como controles de acesso em nível de linha e coluna, recursos de descoberta como tags e linhagem de dados, estarão disponíveis nessas fontes de dados externas, garantindo uma governança consistente.

Unity Catalog
Lakehouse Federation in Unity Catalog

“Cientistas de dados e usuários de negócios agora podem acessar diversas fontes de dados por meio de uma interface de usuário uniforme com permissões consistentes gerenciadas em um único lugar”, disse Jelle de Jong, Tech Lead na Bayer. "Estamos continuamente padronizando nosso formato de dados para o Delta Lake, mas estamos entusiasmados que o Lakehouse Federation nos permitiu iterar com agilidade antes de investir na extração de dados.”

A fragmentação de dados está desacelerando a inovação

Milhares de organizações de todos os tamanhos estão inovando em todo o mundo e em todas as indústrias com dados e IA na Plataforma Databricks Lakehouse. Mas, por razões históricas, organizacionais ou tecnológicas, os dados estão espalhados por muitos sistemas operacionais e de analítica, causando mais desafios:

  1. Dificuldade para descobrir e acessar todos os dados: a maioria das organizações tem dados valiosos distribuídos em várias fontes de dados. Eles podem estar em vários bancos de dados, um data warehouse, sistemas de armazenamento de objetos e muito mais. Isso leva a dados e percepções incompletos, o que dificulta a capacidade dos clientes de tomar decisões informadas e inovar mais rapidamente.
  2. Execução lenta devido a gargalos de engenharia: para consultar dados em várias fontes de dados, os clientes geralmente precisam primeiro mover os dados de fontes externas para a plataforma de sua preferência. Alguns dados podem nem valer o esforço. Alguns dados levarão muito tempo para chegar a um local único e unificado, atrasando a inovação.
  3. Baixa compliance em sistemas isolados: a governança fragmentada leva à duplicação de esforços e aumenta o risco de não ser possível monitorar e proteger contra o acesso indevido ou o vazamento, o que dificulta a colaboração e a democratização dos dados.

Unifique seu patrimônio de dados com o Lakehouse Federation no Unity Catalog

O Lakehouse Federation aborda esses pontos problemáticos críticos e torna simples para as organizações expor, consultar e governar sistemas de dados em silos como uma extensão de seu lakehouse. Com estes novos recursos, você pode:

  1. Crie uma visão unificada do seu patrimônio de dados: classifique e descubra automaticamente todos os seus dados, estruturados e não estruturados, em um só lugar e permita que todos na sua organização acessem e explorem com segurança todos os dados disponíveis ao seu alcance, independentemente de onde estejam.
  2. Query e combine todos os dados de forma eficiente com um único mecanismo: Acelere a análise ad-hoc e a prototipagem em todos os seus casos de uso de dados, analytics e IA nos dados mais completos - sem necessidade de ingestão - com um único mecanismo. O planejamento avançado de queries entre fontes e o armazenamento em cache garantem o desempenho ideal das queries, mesmo ao acessar e combinar dados de várias plataformas com uma única query.
  3. Proteja os dados em todas as fontes de dados: use um modelo de permissão único para definir e aplicar regras de acesso e proteger todos os seus dados em todas as fontes de dados. Aplique regras como segurança em nível de linha e coluna, políticas baseadas em tags, auditoria centralizada de forma consistente em todas as plataformas, monitore o uso de dados e atenda aos requisitos de compliance com linhagem de dados e auditabilidade integrada.
Conecte-se a fontes de dados externas do Unity Catalog
Connect to external data sources from Unity Catalog

“O Lakehouse Federation nos dá a capacidade de combinar dados — como dados de uso, ventas e telemetria de jogos — de várias fontes, em várias clouds, e view e query tudo em um só lugar. Agora deixamos os dados na fonte de dados original, mas podemos utilizá-los a partir do Databricks Lakehouse." disse Felix Baker, Diretor de Serviços de Dados da SEGA Europe. "Como não precisamos mais mover nossos dados financeiros, que são atualizados com frequência, economizamos um tempo valioso que pode ser usado para oferecer a melhor experiência de jogo possível aos nossos consumidores.”

Consulte várias fontes de dados e aproveite a linhagem de dados integrada
Query across data sources and benefit from built-in data lineage

"O Lakehouse Federation nos permitiu agir mais rapidamente para consolidar nosso cenário de dados existente no Unity Catalog. Isso simplifica a governança de dados da Shell – mais datasets se tornam detectáveis em um só lugar, a autenticação é padronizada e a consulta entre datasets com uma linguagem de programação comum se torna possível", disse Bryce Bartmann, Chief Digital Technology Advisor da Shell. "Em última análise, isso nos torna mais eficazes para navegar na transformação que está acontecendo hoje no setor de energia."

Esses novos recursos, juntamente com a recém-anunciada interface aberta do Hive, significam que as organizações podem centralizar a gestão de dados, a descoberta e a governança no Unity Catalog e se conectar a ele a partir de uma ampla variedade de plataformas de computação, incluindo Amazon EMR, Apache Spark, Amazon Athena, Presto, Trino e outras. A nova interface elimina a necessidade de manter vários catálogos de dados e garante uma governança de dados consistente nessas plataformas.

O que vem a seguir?

Esses recursos estão em pré-visualização pública para você começar a usar agora mesmo!

Também estamos estendendo os recursos de governança do Unity Catalog para vários formatos de armazenamento abertos, incluindo Apache Iceberg e Hudi, com a visualização pública do Delta Universal Format ("UniForm"). Esta integração permite que as tabelas Delta sejam lidas como se fossem tabelas Iceberg (e em breve, também Apache Hudi), tornando o Unity Catalog o único catálogo universal que suporta os três principais formatos de armazenamento de lakehouse aberto.

Finalmente, no futuro, você também poderá enviar políticas de acesso definidas no Unity Catalog para fontes de dados federadas para uma aplicação consistente onde quer que os dados sejam acessados. Isso elimina a necessidade de manter definições de políticas redundantes em diferentes ferramentas de governança.

Assista ao keynote do Data+AI Summit 2023 com Matei Zaharia, cofundador e Diretor de Tecnologia da Databricks, para saber mais.

Inscreva-se no Data + AI Summit aqui para se juntar a nós presencialmente ou virtualmente e explorar as novidades em dados, analytics e IA!

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada

O que vem a seguir?

photon-blog-og

Anúncios

June 17, 2021/7 min de leitura

Pré-visualização pública do Photon: A engine de query de última geração na Plataforma Databricks Lakehouse

The initial release of Databricks SQL offered significant performance benefits -- up to 6x price/performance -- compared to traditional cloud data warehouses as per the TPC-DS 30 TB scale benchmark

Produto

September 8, 2021/7 min de leitura

Novas melhorias de desempenho no Databricks SQL