Ir para o conteúdo principal
Produto

Converse com todos os seus dados, onde quer que eles estejam

Conectando o Genie a fontes de dados federadas para obter inteligência em todo o seu patrimônio de dados

por John Spencer

*Conecte o Genie aos dados usando o Lakehouse Federation, evitando os atrasos de uma migração "big bang".
*Aproveite o Unity Catalog como a fonte da verdade tanto para dados federados quanto gerenciados, garantindo que as cargas de trabalho de AI estejam seguras e prontas para produção.
*Comece a consultar dados em linguagem natural imediatamente. Otimize o desempenho fazendo upgrade para tabelas gerenciadas do Unity Catalog.

A AI agêntica criou uma demanda por raciocínio entre diferentes fontes que não existia há 12 meses. Usuários de negócios querem fazer perguntas em linguagem natural, como "quais campanhas de marketing geraram o maior ROI no último trimestre?" e obter insights instantâneos a partir de seus dados.

O problema é que os dados corporativos frequentemente estão espalhados por vários sistemas, como AWS Glue, Snowflake, Oracle, BigQuery, Postgres e, às vezes, bloqueados em formatos proprietários legados, onde migrar tudo para um único sistema poderia levar meses.

E se você não precisasse migrar os dados e ainda pudesse analisar todo o seu patrimônio de dados? Com o Lakehouse Federation, a Databricks se conecta diretamente às suas fontes existentes, onde quer que estejam, e as traz para uma única camada de governança no Unity Catalog. Permissões, linhagem e controles de acesso funcionam de forma consistente em todos os sistemas conectados, para que você tenha segurança de nível corporativo sem precisar reconstruí-la fonte por fonte. Os usuários de negócios podem, então, consultar esses dados unificados em inglês simples por meio do Genie, obtendo respostas que abrangem todas as plataformas conectadas sem uma única pipeline, cópia ou etapa de migração.

Neste blog, vamos mostrar como configurar isso conectando-se a uma fonte externa, sincronizando seus metadados no Unity Catalog e fazendo perguntas pelo Genie — tudo em questão de minutos.

Como funciona

O Lakehouse Federation permite que usuários e agentes de AI se conectem com segurança a uma fonte externa e a governem junto com seus dados nativos. Isso permite que o Genie acesse seu patrimônio de dados estendido em tempo real, sem a necessidade de migração. O Lakehouse Federation se conecta a mais de 20 das plataformas de dados mais populares. Como exemplo, vamos mostrar como é fácil configurar com o AWS Glue.

O Genie em todos os seus dados

1. Conecte-se às suas fontes de dados externas com o Lakehouse Federation

Primeiro, criamos uma conexão com o projeto externo do AWS Glue. Neste exemplo, nos conectamos a um banco de dados do Glue que contém dados de campanhas de marketing.

Em seguida, sincronizamos os dados diretamente no Unity Catalog. Isso fornece acesso a todas as tabelas sem a necessidade de copiar nenhum dado, garantindo que os dados estejam sempre atualizados. Também evita qualquer interrupção no sistema de origem.

2. Aproveite seus metadados existentes

Nomes brutos de tabelas e colunas geralmente não significam nada para um agente de AI. Um agente de AI não saberá inerentemente que status_code 4 significa "Urgente" ou que spend_amount se refere a custos de marketing.

Muitas organizações já investiram na documentação de seus esquemas no sistema de origem — adicionando descrições de tabelas, comentários de colunas e termos do glossário de negócios diretamente no Glue. O Lakehouse Federation agora traz esse contexto automaticamente. Quando você cria um catálogo estrangeiro, os comentários e descrições do sistema de origem são federados no Unity Catalog junto com os metadados da tabela.

Isso significa que:

  • As descrições de colunas existentes (por exemplo, "spend_amount — gasto total de marketing em USD") são transferidas sem a necessidade de reinserção manual
  • Os comentários no nível da tabela que documentam o contexto de negócios são preservados
  • Ferramentas de AI como o Genie podem aproveitar imediatamente esses metadados para entender seu esquema

Hoje, oferecemos suporte a comentários de tabelas estrangeiras no Glue e no BigQuery. Em preview, expandimos o suporte para PostgreSQL, Redshift, MySQL, Snowflake e planejamos adicionar mais fontes a cada mês (Inscreva-se no preview).

3. Defina semânticas reutilizáveis sobre seus dados federados

Os comentários herdados dizem ao Genie o que são seus dados, mas não conseguem capturar como sua empresa mede as coisas. Um comentário de coluna pode explicar que spend_amount é o custo de marketing em USD, mas apenas uma definição de métrica pode codificar que o ROI é o número de impressões dividido pelos gastos. Isso é lógica de negócios e, historicamente, ela vivia em fórmulas de dashboard dispersas, SQL ad hoc e conhecimento informal, muitas vezes com definições sutilmente diferentes entre as equipes.

O Unity Catalog Semantics permite que você defina essa lógica de negócios uma única vez como um objeto governado, para que todas as ferramentas que o consultam obtenham o mesmo cálculo confiável. E como as tabelas federadas são cidadãs de primeira classe no Unity Catalog, isso funciona em dados que nunca saíram de seu sistema de origem. Você pode definir métricas como ROI diretamente em qualquer fonte federada, sem necessidade de migração.

Com as métricas do Unity Catalog, você as define uma única vez, diretamente na tabela federada. A visualização de métrica define duas coisas: campos como campaign_id e quarter pelos quais os usuários podem agrupar e filtrar, e uma medida, roi, que codifica a própria fórmula de negócios.

Defina o ROI uma única vez, e o Genie, os dashboards de AI/BI e os notebooks o calcularão de forma idêntica. Quando a definição muda, você a atualiza em um só lugar e todos os consumidores herdam a alteração.

4. Pergunte ao Genie

Com os dados conectados e contextualizados, seu analista de marketing agora pode abrir uma sala do Genie e fazer a pergunta com a qual começamos: "Quais campanhas de marketing geraram o maior ROI no último trimestre?"

O Genie não precisa reconstruir a fórmula de ROI do zero — ele resolve para a medida roi certificada na visualização de métrica e gera automaticamente o SQL correto em relação aos dados federados.

O resultado? Uma resposta imediata e precisa derivada de dados em tempo real armazenados no Glue.

O Genie, alimentado pelo Lakehouse Federation, é apenas um exemplo de como o Unity Catalog permite insights de AI em todo o seu patrimônio de dados. Quer a consulta venha de um analista de negócios em uma sala do Genie ou de um fluxo de trabalho baseado em agentes, o Unity Catalog fornece a base governada e contextualizada que faz tudo funcionar.

Próximos passos

Continuamos investindo para tornar o Lakehouse Federation a porta de entrada mais rápida para a plataforma Databricks:

  • Semânticas de negócios mais ricas para tabelas federadas: Além de importar comentários existentes, estamos criando novas maneiras de enriquecer seus metadados federados com descrições geradas por AI e contexto de negócios — tornando o Genie ainda mais inteligente logo de início.
  • Desempenho aprimorado ao atualizar para tabelas gerenciadas: Use o recurso SET MANAGED para converter uma tabela estrangeira em uma tabela gerenciada do Unity Catalog na Databricks e beneficie-se de mais de 50% de economia de custos e consultas 20 vezes mais rápidas.
  • Suporte de federação para mais catálogos e plataformas: Continuamos a adicionar novas fontes de federação, oferecendo acesso governado a uma parte ainda maior do seu patrimônio de dados.

Primeiros passos

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.