Ir para o conteúdo principal

Tornando o Unity Catalog de código aberto

Criando o único catálogo universal do setor para dados e IA

Open Sourcing Unity Catalog

Publicado: 13 de junho de 2024

Produto12 min de leitura

Temos o prazer de anunciar que estamos abrindo o código do Unity Catalog, o primeiro catálogo de código aberto do setor para governança de dados e IA em nuvens, formatos de dados e plataformas de dados. Aqui estão os pilares mais importantes da visão do Unity Catalog:

  • API e implementação de código aberto: Ele é construído sobre a especificação OpenAPI e uma implementação de servidor de código aberto sob a licença Apache 2.0. Ele também é compatível com a API de metastore do Apache Hive e a API de catálogo REST do Apache Iceberg.
  • Suporte a vários formatos: É extensível e suporta Delta Lake, Apache Iceberg via UniForm, Apache Parquet, CSV e todos os formatos disponíveis.
  • Suporte a vários mecanismos: Com suas APIs abertas, os dados catalogados no Unity podem ser lidos por praticamente todos os mecanismos de computação.
  • Multimodal: Ele suporta todos os seus ativos de dados e IA, incluindo tabelas, arquivos, funções e modelos de IA.
  • Ecossistema vibrante: Este é um esforço comunitário e estamos extremamente animados com o apoio da Amazon Web Services, Microsoft Azure, Google Cloud, Nvidia, Salesforce, DuckDB, LangChain, dbt Labs, Fivetran, Confluent, Unstructured, Onehouse, Immuta, Informatica e muitos outros.

O projeto está disponível no GitHub hoje como o primeiro passo em nossa jornada para trazer a visão do Unity para o código aberto. O Unity Catalog é hospedado na LF AI & Data, uma fundação guarda-chuva da Linux Foundation que apoia a inovação de código aberto em inteligência artificial (IA) e dados, onde estamos animados para trabalhar com as comunidades de código aberto nos próximos anos para realizar essa visão.

Por que código aberto?

Com a adoção generalizada do Unity Catalog, você pode se perguntar por que estamos abrindo seu código e por que agora. É porque ouvimos consistentemente das organizações que elas precisam de uma base aberta para suas aplicações de dados e IA, não apenas para hoje, mas para as inovações das próximas décadas.

Infelizmente, a maioria das plataformas de dados hoje são jardins murados. Muitos data warehouses em nuvem usam "tabelas nativas" que não estão em formatos abertos. Outras plataformas exigem que os clientes paguem por computação sempre ativa, mesmo ao ler dados de mecanismos externos. E muitas plataformas restringem quais formatos de dados e clientes elas suportam.

Isso resulta em dados isolados e governança fragmentada entre os ativos. E sem uma interface multimodal para dados tabulares, quanto mais para ativos de IA, as organizações precisam juntar várias soluções desconexas. A Databricks já tomou uma posição forte na indústria ao ser a única plataforma principal onde todas as tabelas estão em formatos abertos por padrão, e ao abrir tabelas Delta para clientes Iceberg com UniForm no ano passado. Ao abrir o código do Unity Catalog, estamos fornecendo às organizações uma base aberta para suas cargas de trabalho atuais e futuras.

Por que um catálogo multimodal de dados e IA?

Nesta era de rápidos avanços em IA, toda empresa percebeu que precisará governar dados e ativos de IA juntos – seja gerenciando dados não estruturados para sistemas de IA compostos ou construindo um catálogo de ferramentas para aplicações de LLM agênticas. Na Databricks, vimos essa necessidade de infraestrutura integrada de dados e IA desde cedo e lançamos o Unity Catalog há três anos para unir esses dois mundos em um modelo de governança consistente. Hoje, estamos vendo milhares de clientes aproveitando a governança unificada, incluindo:

  • Um único namespace para organizar e compartilhar tabelas, dados não estruturados e ativos de IA
  • Logs de auditoria centralizados de todas as atividades de dados e IA
  • Linha do tempo unificada em cargas de trabalho de dados e IA
  • Colaboração entre organizações por meio do protocolo de compartilhamento Delta de código aberto.

Nossos lançamentos mais recentes em IA, como o conceito de Catálogos de Ferramentas para agentes de IA generativa, também são projetados para se encaixar neste modelo de governança unificada.

Lançamento 0.1 do Unity Catalog

Hoje, estamos lançando a versão 0.1 do Unity Catalog de código aberto. Embora algumas de nossas APIs e recursos ainda estejam em evolução, este lançamento demonstra várias capacidades importantes do Unity Catalog:

  • Tabelas, Volumes (dados não estruturados) e Ferramentas/Funções de IA podem ser gerenciados juntos.
  • Tabelas podem estar em vários formatos, incluindo Delta Lake, Iceberg via UniForm, Parquet, CSV e JSON.
  • O Unity Catalog implementa a API de Catálogo REST do Iceberg para acesso do ecossistema de mecanismos Iceberg, aproveitando a expertise da Tabular.
  • A API suporta a emissão de credenciais para controlar o acesso dos clientes ao armazenamento em nuvem subjacente para tabelas e volumes, centralizando a governança no servidor de catálogo.

Uma imagem do blog do Unity Catalog.

O que isso significa para os clientes Databricks

Se você já é um cliente Databricks, não há nada que você precise fazer de diferente. As implantações existentes do Unity Catalog dos clientes implementam as mesmas APIs abertas – permitindo que clientes externos leiam de todas as tabelas (incluindo tabelas gerenciadas e externas), volumes e funções no Unity Catalog hospedado desde o primeiro dia, com seus controles de acesso existentes. Esta mudança simplesmente significa que um ecossistema maior de clientes funcionará com seu catálogo existente.

APIs REST do Unity permitem que nossos parceiros e a comunidade de código aberto criem integrações poderosas que permitirão aos clientes trabalhar em suas tabelas, dados não estruturados e ferramentas/funções de IA a partir de diversas aplicações, sem taxas de acesso externas.

"A AT&T está comprometida em tornar nossos dados interoperáveis com nossas plataformas. Com o anúncio da abertura do código do Unity Catalog, somos encorajados pelo passo da Databricks para tornar a governança do lakehouse e o gerenciamento de metadados possíveis por meio de padrões abertos. A flexibilidade de utilizar ferramentas interoperáveis com nossos ativos de dados e IA, com governança consistente, é fundamental para a estratégia da plataforma de dados da AT&T."

— Matt Dugan, Vice-Presidente de Plataformas de Dados, AT&T

 

"A Nasdaq tem orgulho de alavancar o Unity Catalog da Databricks como parte de nossa estratégia holística de gerenciamento de dados. A decisão da Databricks de abrir o código do Unity Catalog fornece uma solução que ajuda a eliminar silos de dados e esperamos escalar ainda mais nossa plataforma, aprimorar nossa governança e modernizar nossas aplicações de dados enquanto continuamos a entregar para nossos clientes."

— Lenny Rosenfeld, Vice-Presidente de Plataformas de Acesso de Capital, Nasdaq

 

"Na Rivian, a adoção da Plataforma Databricks nos deu a capacidade de usar dados e IA na construção de nossos EAVs de próxima geração. Estamos animados com a abertura do código do Unity Catalog pela Databricks e o lançamento de APIs abertas para trazer interoperabilidade em nosso cenário de dados sem preocupações com o aprisionamento tecnológico. Combinado com o suporte para todos os nossos ativos de dados — dados estruturados e não estruturados, modelos de ML e ferramentas de IA Gen — foi uma decisão fácil padronizar o Unity Catalog."

— Jason Shiverick, Diretor de Plataformas de IA, Rivian

 

Ecossistema de Código Aberto

Estamos animados em fazer parceria com os principais provedores de nuvem, plataformas de dados e IA, e mecanismos de computação para avançar o padrão Unity Catalog nos próximos meses. Eles incluem os principais fornecedores de software e projetos de código aberto em IA, análise de dados, dados não estruturados e governança, que poderão se conectar facilmente aos servidores de código aberto do Unity Catalog e ao Databricks.

Unity Catalog - Aberto e Interoperável

 


"A AWS saúda a iniciativa da Databricks de abrir o código do Unity Catalog. A AWS está comprometida em trabalhar com a indústria em soluções de código aberto que permitam escolha e interoperabilidade para os clientes."

— Chris Grusz, Diretor Geral de Parcerias Tecnológicas, AWS

 

"A Microsoft está comprometida com a comunidade de código aberto e em capacitar os clientes com escolha. A Databricks tem sido uma parceira estratégica por anos e é ótimo vê-los abrindo o código do Unity Catalog. Acreditamos que padrões verdadeiramente abertos com ampla participação da indústria são do melhor interesse dos clientes. Nossa colaboração com a Databricks continua a elevar o Microsoft Azure como a melhor escolha para cargas de trabalho de dados e IA."

— Jessica Hawk, CVP de Dados, IA e Aplicações Digitais, Microsoft  

 

"O Google está comprometido com soluções abertas e flexíveis que capacitam os clientes a maximizar o valor de seus dados. A estratégia da Databricks de abrir o padrão Unity Catalog para dados e IA se alinha muito bem com nossa estratégia."

— Ritika Suri, Diretora de Parcerias Tecnológicas de Dados e IA, Google Cloud

Roteiro futuro

Este é apenas o ponto de partida para o projeto open source do Unity Catalog. O Unity Catalog atende a milhares de clientes em produção e é o resultado de anos de engenharia, por isso estamos portando essa funcionalidade para o projeto open source em fases, priorizando o acesso e a interoperabilidade do cliente para começar.

Nos próximos meses, adicionaremos suporte aprimorado para as APIs que são críticas para suas cargas de trabalho de dados e IA, incluindo:

  • APIs de escrita de tabelas agnósticas a formato
  • Views
  • Delta Sharing
  • Modelos (com integração MLflow)
  • Funções remotas
  • APIs de Controle de Acesso
  • E mais

Comece hoje mesmo

Você pode se juntar à comunidade open source do Unity Catalog em unitycatalog.io. Para clientes Databricks, fique atento ao ecossistema em rápida evolução de ferramentas de dados e IA que se integram ao Unity Catalog.


"O Salesforce Data Cloud é construído do zero em Padrões Abertos com Apache Parquet e Apache Iceberg. Nossas inovações de cópia zero permitem que os clientes desbloqueiem dados, derivem insights e orquestrem ações em todo o Customer 360. O abraço do Databricks ao Apache Iceberg via UniForm e Unity Catalog aborda desafios chave de interoperabilidade entre Delta Lake e Iceberg. Estamos animados em ter o Databricks como membro de nossa Rede de Parceiros de Cópia Zero e esperamos inovações conjuntas com o novo Unity Catalog aberto, entregando valor convincente ao cliente em dados estruturados, dados não estruturados e modelos de IA."

— Ravi Loganathan, Vice-Presidente Executivo de Engenharia de Software, Salesforce  

 

"Dados empresariais são essenciais para o desenvolvimento de aplicações de IA generativa precisas. A NVIDIA trabalha em estreita colaboração com nosso ecossistema de parceiros para apoiar ofertas open source como o Unity Catalog, que pode ajudar os clientes a curar pipelines de desenvolvimento eficientes e poderosos."

— Pat Lee, VP de Parcerias Estratégicas Empresariais, NVIDIA

 

"O Delta Kernel simplificou muito a construção da Extensão Delta do DuckDB, permitindo fácil acesso ao Delta Lake a partir do DuckDB. Estamos entusiasmados em fazer parceria com a Databricks no Delta Kernel e no padrão aberto Unity Catalog para dados e IA. Esta colaboração representa um passo significativo em inovação open source e no desenvolvimento de data lakehouses abertos."

— Hannes Mühleisen, CEO, DuckDB Labs

 

"A decisão da Databricks de abrir o Unity Catalog é um desenvolvimento empolgante para a comunidade de dados e IA. Estamos animados em fazer parceria com a Databricks para integrar o Unity Catalog com o LangChain, o que permite aos nossos usuários compartilhados construir agentes avançados usando funções do Unity Catalog como ferramentas."

— Harrison Chase, CEO & Fundador, LangChain

 

"Unstructured é a principal solução de ETL de dados não estruturados para LLMs - ajudando organizações a transformar seus dados de brutos para prontos para RAG. Nossa integração com o Unity Catalog faz todo o sentido, pois quebramos silos de dados e aceleramos o desenvolvimento de IA/ML em empresas. Estamos animados em fazer parceria com a Databricks para desenvolver este padrão aberto para casos de uso de IA e para padronizar metadados para dados não estruturados - ajudando nossos clientes a operar na vanguarda da IA."

— Brian Raymond, CEO & Fundador, UnstructuredIO

 

"Na Eventual, construímos o Daft, o principal motor de consulta distribuído open source para dados multimodais. Acreditamos que unificar computação para dados tabulares e não estruturados não é suficiente e que um catálogo multimodal é crucial para construir data lakehouses GenAI. Estamos animados em fazer parceria com a Databricks e outros inovadores de IA para desenvolver o padrão aberto Unity Catalog para cargas de trabalho modernas de dados+IA."

— Sammy Sidhu, CEO & Fundador, Eventual Computing

 

"Na Granica, defendemos a democratização de dados e a liberdade de lock-in de fornecedores. Nossa tecnologia Safe Room garante privacidade, confiança e segurança em fluxos de trabalho de IA generativa, ao mesmo tempo em que suporta padrões abertos como Unity Catalog, Delta Lake e Apache Iceberg. A arquitetura neutra de fornecedor do Unity Catalog e as robustas soluções de governança se alinham com nossa visão de fornecer aos clientes flexibilidade e controle sobre seus dados. Estamos animados em contribuir para este ecossistema aberto, impulsionando a inovação e permitindo que os clientes trabalhem perfeitamente com seus dados em plataformas de ponta."

— Rahul Ponnala, CEO & Co-Fundador, Granica

 

"Abrir o Unity Catalog é um passo fundamental para um ecossistema de dados mais colaborativo e inovador. Ao tornar essa tecnologia acessível, a Databricks está promovendo um ambiente onde toda a comunidade pode contribuir e se beneficiar de capacidades aprimoradas de governança e gerenciamento de dados. Essa mudança se alinha com nossa visão na Onehouse e Apache XTable (Incubating) de apoiar a interoperabilidade de formatos abertos que impulsiona o progresso e a inovação para todos."

— Vinoth Chandar, CEO & Co-Fundador, Onehouse

 

"A missão da Confluent é colocar os dados em movimento e permitir que as organizações aproveitem seus dados em todos os lugares. Estamos animados em ver a Databricks fazer uma contribuição significativa para um ecossistema de dados aberto com o Unity Catalog se tornando open source. O Tableflow no Confluent Cloud permitirá a entrega fácil de dados em tempo real para locais como um data lake, transformando fluxos de dados em tabelas Iceberg com um único clique. Ao combinar nossas capacidades de streaming líderes do setor com as robustas soluções de gerenciamento de dados da Databricks, os clientes poderão colocar seus dados para trabalhar de forma mais eficaz do que nunca."

— Shaun Clowes, CPO, Confluent

 

"Juntos, Databricks e dbt Cloud ajudam os usuários a quebrar silos de dados para colaborar de forma eficaz, simplificar ETL para reduzir TCO com Delta Lake e unificar a governança com Unity Catalog. Estamos entusiasmados em anunciar nosso suporte ao Unity Catalog e às APIs abertas. Esta parceria reforça nosso compromisso em fornecer uma experiência de dados unificada, capacitando nossa comunidade a alcançar insights maiores e impulsionar a inovação."

— Mark Porter, CTO dbt Labs

 

"Estamos entusiasmados em ver a Databricks abrir o Unity Catalog como um padrão aberto para dados e IA. Essa medida proporcionará aos nossos clientes maior escolha e flexibilidade em seu ecossistema de dados, garantindo integração perfeita e maximizando a interoperabilidade com a plataforma Fivetran enquanto eles ingerem dados críticos para o Databricks."

— Anjan Kundavaram, CPO, Fivetran

 

"A exposição de padrões de acesso nativos dentro do Unity Catalog transformou a maneira como nosso negócio consegue otimizar o acesso a dados e aplicar regras de governança em escala - sem impacto no desempenho. O investimento contínuo da Databricks em uma comunidade para acelerar serviços que facilitam a criação de controles de dados permite que nossos clientes governem com maior facilidade e gerenciem o volume massivo de novos consumidores de dados sendo integrados na era da IA."

— Matthew Carroll, CEO, Immuta

 

"Estamos animados em ver a oportunidade para nossos clientes conjuntos, pois a Databricks abre o Unity Catalog como um padrão aberto para dados e IA. Com o Unity Catalog e a Informatica Intelligent Data Management Cloud, os clientes podem obter maior escolha, flexibilidade e interoperabilidade em seus ecossistemas de dados."

— Brett Roscoe, GM e SVP Cloud Data Governance e Cloud Operations, Informatica

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada