Durante a Week of Agents, estamos expandindo o Agent Bricks, a plataforma da Databricks para criar agentes de AI governados e prontos para produção que raciocinam com precisão sobre seus dados. Um dos maiores desafios que as empresas enfrentam ao escalar agentes é o acesso a dados não estruturados. Quase 80% do conhecimento empresarial está preso em PDFs, relatórios e diagramas que os agentes não conseguem ler, entender ou analisar. Esses documentos contêm um contexto essencial, mas a maioria dos agentes de AI não conseguia lê-los. Até agora.
As ferramentas de análise existentes se limitam à extração de texto. Elas não capturam as disposições, elementos visuais e relações que carregam significado em documentos reais. As equipes passam meses escrevendo códigos personalizados e frágeis que ainda falham com dados do mundo real. ai_parse_document elimina essa complexidade. Ele traz o entendimento completo de documentos diretamente para a Databricks Data Intelligence Platform, dando a cada agente acesso à fidelidade total do seu contexto de negócios — com precisão, segurança e em escala.
Com um único comando SQL, as organizações podem transformar documentos em dados estruturados, governados e consultáveis:
O resultado não é apenas o texto do PDF, mas também disposição de informação, tabelas analisadas, caixas delimitadoras, figuras e imagens com legendas – uma descrição abrangente do documento, como informação estruturada.
"O ai_parse_document da Databricks reduz a sobrecarga de configuração, permitindo que os cientistas de dados gastem menos tempo na configuração e mais tempo no avanço de soluções complexas e focadas no cliente."— Meiling He, Gerente Sênior de Ciência de Dados, Rockwell Automation
Quando comparado a outros sistemas de análise de ponta e modelos de linguagem de visão (VLMs), o ai_parse_document tem a mais alta qualidade em sua categoria de preço, medida tanto por um benchmark externo comum (OmniOCR) quanto por nosso benchmark interno privado (veja as figuras abaixo). O benchmark interno está mais alinhado com a distribuição de documentos que vimos de clientes e também é improvável que faça parte dos dados de treinamento de qualquer modelo. Nas próximas semanas, também lançaremos nossos novos rótulos OmniOCR, que corrigem alguns erros de rotulagem e introduzem caixas delimitadoras e informação de hierarquia.
O ai_parse_document captura tabelas, figuras e diagramas com descrições geradas por AI e metadados espaciais, armazenando os resultados no Unity Catalog. Seus documentos agora se comportam como tabelas — pesquisáveis pelo Vector Search e acionáveis em fluxos de trabalho do Agent Bricks.
“Extrair tabelas, texto e metadados de PDFs ou imagens costumava ser um processo complexo e com muito código. O Databricks condensou isso em uma única função SQL, a ai_parse_document, simplificando radicalmente o processamento de dados não estruturados em escala e colocando-o nas mãos de todas as equipes de dados, não apenas dos cientistas de dados.”— Rajesh Balakrishnan, Cientista de Dados Principal, TE Connectivity
Com uma única instrução SQL, os clientes já estão processando milhões de documentos em paralelo:
Cada resultado inclui:
Como tudo permanece dentro do Databricks, você mantém governança, linhagem e observabilidade consistentes.
Substitua sua pilha de analisadores externos por uma única função SQL que funciona como qualquer outra operação do Databricks. Embora as equipes normalmente exportem documentos para serviços de OCR, APIs de detecção de disposição e ferramentas de legendagem de figuras, ai_parse_document os processa sem sair do seu ambiente Databricks:

"A função ai_parse_document torna o RAG rápido e simples no Databricks, permitindo a análise paralela de documentos diretamente nas Delta tables que você já usa"— Hunter Johnson, Cientista de Dados Líder, Emerson Electric Co.
Depois de analisados, os dados dos documentos fluem naturalmente pelo restante do Agent Bricks ecossistema:
Em conjunto, esses recursos tornam os dados não estruturados uma parte totalmente integrada da plataforma Agent Bricks.
Muitas empresas têm milhões de documentos não estruturados para analisar, e algumas até recebem milhões por dia. É fundamental ter uma solução que possa ser dimensionada de forma confiável para processar esses dados sem levar dias. O Databricks integra ai_parse_document com o Spark Declarative Pipelines, fornecendo processamento de documentos automático e incremental em escala. Quando novos documentos chegam, seja do SharePoint, S3 ou ADLS, eles são analisados automaticamente. O Lakeflow lida com novas tentativas, checkpointing e dimensionamento, para que você nunca precise reprocessar dados existentes ou escrever um código de orquestração personalizado.
Tudo é governado pelo Unity Catalog, o que permite gerenciar permissões, auditar o acesso e rastrear a linhagem do conteúdo analisado exatamente como você faz com dados estruturados.
ai_parse_document é a adição mais recente às Agent Bricks AI Functions, juntando-se a recursos como ai_extract, ai_classify, ai_summarize e ai_query. Juntas, essas funções dão a todas as equipes a capacidade de raciocinar sobre todos os dados corporativos diretamente na plataforma Databricks. Ao combinar a inteligência de documentos com governança, observabilidade e orquestração integrada, a Databricks permite que as empresas criem agentes de AI que realmente entendem o contexto de seus negócios e agem com base nele com confiança.
Pronto para extrair o valor de seus dados não estruturados?
Autores da pesquisa (contribuição igual): Ziyi Yang, Jasmine Collins, Adyasha Maharana, Cory Stephenson, Erich Elsen, Adam Gurary, Ethan Tang
(This blog post has been translated using AI-powered tools) Original Post
Produto
June 11, 2024/11 min de leitura

