Ir para o conteúdo principal

Armazenamento de Dados Inteligente no Databricks

Esta arquitetura mostra como a Plataforma de Inteligência de Dados Databricks possibilita armazenamento moderno e BI, combinando ingestão em streaming e lote, armazenamento governado, análises SQL escaláveis e IA integrada em uma lakehouse unificada.

Image of a data warehousing session at the Data + AI Summit 2025, featuring Databricks' Lakehouse architecture.

Resumo da Arquitetura

A arquitetura suporta relatórios tradicionais, painéis em tempo real, modelagem preditiva e análises de autoatendimento - tudo isso enquanto atende aos padrões corporativos de segurança, governança e desempenho.

Esta solução demonstra como a Plataforma de Inteligência de Dados Databricks, alimentada pelo Databricks SQL, ajuda as organizações a modernizar sua estratégia de armazenamento de dados, atendendo às necessidades de equipes de dados e stakeholders de negócios.

A arquitetura começa com um lakehouse aberto e governado, gerenciado pelo Unity Catalog. Os dados são ingeridos de uma variedade de sistemas - incluindo bancos de dados operacionais, aplicativos SaaS, fluxos de eventos e sistemas de arquivos - e aterrissam em uma camada de armazenamento central. A inteligência de dados da plataforma alimenta tudo, desde ETL e análises SQL até painéis e casos de uso de IA. Ao suportar acesso flexível através de SQL, ferramentas de BI e consultas em linguagem natural, a plataforma acelera a entrega de produtos de dados e torna os insights acessíveis em toda a organização.

 

Casos de uso

Casos de Uso Técnicos

  • Ingestão de dados estruturados, não estruturados, em lote e em streaming de diversas fontes
  • Construindo robustos pipelines ETL declarativos
  • Modelando fatos, dimensões e data marts usando uma arquitetura de medalhão
  • Executando consultas SQL de alta concorrência para relatórios e painéis
  • Integrando saídas de ML diretamente no armazém para uso a jusante

Casos de Uso de Negócios

  • Entregando painéis em tempo real sobre vendas, operações ou métricas de clientes
  • Habilitando a exploração ad hoc através de interfaces de linguagem natural como o Genie
  • Suportando casos de uso preditivos como previsão de demanda e modelagem de churn
  • Compartilhando produtos de dados governados entre departamentos ou com parceiros
  • Fornecendo insights rápidos e confiáveis para equipes de finanças, marketing e produto

 

Principais Capacidades Com Inteligência de Dados

O componente de inteligência de dados desta arquitetura torna a plataforma mais inteligente, adaptável e fácil de usar em diferentes personas e cargas de trabalho. Aplica IA e consciência de metadados em todo o sistema para simplificar experiências e automatizar a tomada de decisões:

  • Interface de linguagem natural (Genie): Entende o contexto de negócios e permite que os usuários façam perguntas de dados em linguagem simples
  • Consciência semântica: Reconhece relações entre tabelas, colunas e padrões de uso para sugerir junções, filtros ou cálculos
  • Otimização preditiva: Ajusta continuamente o desempenho da consulta e a alocação de computação com base em cargas de trabalho históricas
  • Governança unificada: Marca, classifica e rastreia o uso de ativos de dados, tornando a descoberta mais intuitiva e segura
  • Capacidade chave: Uma plataforma auto-otimizável que se adapta aos seus dados e usuários
  • Diferencial: A inteligência de dados está embutida em toda a ingestão, consulta, governança e visualização - não é adicionada posteriormente

 

Fluxo de Dados Com Capacidades Chave e Diferenciais

  1. Fontes de dados: Os dados são armazenados em uma grande variedade de sistemas, incluindo aplicativos empresariais (por exemplo, SAP, Salesforce), bancos de dados, dispositivos IoT, logs de aplicativos e APIs externas. Essas fontes podem produzir dados estruturados, semi-estruturados ou não estruturados.
  2. Ingestão de dados: Introduz dados através de trabalhos em lote, captura de dados de alteração (CDC) ou streaming. Esses pipelines alimentam a arquitetura lakehouse em tempo quase real ou em intervalos programados, dependendo do sistema de origem e do caso de uso.
    • Diferencial chave: Ingestão unificada para todas as modalidades - lote, streaming e CDC - sem a necessidade de infraestrutura ou pipelines separados
  3. Transformação de dados, ETL, Pipelines Declarativos: Uma vez ingeridos, os dados são transformados através da arquitetura medallion e progressivamente refinados de dados brutos para dados curados.
    • Zona Bruta para Zona Bronze: Dados ingeridos de sistemas de fonte externa onde as estruturas nesta camada correspondem às estruturas de tabela do sistema de origem “como estão”, sem transformação ou atualizações nos dados
    • Zona Bronze para Zona Prata: Padronize e limpe os dados recebidos
    • Zona Prata para Zona Ouro: Aplique lógica de negócios para criar modelos reutilizáveis
    • Fatos e dimensões Data marts: Agregue e cure dados para análises a jusante
    • Diferencial chave: Pipelines declarativos de produção com linhagem integrada, observabilidade e evolução de esquema
  4. Dados curados para casos de uso de IA: Dados curados de data marts podem ser usados para treinar ou aplicar modelos de aprendizado de máquina. Esses modelos suportam casos de uso como previsão de demanda, detecção de anomalias e pontuação de clientes.
    • As saídas do modelo são armazenadas ao lado dos dados tradicionais do armazém para fácil acesso via SQL ou painéis
    • Os resultados podem ser atualizados em um cronograma ou pontuados em tempo real, dependendo dos requisitos
    • Diferencial chave: Análises e cargas de trabalho de IA co-localizadas na mesma plataforma - não é necessário movimento de dados. As saídas do modelo são tratadas como ativos nativos, consultáveis e governados.
  5. Ferramentas de relatórios de BI alimentadas por consultas: O Databricks SQL suporta consultas de alta concorrência e baixa latência através de computação serverless, e se conecta facilmente a ferramentas de BI populares.
    • Editor de consultas integrado e histórico de consultas
    • As consultas retornam resultados governados e atualizados de data marts ou saídas de modelo enriquecidas
    • Diferencial chave: O SQL do Databricks permite que as ferramentas de BI consultem dados diretamente - sem replicação - reduzindo a complexidade, evitando custos adicionais de licenciamento e diminuindo o TCO geral. Combinado com computação sem servidor e otimização inteligente, ele oferece desempenho de nível de armazém com ajuste mínimo.
  6. Painéis: Podem ser construídos diretamente no Databricks ou em ferramentas de BI externas como Power BI ou Tableau. Os usuários podem descrever visuais em linguagem natural, e o Assistente Databricks gerará os gráficos correspondentes, que podem ser refinados usando uma interface de apontar e clicar.
    • Crie visualizações usando entrada de linguagem natural
    • Modifique e explore painéis interativamente com filtros e detalhamentos
    • Publique e compartilhe de forma segura painéis em toda a organização, incluindo com usuários fora do espaço de trabalho Databricks
    • Diferencial chave: Oferece uma experiência de baixo código e assistida por IA para construir e explorar painéis em dados governados e em tempo real
  7. Servindo dados curados: Uma vez refinados, os dados podem ser servidos além dos painéis:
    • Compartilhado com aplicativos downstream ou bancos de dados operacionais para tomada de decisões transacionais
    • Usado em notebooks colaborativos para análise
    • Distribuído via Delta Sharing para parceiros, equipes ou consumidores externos com governança unificada
  8. Consulta em linguagem natural (NLQ): Os usuários de negócios podem acessar dados governados usando linguagem natural. Esta experiência conversacional, alimentada por IA gerativa, permite que as equipes vão além dos painéis estáticos e obtenham insights de autoatendimento em tempo real. O NLQ traduz a intenção do usuário em SQL aproveitando a semântica e os metadados da organização do Catálogo Unity.
    • Suporta perguntas ad hoc, interativas e em tempo real que não estão pré-construídas nos painéis
    • Adapta-se inteligentemente à terminologia e ao contexto de negócios em evolução ao longo do tempo
    • Aproveita a governança de dados existente e controles de acesso via Catálogo Unity
    • Fornece auditabilidade e rastreabilidade de consultas em linguagem natural para conformidade e transparência
    • Diferencial chave: Adapta-se continuamente a conceitos de negócios em evolução, fornecendo respostas precisas e conscientes do contexto sem exigir conhecimento em SQL
  9. Capacidades da plataforma: Governança, desempenho, orquestração e armazenamento aberto: A arquitetura é sustentada por um conjunto de capacidades nativas da plataforma que suportam segurança, otimização, automação e interoperabilidade em todo o ciclo de vida dos dados. Principais capacidades:
    • Governança: O Catálogo Unity fornece controle de acesso centralizado, linhagem, auditoria e classificação de dados em todas as cargas de trabalho
    • Desempenho: O motor Photon, cache inteligente e otimização consciente de carga de trabalho fornecem consultas rápidas sem ajuste manual
    • Orquestração: A orquestração integrada gerencia pipelines de dados, fluxos de trabalho de IA e trabalhos agendados em cargas de trabalho em lote e em streaming, com suporte nativo para gerenciamento de dependências e tratamento de erros
    • Armazenamento aberto: Os dados são armazenados em formatos abertos (Delta Lake, Parquet, Iceberg), permitindo interoperabilidade entre ferramentas, portabilidade entre plataformas e durabilidade a longo prazo sem bloqueio de fornecedor
    • Monitoramento e auditabilidade: Visibilidade de ponta a ponta no desempenho da consulta, execução do pipeline e acesso do usuário para melhor controle e gerenciamento de custos
    • Diferencial chave: Os serviços de nível de plataforma estão integrados - não sobrepostos - garantindo que a governança, automação e desempenho sejam consistentes em todos os fluxos de trabalho de dados, nuvens e equipes

Recomendado

Arquitetura de ponta a ponta da Inteligência de Dados com Azure Databricks

Arquitetura de Referência

Arquitetura de ponta a ponta da Inteligência de Dados com Azure Databricks
Arquitetura de Referência para Ingestão de Dados

Arquitetura de Referência

Arquitetura de Referência para Ingestão de Dados
Arquitetura de Referência para Previsão de Perda de Crédito

Arquitetura da Indústria

Arquitetura de Referência para Previsão de Perda de Crédito