Ir para o conteúdo principal

Bancos de dados operacionais: como funcionam e quando usá-los

por Equipe da Databricks

  • Bancos de dados operacionais são criados para velocidade e precisão — otimizando o processamento em tempo real, eles lidam com transações concorrentes conforme os usuários interagem com um aplicativo, em vez de consultas analíticas em larga escala.
  • Bancos de dados operacionais têm dificuldade em atender às demandas modernas. Arquiteturas legadas não foram projetadas para dados não estruturados e cargas de trabalho de IA, forçando os dados a passar por lentos pipelines de ETL para movê-los entre onde os dados residem e para onde precisam ir.
  • Um novo tipo de banco de dados está surgindo. Um Lakebase é uma nova arquitetura aberta que combina os melhores elementos de bancos de dados transacionais com a flexibilidade e a economia do data lake.

Bancos de dados operacionais — também chamados de bancos de dados de processamento de transações online (OLTP) — são projetados para processar transações em tempo real que impulsionam as operações comerciais do dia a dia. Bancos de dados operacionais são projetados para armazenar e recuperar dados rapidamente, processando o fluxo constante de criações, leituras, atualizações e exclusões que mantêm os aplicativos em execução e garantindo que as transações sejam concluídas com precisão e confiabilidade.

Este guia abrange como os bancos de dados operacionais funcionam, como eles diferem dos sistemas analíticos e o que é necessário para projetá-los para cargas de trabalho de alta taxa de transferência e baixa latência em ambientes modernos de nuvem e distribuídos.

Características principais de um banco de dados operacional

Bancos de dados operacionais são projetados para armazenar e atualizar dados transacionais de forma eficiente e confiável em tempo real para operações ao vivo. As características principais que definem os bancos de dados operacionais incluem:

  • Processamento em tempo real: Os dados são gravados e ficam disponíveis imediatamente, não em lotes. As transações são confirmadas em milissegundos, garantindo que os aplicativos sempre reflitam o estado mais recente do negócio.
  • Operações CRUD: Quatro operações fundamentais — Criar, Ler, Atualizar, Excluir — impulsionam aplicativos transacionais. Cada interação do usuário, desde o envio de um formulário até a conclusão de um pagamento, aciona uma ou mais dessas operações.
  • Atualidade dos dados: Bancos de dados armazenam dados no estado atual. Em operações de inventário, por exemplo, os dados refletem a contagem de estoque atual, não o que era no trimestre passado. Isso é crítico para a tomada de decisões operacionais e sistemas voltados para o cliente.
  • Alta concorrência: Mecanismos de controle de concorrência garantem que transações sobrepostas não corrompam dados compartilhados. Milhares de usuários podem ler e gravar simultaneamente sem conflitos ou erros.
  • Garantias ACID: Bancos de dados impõem propriedades ACID (atomicidade, consistência, isolamento, durabilidade) para garantir que apenas transações válidas e completas sejam armazenadas, mantendo a integridade dos dados. Cada transação é concluída corretamente ou não é concluída.

Bancos de dados operacionais vs. data warehouses

Um banco de dados operacional é projetado para armazenar e gerenciar dados em tempo real para dar suporte às operações contínuas de uma organização. Em contraste, um data warehouse é um repositório estruturado que fornece dados para inteligência de negócios e análise. Os dados são limpos, transformados e integrados em um esquema otimizado para consulta e análise.

Embora tanto bancos de dados operacionais quanto data warehouses armazenem dados de negócios, eles operam de maneiras diferentes e servem a propósitos distintos.

DimensãoBanco de dados operacionalData warehouse
Propósito principalProcessamento de transações em tempo realAnálise histórica e relatórios
Atualidade dos dadosDados atuais, continuamente atualizadosDados históricos, carregados periodicamente
Padrão de consultaSimples, alta frequência (uma linha por vez)Complexo, baixa frequência (agregações em milhões de linhas)
Design do esquemaNormalizado (minimiza redundância)Desnormalizado/esquema estrela (otimiza velocidade de leitura)
ConcorrênciaMilhares de usuários concorrentesDezenas a centenas de analistas concorrentes
LatênciaMilissegundosSegundos a minutos
OtimizaçãoPesado em gravação, inserções/atualizações de baixa latênciaPesado em leitura, agregação e recuperação rápidas
Exemplos de sistemasPostgreSQL, MySQL, MongoDB, DynamoDBSnowflake, BigQuery, Redshift, Databricks SQL

Para a maioria das organizações, não se trata de uma questão de um ou outro — elas precisam de ambos os tipos de sistemas de dados. Bancos de dados operacionais facilitam transações críticas e capturam os dados dessas transações, que são frequentemente alimentados em data warehouses para impulsionar análises e insights adicionais. Cada vez mais, a fronteira entre bancos de dados operacionais e data warehouses está se tornando menos clara, à medida que as arquiteturas de lakehouse unificam cargas de trabalho operacionais e analíticas em uma única plataforma. Essa convergência permite que as organizações passem de relatórios em lote para análises quase em tempo real, encurtando o tempo entre a transação e o insight.

Relatório

O manual de IA agêntica para empresas

OLTP vs. OLAP: Entendendo os modelos de processamento

Tanto os modelos OLTP quanto os de processamento analítico online (OLAP) são essenciais para gerenciar e analisar grandes volumes de dados, mas são projetados para tarefas diferentes e servem a propósitos distintos. Enquanto o OLTP se concentra em armazenar e atualizar dados transacionais de forma eficiente e confiável em tempo real para operações ao vivo, o OLAP é projetado para inteligência de negócios, mineração de dados e relatórios analíticos.

Sistemas OLTP lidam com transações curtas e executam operações em nível de linha para processar eficientemente as atividades comerciais do dia a dia. Eles são otimizados para cargas de trabalho com muitas gravações, focando no manuseio de um alto volume de transações pequenas e concorrentes, mantendo a velocidade e a integridade dos dados. Normalmente, eles usam esquemas normalizados para manter a integridade dos dados e reduzir a redundância.

Sistemas OLAP, por outro lado, se destacam na execução de consultas complexas e na realização de varreduras em nível de coluna para analisar grandes volumes de dados. Eles são otimizados para operações com muitas leituras, como agregação e análise, e comumente usam esquemas desnormalizados para melhorar o desempenho das consultas.

As organizações frequentemente usam processamento de dados OLTP e OLAP para inteligência de negócios abrangente. O pipeline OLTP para OLAP move dados transacionais gerados por bancos de dados operacionais por meio de processos de extração, transformação e carga (ETL) ou captura de dados de alteração (CDC) para um data warehouse ou lakehouse, onde analistas consultam para dar suporte à tomada de decisões. Um armazenamento de dados operacional (ODS) — outro componente arquitetônico — pode ficar entre os sistemas OLTP e OLAP para integrar dados quase em tempo real de várias fontes para relatórios operacionais sem a latência de uma carga completa do warehouse.

Por que os bancos de dados OLTP tradicionais ficam aquém para cargas de trabalho modernas

Sistemas OLTP foram projetados para processamento transacional rápido e confiável, em vez de cargas de trabalho analíticas ou orientadas por IA. No entanto, aplicativos modernos exigem análises em tempo real, acesso flexível a dados e integração com sistemas de IA, criando uma divisão entre os pontos fortes das arquiteturas OLTP tradicionais e as necessidades dos sistemas modernos. Soluções híbridas podem ajudar a preencher essa lacuna.

Limitações dos bancos de dados OLTP para aplicativos de IA e inteligentes

Bancos de dados OLTP tradicionais carecem das capacidades para dar suporte total a aplicativos modernos de IA e inteligentes. Eles geralmente são isolados de cargas de trabalho analíticas e de IA, exigindo que os dados sejam movidos por meio de pipelines ETL lentos antes de poderem ser usados. Eles são projetados para dados estruturados, sem suporte nativo para formatos não estruturados, embeddings ou pesquisa vetorial — capacidades que são fundamentais para sistemas modernos de IA. Esquemas rígidos dificultam a iteração rápida, o que é crítico para aplicações de agentes e IA em rápida evolução. Do ponto de vista de escalabilidade, a escalabilidade vertical atinge rapidamente limites práticos, enquanto a escalabilidade horizontal via sharding adiciona complexidade operacional. Sistemas OLTP tradicionais também geralmente carecem de recursos cruciais de governança de dados necessários para a implantação responsável de IA, como controles de acesso granulares, rastreamento de linhagem e recursos de conformidade.

Requisitos de aplicativos de dados modernos

Aplicativos de dados modernos exigem plataformas que possam unificar cargas de trabalho operacionais e analíticas sem atrasos em pipelines de lote, permitindo acesso em tempo real a dados recentes. Eles devem suportar uma ampla gama de tipos de dados — incluindo dados estruturados, semiestruturados, não estruturados e vetoriais — dentro de um único sistema para permitir diversos casos de uso. Governança, segurança e linhagem devem ser integradas, não adicionadas posteriormente. Esses aplicativos também exigem escalabilidade elástica e sem servidor para lidar eficientemente com cargas de trabalho imprevisíveis e integração de baixa latência com pipelines de IA/ML, repositórios de recursos e contextos orientados por agentes para suportar sistemas inteligentes e responsivos que operam em dados em constante evolução.

Como o Databricks Lakebase preenche a lacuna

Um lakebase resolve as limitações dos sistemas OLTP tradicionais. Os principais recursos de um lakebase incluem:

  • Armazenamento e computação separados: Os dados são armazenados de forma barata em armazenamentos de objetos na nuvem, enquanto a computação é executada de forma independente e elástica. Isso permite escala massiva, alta concorrência e a capacidade de escalar para zero em menos de um segundo.
  • Armazenamento ilimitado, de baixo custo e durável: Com os dados residindo no lake, os custos de armazenamento são dramaticamente menores do que em sistemas de banco de dados tradicionais que exigem infraestrutura de capacidade fixa. E seu armazenamento é suportado pela durabilidade do armazenamento de objetos na nuvem.
  • Computação Postgres elástica e sem servidor: Fornece Postgres totalmente gerenciado e sem servidor que escala instantaneamente com a demanda e reduz a escala quando ocioso.
  • Ramificação, clonagem e recuperação instantâneas: Bancos de dados podem ser ramificados e clonados da maneira que os desenvolvedores ramificam código.
  • Cargas de trabalho transacionais e analíticas unificadas: O Lakebase se integra perfeitamente ao Lakehouse, compartilhando a mesma camada de armazenamento entre OLTP e OLAP.
  • Aberto e multinuvem por design: Dados armazenados em formatos abertos evitam o aprisionamento tecnológico proprietário e permitem portabilidade real entre nuvens.

De dados operacionais a aplicativos inteligentes

Dados operacionais são valiosos porque impulsionam agentes de IA, decisões em tempo real e aplicações inteligentes. Bancos de dados operacionais tradicionais podem armazenar e processar dados em tempo real de forma eficiente, mas não foram projetados para as demandas atuais. O Databricks Lakebase ajuda as organizações a desbloquear todo o valor dos dados operacionais para aplicações com IA.

Dados operacionais como base para IA

Cada transação dentro de uma organização gera dados que podem alimentar modelos de IA, decisões de agentes e análises preditivas. O Databricks Lakebase disponibiliza dados operacionais para IA em tempo quase real, eliminando o atraso causado pela movimentação de dados de sistemas operacionais para o data warehouse. Como resultado, as organizações podem realizar casos de uso como agentes de IA agindo sobre o inventário em tempo real, sistemas de detecção de fraude que pontuam transações à medida que ocorrem e copilotos operando com dados de conta atualizados.

Construindo sobre a Plataforma Databricks

O Lakebase é construído sobre a Plataforma Databricks, que reúne dados, análises e IA em uma única plataforma.

  • O Delta Lake fornece uma base confiável com transações ACID, viagem no tempo e imposição de esquema em escala de lakehouse para dados operacionais confiáveis e flexíveis
  • O Mosaic AI conecta dados operacionais diretamente ao treinamento de modelos, ajuste fino, agentes e RAG, permitindo o desenvolvimento contínuo de IA com dados em tempo real
  • O Unity Catalog oferece uma camada de governança única e consistente com permissões unificadas e linhagem de ponta a ponta em todos os dados
  • O SQL Serverless e o streaming integrado suportam consultas em tempo real e ingestão contínua sem a necessidade de gerenciar infraestrutura

Começando com o Databricks Lakebase

Para começar com o Databricks Lakebase, conecte seus sistemas OLTP existentes por meio de pipelines CDC ou de streaming para o Delta Lake, eliminando a necessidade de movimentação de dados orientada a lotes. Uma vez ingeridos, os dados operacionais ficam imediatamente disponíveis em toda a plataforma, permitindo que análises SQL, dashboards de BI, fluxos de trabalho de ML e agentes de IA operem com dados recentes e continuamente atualizados. Essa abordagem simplificada permite que as equipes passem rapidamente da ingestão à percepção e ação, sem os atrasos ou a complexidade tradicionais de sistemas separados.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.