O que é um Lakebase?

Publicado: 12 de junho de 2025

Anúncios7 min de leitura

por Ali Ghodsi, Stas Kelvich, Heikki Linnakangas, Nikita Shamgunov, Arsalan Tavakoli-Shiraji, Patrick Wendell, Reynold Xin e Matei Zaharia

Summary

Bancos de dados operacionais não foram projetados para as aplicações orientadas a IA de hoje. Eles ficam fora da pilha de análise e IA, requerem integração manual e não têm a flexibilidade necessária para os fluxos de trabalho de desenvolvimento moderno.
Lakebase introduz uma nova arquitetura para bancos de dados OLTP, que inclui a separação de computação e armazenamento para escalonamento independente e ramificação.
Profundamente integrado com o lakehouse, o Lakebase simplifica os fluxos de trabalho de dados operacionais. Ele elimina pipelines ETL frágeis e infraestrutura complexa, permitindo que as equipes se movam mais rápido e entreguem aplicações inteligentes em uma plataforma de dados unificada

Neste blog, propomos uma nova arquitetura para bancos de dados OLTP chamada lakebase. Um lakebase é definido por:

Abertura: Lakebases são construídos com base em padrões de código aberto, por exemplo, Postgres.
Separação de armazenamento e processamento: Os Lakebases armazenam seus dados em modernos data lakes (armazenamentos de objetos) em formatos abertos, o que permite escalar o processamento e o armazenamento separadamente, levando a um menor TCO e eliminando o lock-in.
Serverless: Lakebases são leves e podem escalar elasticamente de forma instantânea, para cima e para baixo, até zero. Em zero, o custo do lakebase é apenas o custo de armazenar os dados em data lakes baratos.
Fluxo de trabalho de desenvolvimento moderno: Criar um ramo em um banco de dados deve ser tão fácil quanto criar um ramo em um repositório de código, e deve ser quase instantâneo.
Construído para agentes de IA: Os Lakebases são projetados para suportar um grande número de agentes de IA operando na velocidade da máquina, e suas capacidades de ramificação e checkpoint permitem que os agentes de IA experimentem e retrocedam.
Integração Lakehouse: Lakebases devem facilitar a combinação de sistemas operacionais, analíticos e de IA sem pipelines ETL complexos.

Abertura

A maioria das tecnologias tem algum grau de bloqueio, mas nada tem mais bloqueio do que os bancos de dados OLTP tradicionais. Como resultado, houve muito pouca inovação nesse espaço por décadas. Bancos de dados OLTP são monolíticos e caros, com um significativo bloqueio de fornecedor.

Em sua essência, um lakebase é fundamentado em tecnologias de código aberto testadas em batalha. Isso garante compatibilidade com um amplo ecossistema de ferramentas e fluxos de trabalho de desenvolvedores. Ao contrário dos sistemas proprietários, os lakebases promovem transparência, portabilidade e inovação impulsionada pela comunidade. Eles dão às organizações a confiança de que sua arquitetura de dados não ficará presa a um único fornecedor ou plataforma.

O Postgres é o padrão líder em código aberto para bancos de dados. É o banco de dados OLTP de crescimento mais rápido no DB-Engines e lidera a pesquisa de desenvolvedores do StackOverflow como o banco de dados mais popular por uma ampla margem. Possui um motor maduro com um rico ecossistema de extensões.

Separação de Armazenamento e Computação

Uma das mais fundamentais colunas técnicas dos lakehouses é a separação de armazenamento e computação. Isso permite o escalonamento independente de recursos de computação e recursos de armazenamento. Lakebases compartilham a mesma arquitetura. Isso é mais desafiador de construir porque os data lakes de baixo custo não foram inicialmente projetados para as cargas de trabalho rigorosas que os bancos de dados OLTP executam, por exemplo. latência de milissegundos de um dígito e milhões de transações por segundo.

Note que algumas tentativas anteriores de separação de armazenamento e computação foram feitas por vários bancos de dados proprietários, como várias ofertas de Postgres hyperscaler. Estes são construídos em sistemas de armazenamento proprietários e fechados, que são inerentemente mais caros e não expõem armazenamento aberto.

Lakebases evoluíram com base nas tentativas anteriores de aproveitar os data lakes de baixo custo e formatos verdadeiramente abertos. Os dados são persistidos em armazenamentos de objetos em formatos abertos (por exemplo, As páginas do Postgres e as instâncias de computação leem diretamente dos data lakes, mas aproveitam camadas intermediárias com estado suave para melhorar o desempenho.

Experiência Serverless

Bancos de dados tradicionais são infraestruturas pesadas que exigem muita gestão. Uma vez provisionados, eles geralmente funcionam por anos. Se houver superprovisionamento, gasta-se mais do que o necessário. Se subprovisionado, os bancos de dados não terão capacidade para escalar de acordo com as necessidades do aplicativo e podem sofrer tempo de inatividade para aumentar a escala.

Um lakebase é leve e sem servidor. Ele é ativado instantaneamente quando necessário e reduzido a zero quando não é mais necessário. Ele se ajusta automaticamente, conforme as cargas mudam. Todas essas capacidades são possíveis graças à separação da arquitetura de armazenamento e computação.

Integração Lakehouse

Em arquiteturas tradicionais, bancos de dados operacionais e sistemas analíticos são completamente isolados. Mover dados entre eles requer pipelines ETL personalizados, gerenciamento manual de esquemas e conjuntos separados de controles de acesso. Essa fragmentação retarda o desenvolvimento, introduz latência e cria sobrecarga operacional para as equipes de dados e de plataforma.

Um lakebase resolve isso com uma integração profunda no lakehouse, permitindo a sincronização quase em tempo real entre as camadas operacionais e analíticas. Como resultado, os dados ficam disponíveis rapidamente para uso em aplicações, e as alterações operacionais podem retornar ao lakehouse sem fluxos de trabalho complexos, infraestrutura duplicada ou custos de saída incorridos ao mover dados. A integração com o lakehouse também simplifica a governança, com permissões de dados consistentes e segurança.

Fluxo de Trabalho de Desenvolvimento Moderno

Hoje, praticamente o primeiro passo de todo engenheiro ao modificar um código-fonte é criar um novo ramo git do repositório. O engenheiro pode fazer alterações no ramo e testá-lo, o qual está totalmente isolado do ramo de produção. Este fluxo de trabalho falha com bancos de dados. Não existe um equivalente ao "git checkout -b" para bancos de dados tradicionais e, como resultado, as alterações no banco de dados tendem a ser uma das partes mais propensas a erros do ciclo de vida do desenvolvimento de software.

Habilitado por uma técnica de cópia na gravação a partir da separação da arquitetura de armazenamento e computação, os lakebases permitem o ramificação do banco de dados completo, incluindo esquema e dados, para desenvolvimento e teste de alta fidelidade. Este novo ramo é criado instantaneamente e a um custo extremamente baixo, por isso pode ser usado sempre que “git checkout -b” é necessário.

Construído para Agentes de IA

Os dados da Neon mostram que, no decorrer do último ano, os bancos de dados criados por agentes de IA aumentaram de 30% para mais de 80%. Isso significa que os agentes de IA hoje criam mais bancos de dados do que os humanos por um fator de 4. À medida que a tendência continua, no futuro próximo, 99% dos bancos de dados serão criados e operados por agentes de IA, muitas vezes com humanos no processo. Isso terá implicações profundas nos requisitos de design de banco de dados, e acreditamos que os lakebases estarão melhor posicionados para atender a esses agentes de IA.

Em menos de um ano, a porcentagem de bancos de dados Neon gerados por agentes aumentou de 30% para 80% e agora superam a criação humana em 4 para 1.

Se você pensar em agentes de IA como sua própria grande equipe de desenvolvedores júnior de alta velocidade (potencialmente "orientados" por desenvolvedores sênior), as capacidades mencionadas dos lakebases serão extremamente úteis para os agentes de IA:

Ecossistema de código aberto: Todos os LLMs de fronteira foram treinados na vasta quantidade de informações públicas disponíveis sobre ecossistemas de código aberto populares como o Postgres, então todos os agentes de IA já são especialistas nesses sistemas.
Velocidade: Bancos de dados tradicionais foram projetados para serem provisionados e operados por humanos. Era aceitável levar minutos para iniciar um banco de dados. Dado que os agentes de IA operam na velocidade da máquina, o tempo de provisionamento ultra rápido se torna crítico.
Escala e precificação elásticas: A separação de armazenamento e a arquitetura serverless de computação permitem instâncias Postgres de custo extremamente baixo. Agora é possível lançar milhares ou até milhões de agentes com seus próprios bancos de dados de forma econômica, sem a necessidade de engenheiros especializados (por exemplo, DBAs) para manter/suportar ambientes de staging; isso reduz o TCO.
Ramificação e bifurcação: Os agentes de IA podem ser não determinísticos, e as "vibrações" precisam ser verificadas e validadas. A capacidade de criar instantaneamente uma cópia completa de um banco de dados, não apenas para o esquema, mas também para os dados, permite que todos esses agentes de IA operem em sua própria instância de banco de dados isolada em alta fidelidade para experimentação e validação.

Olhando para frente

Hoje, também estamos anunciando a Prévia Pública da nossa nova oferta de banco de dados também chamada Lakebase..

Mas mais importante do que o anúncio do produto, o lakebase é uma nova arquitetura de banco de dados OLTP que é muito superior à arquitetura de banco de dados tradicional. Acreditamos que é assim que todo sistema de banco de dados OLTP deve ser construído no futuro.

(This blog post has been translated using AI-powered tools) Original Post

O que vem a seguir?

Databricks and Stately logos on dark background

19 de dezembro de 2025/2 min de leitura

Dando as boas-vindas à Stately Cloud na Databricks: investindo na base para aplicações de AI escaláveis

Announcing first-class support of Iceberg format in the Delta Sharing protocol

23 de janeiro de 2026/7 min de leitura