Desde que anunciamos o Public Preview do Lakebase no verão, milhares de clientes da Databricks têm criado Aplicações Inteligentes de Dados no Lakebase, usando-o para alimentar o fornecimento de dados de aplicações, Feature Stores e memória de agente, mantendo esses dados totalmente alinhados com fluxos de trabalho de analítica e machine learning.
Com a proximidade do fim do ano, estamos entusiasmados em lançar um novo e empolgante conjunto de melhorias:
Esses recursos representam um marco significativo na definição da categoria lakebase, uma arquitetura de banco de dados serverless que separa o armazenamento OLTP do compute. Isso é possível graças à combinação da tecnologia de armazenamento e Postgres serverless da nossa aquisição da Neon com a infraestrutura multinuvem de nível empresarial da Databricks.
As cargas de trabalho de aplicações modernas raramente seguem padrões de tráfego previsíveis. A atividade dos usuários flutua ao longo do dia, Jobs em segundo plano geram picos de escrita e sistemas baseados em agentes podem criar picos repentinos de simultaneidade. Bancos de dados operacionais tradicionais exigem que as equipes planejem manualmente o pico de uso e ajustem a capacidade, muitas vezes resultando em superprovisionamento e complexidade desnecessária.
Como a Lakebase se baseia em uma arquitetura que separa a camada de armazenamento da camada de compute e permite o escalonamento independente das duas, estamos lançando a capacidade de autoscale de compute que pode ajustar dinamicamente o compute com base na demanda da carga de trabalho ativa. Quando o tráfego aumenta, o compute escala para manter o desempenho. Quando a atividade diminui, o compute reduz a escala. Bancos de dados parados são suspensos após um curto período de inatividade e retomam rapidamente quando novas queries chegam. A compute se ajusta dinamicamente para se adequar à demanda da carga de trabalho nos ambientes de produção e de desenvolvimento.

O resultado é menos tempo gasto gerenciando a capacidade e mais tempo focado no comportamento da aplicação.
Criar um novo banco de dados ou retomar um que esteja parado não deve atrasar o desenvolvimento. Com esta atualização, o provisionamento de novos bancos de dados Lakebase ocorre em segundos, e as instâncias suspensas retomam rapidamente quando o tráfego retorna. Isso facilita criar ambientes sob demanda, iterar durante o desenvolvimento e dar suporte a fluxos de trabalho em que bancos de dados são criados e descartados com frequência.
Para equipes que criam e testam aplicações, um startup mais rápido reduz o atrito e mantém os ciclos de iteração curtos, especialmente quando combinado com branching e autoscale.
Construir e evoluir aplicações de produção significa mudança constante. As equipes validam atualizações de schema, depuram problemas complexos e fazem a execução de pipelines de CI que dependem de views consistentes dos dados. A clonagem tradicional de banco de dados tem dificuldade em acompanhar o ritmo porque as cópias completas são lentas, consomem muito armazenamento e são operacionalmente arriscadas.
O serviço de armazenamento do Lakebase implementa a ramificação copy-on-write, e agora disponibilizamos essa funcionalidade como ramificação de banco de dados para nossos clientes. Branchs são ambientes instantâneos de copy-on-write que permanecem isolados enquanto compartilham o armazenamento subjacente. Isso facilita a criação de ambientes de desenvolvimento, teste e homologação em segundos e a iteração na lógica da aplicação sem mexer nos sistemas de produção.

Na prática, o branching remove o atrito do ciclo de vida de desenvolvimento e ajuda as equipes a avançar mais rápido e com confiança. (Mas testar em produção ainda não é recomendado!)
Nem todo problema de dados é uma interrupção. Às vezes, o problema é mais sutil: um bug que grava dados incorretos silenciosamente ao longo do tempo, uma alteração de esquema que se comporta de maneira diferente do esperado ou um script de backfill que afeta mais linhas do que o previsto. Esses problemas geralmente passam despercebidos até que as equipes precisem contar com data histórica para análise, relatórios ou para o comportamento de aplicações downstream.
Em ambientes tradicionais, a recuperação de cenários como este pode ser penosa. As equipes são forçadas a reconstruir a história manualmente, reproduzir logs ou configurar sistemas temporários apenas para recuperar uma versão funcional conhecida dos seus dados. Esse processo é demorado, propenso a erros e geralmente exige conhecimento aprofundado de banco de dados.
O Lakebase agora torna essas situações muito mais fáceis de lidar. Com backups automatizados e recuperação para um ponto no tempo (point-in-time recovery), as equipes podem restaurar um banco de dados para um momento exato no tempo em segundos. Isso permite que as equipes de aplicação se recuperem rapidamente de problemas de dados causados por bugs de aplicação ou erros operacionais, sem exigir replay manual ou fluxos de trabalho de recuperação complexos.

Além da recuperação, os sistemas de produção também precisam de espaço para crescer à medida que os volumes de dados aumentam. Com esta atualização, o Lakebase aumenta sua capacidade de armazenamento suportada para até 8 TB, um aumento de quatro vezes em relação aos limites anteriores, tornando-o adequado para cargas de trabalho de aplicações maiores e mais exigentes.
O Lakebase agora também é compatível com o Postgres 17, além do suporte contínuo para o Postgres 16. Isso dá às equipes acesso às melhorias mais recentes do Postgres, mantendo a compatibilidade com os aplicativos existentes.
Juntas, estas atualizações tornam o Lakebase uma base mais sólida para executar cargas de trabalho operacionais de produção no Databricks.
O Lakebase agora inclui uma nova interface de usuário, projetada para simplificar os fluxos de trabalho do dia a dia. Criar bancos de dados, gerenciar Branches e entender o comportamento da capacidade está mais simples, com defaults melhores e provisionamento mais rápido. Esta nova UI está acessível no ícone do App Launcher para a nova oferta de autoscale do Lakebase. A oferta provisionamento anterior do Lakebase aparecerá na UI nas próximas semanas.

Conforme mencionado anteriormente, milhares de clientes da Databricks têm desenvolvido aplicativos no Lakebase. Como o Lakebase é totalmente integrado à Databricks Data Intelligence Platform, os dados operacionais residem na mesma base que oferece suporte a analítica, AI, aplicações e fluxos de trabalho de agentes. O Unity Catalog oferece governança consistente, controle de acesso, auditoria e linhagem. Os Databricks Apps e frameworks de agentes podem utilizar o Lakebase para integrar o estado em tempo real com o contexto histórico, eliminando a necessidade de ETL ou replicação.
Para os profissionais, isso cria um ambiente unificado onde os dados operacionais e analíticos permanecem alinhados, sem a necessidade de lidar com múltiplos sistemas para manter as aplicações conectadas à inteligência.
Citando dois early adopters:
“O Lakebase permite que uma equipe agêntica obtenha rapidamente por autoatendimento os dados de que precisa para seus modelos, sejam solicitações de reembolso históricas ou transações em tempo real, e isso é muito poderoso.” — Dragon Sky, Arquiteto-chefe, Ensemble Health
“O Lakebase nos oferece um armazenamento durável e de baixa latência para o estado da aplicação, para que nossos data apps carreguem rapidamente, refresh de forma fluida e até mesmo suportem links de páginas compartilhados entre usuários.” — Bobby Muldoon, VP de Engenharia, YipitData
Esses novos recursos estão disponíveis hoje nas regiões da AWS us-east-1, us-west-2, eu-west-1 e serão lançados gradualmente em mais regiões nas próximas semanas. Confira a documentação do produto para saber mais e experimentar os recursos mais recentes.
Esta atualização representa um passo significativo para o Lakebase. Mas não paramos por aí. Aguarde muitas atualizações incríveis depois das festas de fim de ano do ano que vem!
Boas Festas da equipe Lakebase!
(This blog post has been translated using AI-powered tools) Original Post
Produto
June 11, 2024/11 min de leitura

