20 de março de 2026

Desafios Multi-Cloud, Balanceamento de Carga Inteligente e Workflows com IA: Databricks na SRECon 2026

Engenheiros da Databricks estão avançando a confiabilidade e eficiência da infraestrutura com contribuições open-source. Saiba mais sobre o trabalho que as equipes estão liderando na SREcon 2026.
Conheça a abordagem da Databricks para desafios complexos de infraestrutura, incluindo balanceamento de carga do lado do cliente para Kubernetes em multi-cloud e depuração com IA para instâncias de banco de dados em larga escala.
Explore o Dicer, o sistema de auto-sharding open-sourced que aprimora a disponibilidade e o desempenho de serviços críticos como o Unity Catalog, otimizando a distribuição de dados.

Engenheiros de infraestrutura da Databricks estão indo para a SRECon 2026 em Seattle no dia 24 de março. Estamos animados para compartilhar parte do trabalho que temos feito para escalar, operar e evoluir a infraestrutura por trás da Plataforma Databricks.

Junte-se a nós para conversar com engenheiros de nossas equipes de infraestrutura, incluindo os Bricksters que trabalham com service mesh, roteamento de tráfego, gerenciamento de configuração e execução de serviços stateful. Esta é uma ótima oportunidade para explorar os maiores problemas que os engenheiros estão resolvendo e as inovações em infraestrutura que eles estão impulsionando.

Além disso, não perca estas sessões técnicas!

Balanceamento de Carga Inteligente do Kubernetes na Databricks

A Databricks executa milhares de microsserviços em AWS, Azure e GCP. Nessa escala, o balanceamento de carga padrão do Kubernetes falha. O modelo integrado kube-proxy e ClusterIP opera na Camada 4, distribuindo conexões em vez de requisições. Para serviços gRPC com conexões HTTP/2 de longa duração, isso leva a um grave desvio de tráfego: alguns pods ficam sobrecarregados enquanto outros ficam ociosos. O resultado são picos de latência, desperdício de computação e comportamento imprevisível do serviço.

Construímos uma solução personalizada para resolver isso e, nesta palestra, detalharemos a arquitetura, os trade-offs que consideramos (incluindo por que optamos por não adotar Istio ou um service mesh completo) e as lições que aprendemos ao implementá-la em uma frota multi-cloud.

Para mais detalhes técnicos, veja nosso post anterior no blog: Balanceamento de Carga Inteligente do Kubernetes na Databricks.

Como Depuramos Milhares de Bancos de Dados com IA

A Databricks opera milhares de instâncias de banco de dados OLTP em três nuvens e centenas de regiões. Quando algo dá errado, os engenheiros historicamente precisavam juntar sinais de dashboards Grafana, ferramentas CLI, consoles de provedores de nuvem e runbooks internos. A experiência de depuração era fragmentada, lenta e fortemente dependente de conhecimento tribal. Novos engenheiros podiam levar semanas para se tornarem eficazes no diagnóstico de problemas de banco de dados.

Construímos uma plataforma assistida por IA para mudar isso; começando com um protótipo de hackathon e crescendo para um sistema de produção. Nesta palestra, compartilharemos a jornada do zero à produção, as decisões arquiteturais que a fizeram funcionar e o que aprendemos sobre a construção de ferramentas operacionais com IA em escala.

Para mais detalhes, veja nosso post anterior no blog: Como Depuramos Milhares de Bancos de Dados com IA na Databricks.

Evento de Networking: Mergulho Profundo no Dicer

No início deste ano, nós abrimos o código do Dicer, nosso sistema de auto-sharding para construir serviços shardados de baixa latência e alta disponibilidade. O Dicer aborda uma tensão fundamental em sistemas distribuídos: arquiteturas stateless são simples, mas caras (cada requisição atinge o banco de dados ou cache remoto), enquanto arquiteturas shardadas estaticamente são eficientes, mas frágeis (reinicializações causam quedas de disponibilidade, chaves quentes causam desbalanceamento e o escalonamento requer intervenção manual).

O Dicer resolve isso gerenciando continuamente e dinamicamente as atribuições de shard. Ele divide shards sobrecarregados, mescla os subutilizados, replica dados críticos para disponibilidade e move shards durante reinicializações rolling para manter as taxas de acerto do cache. Na Databricks, o Dicer potencializa alguns de nossos serviços mais críticos: o Unity Catalog atinge taxas de acerto de cache de 90-95% com o Dicer, nosso motor de orquestração de consultas SQL elimina quedas de disponibilidade durante reinicializações e nosso cache remoto mantém as taxas de acerto mesmo durante implantações rolling.

Estamos organizando um evento de networking dedicado durante a SRECon onde nos aprofundaremos no Dicer: como ele funciona, como o usamos em produção e como você pode usá-lo em sua própria infraestrutura. Esta é uma sessão interativa com bebidas e petiscos, não uma palestra formal. Traga suas perguntas sobre sharding, caching e construção de serviços stateful em escala.

Vagas limitadas. Registre-se aqui: Evento de Networking Databricks @ SRECon 2026

No Que Nossas Equipes de Infraestrutura Estão Trabalhando

Além das palestras e do evento de networking, nossas equipes de infraestrutura estão enfrentando alguns dos problemas mais difíceis em operações multi-cloud. Algumas áreas que nos entusiasmam:

Entrega de serviços multi-cloud: A Databricks roda em AWS, Azure e GCP simultaneamente. Cada serviço, cada configuração, cada pipeline de implantação precisa funcionar em todas as três nuvens e em suas respectivas regiões governamentais e soberanas. Nossas equipes estão construindo as ferramentas e abstrações que tornam isso gerenciável, desde configurações unificadas de posicionamento que definem onde os serviços são executados, até pipelines de implantação que lidam com as diferenças entre os provedores de nuvem.

Service mesh e roteamento de tráfego: À medida que nossa frota de serviços cresce, rotear tráfego de forma eficiente e confiável torna-se cada vez mais complexo. Estamos investindo em descoberta de serviços, roteamento entre clusters e entre regiões, e integração entre nossos sistemas de balanceamento de carga e sharding. À medida que nossa frota cresceu, o espaço do problema se expandiu de otimizar o tráfego dentro de um único cluster para rotear entre clusters, entre regiões e até mesmo entre provedores de nuvem.

Gerenciamento de configuração em escala: Gerenciar a configuração em milhares de serviços, múltiplas nuvens e diferentes ambientes (dev, staging, produção, regiões governamentais) é um problema que se agrava a cada novo serviço e a cada nova região. Nossas equipes estão construindo sistemas para tornar as alterações de configuração seguras, auditáveis e consistentes. Veja nosso post no blog sobre Feature Flagging de Alta Disponibilidade na Databricks.

Encontre-nos na SRECon

A Databricks é uma patrocinadora Silver. Encontre-nos no Estande #214 no Expo Floor. Vários engenheiros de nossas equipes de infraestrutura estarão lá, incluindo Bricksters que trabalham com service mesh, roteamento de tráfego, gerenciamento de configuração e execução de serviços stateful. Venha nos encontrar para conversar sobre os problemas que estamos resolvendo e os sistemas que estamos construindo.

Se você não nos encontrar na SREcon e estiver interessado em se juntar à nossa equipe, visite nosso site de Carreiras para as últimas oportunidades.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.

Ver todos os blogs