Revenir au contenu principal

Défis multi-cloud, équilibrage de charge intelligent et flux de travail basés sur l'IA : Databricks à SRECon 2026

Blue background, green and white circles, databricks booth

Publié: 20 mars 2026

Événements5 min de lecture

Summary

  • Les ingénieurs Databricks font progresser la fiabilité et l'efficacité de l'infrastructure avec des contributions open-source. Apprenez-en davantage sur le travail mené par les équipes à SREcon 2026.
  • Découvrez l'approche de Databricks face aux défis d'infrastructure complexes, y compris l'équilibrage de charge côté client pour Kubernetes dans un environnement multi-cloud et le débogage basé sur l'IA pour les instances de bases de données à grande échelle.
  • Explorez Dicer, le système d'auto-sharding open-source qui améliore la disponibilité et les performances des services critiques comme Unity Catalog en optimisant la distribution des données.

Les ingénieurs infrastructure de Databricks se rendent à SRECon 2026 à Seattle le 24 mars. Nous sommes ravis de partager une partie du travail que nous avons accompli pour faire évoluer, exploiter et améliorer l'infrastructure derrière la plateforme Databricks. 

Rejoignez-nous pour discuter avec les ingénieurs de nos équipes infrastructure, y compris les Bricksters travaillant sur le service mesh, le routage du trafic, la gestion de la configuration et l'exécution de services stateful. C'est une excellente opportunité d'explorer les problèmes majeurs que les ingénieurs résolvent et les innovations infrastructure qu'ils pilotent.

De plus, ne manquez pas ces sessions techniques !

Équilibrage de charge Kubernetes intelligent chez Databricks

Databricks exécute des milliers de microservices sur AWS, Azure et GCP. À cette échelle, l'équilibrage de charge par défaut de Kubernetes ne suffit pas. Le modèle intégré kube-proxy et ClusterIP fonctionne au niveau 4, distribuant les connexions plutôt que les requêtes. Pour les services gRPC avec des connexions HTTP/2 de longue durée, cela entraîne une forte asymétrie du trafic : certains pods sont surchargés tandis que d'autres restent inactifs. Il en résulte des pics de latence, du calcul gaspillé et un comportement de service imprévisible.

Nous avons construit une solution personnalisée pour résoudre ce problème et dans cette présentation, nous détaillerons l'architecture, les compromis que nous avons considérés (y compris pourquoi nous avons choisi de ne pas adopter Istio ou un service mesh complet), et les leçons que nous avons tirées en déployant cette solution sur une flotte multi-cloud.

Pour plus de détails techniques, consultez notre précédent article de blog : Équilibrage de charge Kubernetes intelligent chez Databricks.

Comment nous déboguons des milliers de bases de données avec l'IA

Databricks exploite des milliers d'instances de bases de données OLTP sur trois clouds et des centaines de régions. Lorsque quelque chose tourne mal, les ingénieurs devaient historiquement assembler des signaux provenant de tableaux de bord Grafana, d'outils CLI, de consoles de fournisseurs cloud et de runbooks internes. L'expérience de débogage était fragmentée, lente et fortement dépendante des connaissances internes. Les nouveaux ingénieurs pouvaient mettre des semaines à devenir efficaces pour diagnostiquer les problèmes de base de données.

Nous avons construit une plateforme assistée par l'IA pour changer cela ; en partant d'un prototype de hackathon pour le faire évoluer vers un système de production. Dans cette présentation, nous partagerons le parcours de zéro à la production, les décisions architecturales qui ont permis son fonctionnement, et ce que nous avons appris sur la création d'outils opérationnels basés sur l'IA à grande échelle.

Pour plus de détails, consultez notre précédent article de blog : Comment nous déboguons des milliers de bases de données avec l'IA chez Databricks.

Webinaire

Databricks 101 : Un guide pratique

Événement de réseautage : Plongée dans Dicer

Plus tôt cette année, nous avons rendu Dicer open-source, notre système d'auto-sharding pour construire des services shardés hautement disponibles et à faible latence. Dicer aborde une tension fondamentale dans les systèmes distribués : les architectures stateless sont simples mais coûteuses (chaque requête atteint la base de données ou le cache distant), tandis que les architectures shardées statiquement sont efficaces mais fragiles (les redémarrages provoquent des baisses de disponibilité, les clés chaudes provoquent des déséquilibres et la mise à l'échelle nécessite une intervention manuelle).

Dicer résout ce problème en gérant continuellement et dynamiquement les affectations de shards. Il divise les shards surchargés, fusionne ceux sous-utilisés, réplique les données critiques pour la disponibilité et déplace les shards lors des redémarrages progressifs pour maintenir les taux de succès du cache. Chez Databricks, Dicer alimente certains de nos services les plus critiques : Unity Catalog atteint des taux de succès de cache de 90 à 95 % avec Dicer, notre moteur d'orchestration de requêtes SQL élimine les baisses de disponibilité lors des redémarrages, et notre cache distant maintient les taux de succès même lors des déploiements progressifs.

Nous organisons un événement de réseautage dédié pendant SRECon où nous approfondirons Dicer : comment il fonctionne, comment nous l'utilisons en production, et comment vous pouvez l'utiliser dans votre propre infrastructure. C'est une session interactive autour d'un verre et d'amuse-bouches, pas une présentation formelle. Venez avec vos questions sur le sharding, le caching et la construction de services stateful à grande échelle.

La place est limitée. Inscrivez-vous ici : Événement de réseautage Databricks @ SRECon 2026

Sur quoi travaillent nos équipes infrastructure

Au-delà des présentations et de l'événement de réseautage, nos équipes infrastructure s'attaquent à certains des problèmes les plus difficiles en matière d'opérations multi-cloud. Quelques domaines qui nous enthousiasment :

Livraison de services multi-cloud : Databricks s'exécute simultanément sur AWS, Azure et GCP. Chaque service, chaque configuration, chaque pipeline de déploiement doit fonctionner sur les trois clouds et leurs régions gouvernementales et souveraines respectives. Nos équipes construisent les outils et les abstractions qui rendent cela gérable, des configurations de placement unifiées qui définissent où les services s'exécutent, aux pipelines de déploiement qui gèrent les différences entre les fournisseurs cloud.

Service mesh et routage du trafic : À mesure que notre flotte de services grandit, le routage du trafic de manière efficace et fiable devient de plus en plus complexe. Nous investissons dans la découverte de services, le routage inter-clusters et inter-régions, et l'intégration entre nos systèmes d'équilibrage de charge et de sharding. Au fur et à mesure que notre flotte s'est développée, le domaine des problèmes s'est étendu de l'optimisation du trafic au sein d'un seul cluster au routage entre les clusters, entre les régions, et même entre les fournisseurs cloud.

Gestion de la configuration à grande échelle : La gestion de la configuration sur des milliers de services, plusieurs clouds et différents environnements (dev, staging, production, régions gouvernementales) est un problème qui s'aggrave avec chaque nouveau service et chaque nouvelle région. Nos équipes construisent des systèmes pour rendre les changements de configuration sûrs, audibles et cohérents. Consultez notre article de blog sur la gestion des fonctionnalités à haute disponibilité chez Databricks.

Rencontrez-nous à SRECon

Databricks est un sponsor Silver. Retrouvez-nous au stand n°214 sur le parvis de l'exposition. Plusieurs ingénieurs de nos équipes infrastructure seront présents, y compris des Bricksters travaillant sur le service mesh, le routage du trafic, la gestion de la configuration et l'exécution de services stateful. Venez nous parler des problèmes que nous résolvons et des systèmes que nous construisons.

Si vous nous manquez à SREcon et que vous souhaitez rejoindre notre équipe, visitez notre site Carrières pour les dernières opportunités.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.