2026年3月20日

マルチクラウドの課題、インテリジェントな負荷分散、AIを活用したワークフロー：SRECon 2026におけるDatabricks

Databricksのエンジニアは、オープンソースへの貢献を通じてインフラストラクチャの信頼性と効率性を向上させています。SREcon 2026でチームが主導する取り組みについて詳しくご覧ください。
マルチクラウド環境におけるKubernetesのクライアントサイド負荷分散や、大規模データベースインスタンスのAIを活用したデバッグなど、Databricksが複雑なインフラストラクチャの課題にどのように取り組んでいるかをご覧ください。
Unity Catalogのような重要なサービスの可用性とパフォーマンスを向上させる自動シャーディングシステムであるDicerについて探求し、データ分散を最適化します。

Databricksのインフラエンジニアが、3月24日にシアトルで開催される SRECon 2026に参加します。Databricks Platformの基盤となるインフラストラクチャのスケーリング、運用、進化のために行ってきた取り組みについてご紹介できることを楽しみにしています。

サービスメッシュ、トラフィックルーティング、設定管理、ステートフルサービスの実行に取り組むBrickstersを含む、インフラストラクチャチームのエンジニアと交流しましょう。これは、エンジニアが解決している最大の課題や、彼らが推進しているインフラストラクチャのイノベーションを探求する絶好の機会です。

さらに、これらの技術セッションもお見逃しなく！

DatabricksにおけるインテリジェントなKubernetes負荷分散

Databricksは、AWS、Azure、GCP全体で数千のマイクロサービスを実行しています。この規模では、Kubernetesのデフォルトの負荷分散は機能しません。組み込みのkube-proxyとClusterIPモデルはレイヤー4で動作し、リクエストではなく接続を分散します。長期間のHTTP/2接続を持つgRPCサービスの場合、これは深刻なトラフィックの偏りを引き起こします。一部のPodは過負荷になり、他のPodはアイドル状態になります。その結果、テールレイテンシのスパイク、コンピューティングリソースの無駄遣い、予測不可能なサービス動作が発生します。

私たちはこの問題に対処するためにカスタムソリューションを構築しました。このトークでは、アーキテクチャ、検討したトレードオフ（Istioやフルサービスメッシュを採用しなかった理由を含む）、そしてマルチクラウドフリート全体でこれを展開して得られた教訓について説明します。

詳細については、以前のブログ記事をご覧ください: DatabricksにおけるインテリジェントなKubernetes負荷分散。

AIを活用した数千ものデータベースのデバッグ方法

Databricksは、3つのクラウドと数百のリージョンにまたがる数千のOLTPデータベースインスタンスを運用しています。問題が発生した場合、エンジニアは従来、Grafanaダッシュボード、CLIツール、クラウドプロバイダーのコンソール、および社内ランブックから収集したシグナルを組み合わせる必要がありました。デバッグ体験は断片的で遅く、暗黙知に大きく依存していました。新しいエンジニアがデータベースの問題を診断できるようになるまで、数週間かかることもありました。

私たちはこの状況を変えるためにAI支援プラットフォームを構築しました。ハッカソンのプロトタイプから始まり、本番システムへと成長させました。このトークでは、ゼロから本番に至るまでの道のり、それを機能させたアーキテクチャ上の決定、そして大規模なAI駆動運用ツールの構築について学んだことについて共有します。

詳細については、以前のブログ記事をご覧ください: DatabricksにおけるAIを活用した数千ものデータベースのデバッグ方法。

ネットワーキングイベント：Dicerディープダイブ

今年初め、私たちは高可用性で低レイテンシのシャーディングサービスを構築するための自動シャーディングシステムである Dicerをオープンソース化しました。Dicerは、分散システムにおける基本的な緊張関係に対処します。ステートレスアーキテクチャはシンプルですが高価です（すべてのリクエストがデータベースまたはリモートキャッシュにヒットします）。一方、静的にシャーディングされたアーキテクチャは効率的ですが壊れやすいです（再起動により可用性が低下し、ホットキーが不均衡を引き起こし、スケーリングには手動介入が必要です）。

Dicerは、シャードの割り当てを継続的かつ動的に管理することでこれを解決します。過負荷のシャードを分割し、利用率の低いシャードをマージし、可用性のために重要なデータをレプリケートし、キャッシュヒット率を維持するためにローリング再起動中にシャードを移動します。Databricksでは、Dicerは最も重要なサービスの一部を支えています。Unity CatalogはDicerで90-95%のキャッシュヒット率を達成し、SQLクエリオーケストレーションエンジンは再起動中の可用性の低下を解消し、リモートキャッシュはローリングデプロイメント中でもヒット率を維持します。

SRECon期間中に専用のネットワーキングイベントを開催し、Dicerについてさらに詳しく説明します。Dicerの仕組み、本番環境での使用方法、そしてご自身のインフラストラクチャでどのように使用できるかについて説明します。これは、ドリンクと軽食を楽しみながら行うインタラクティブなセッションであり、正式な講演ではありません。シャーディング、キャッシング、およびステートフルサービスの構築に関する質問をお持ちください。

席には限りがあります。こちらから登録してください: SRECon 2026でのDatabricksネットワーキングイベント

インフラストラクチャチームが取り組んでいること

講演やネットワーキングイベント以外にも、当社のインフラストラクチャチームは、マルチクラウド運用における最も困難な問題のいくつかに取り組んでいます。私たちが注力している分野のいくつかを以下に示します。

マルチクラウドサービスデリバリー: Databricksは、AWS、Azure、GCPで同時に動作します。すべてのサービス、すべての設定、すべてのデプロイメントパイプラインは、これら3つのクラウドおよびそれぞれの政府・主権リージョン全体で機能する必要があります。当社のチームは、サービスがどこで実行されるかを定義する統合配置設定から、クラウドプロバイダー間の違いを処理するデプロイメントパイプラインまで、これを管理可能にするツールと抽象化を構築しています。

サービスメッシュとトラフィックルーティング: サービスフリートが増加するにつれて、トラフィックを効率的かつ確実にルーティングすることはますます複雑になります。サービスディスカバリ、クラスター間およびリージョン間のルーティング、そして負荷分散システムとシャーディングシステムとの統合に投資しています。フリートが拡大するにつれて、問題領域は単一クラスター内のトラフィックの最適化から、クラスター間、リージョン間、さらにはクラウドプロバイダー間のルーティングへと拡大しました。

大規模な設定管理: 数千のサービス、複数のクラウド、およびさまざまな環境（開発、ステージング、本番、政府リージョン）にわたる設定の管理は、新しいサービスや新しいリージョンごとに増大する問題です。当社のチームは、設定変更を安全、監査可能、かつ一貫性のあるものにするシステムを構築しています。高可用性機能フラッギングに関するブログ記事をご覧ください: Databricksにおける高可用性機能フラッギング。

SREConでお会いしましょう

Databricksはシルバースポンサーです。Expoフロアのブース#214でお会いしましょう。サービスメッシュ、トラフィックルーティング、設定管理、ステートフルサービスの実行に取り組むBrickstersを含む、インフラストラクチャチームの数名のエンジニアが参加します。私たちが解決している問題や構築しているシステムについてお話ししましょう。

SREconで私たちに会えなかった場合で、当社のチームへの参加に興味がある場合は、最新の求人情報を当社のキャリアサイトでご確認ください。

(このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事