メインコンテンツへジャンプ
イベント2026年3月20日<1分で読めます

マルチクラウドの課題、インテリジェントな負荷分散、AIを活用したワークフロー:SRECon 2026におけるDatabricks

Databricksのインフラエンジニアが、3月24日にシアトルで開催される SRECon 2026 に参加します。Databricks Platformの基盤となるインフラストラクチャのスケーリング、運用、進化のために行ってきた取り組みについてご紹介できることを楽しみにしています。 サービスメッシュ、トラフィックルーティング、設定管理、ステートフルサービスの実行に取り組むBrickstersを含む、インフラストラクチャチームのエンジニアと交流しましょう。これは、エンジニアが解決している最大の課題や、彼らが推進しているインフラストラクチャのイノベーションを探求する絶好の機会です。 さらに、これらの技術セッションもお見逃しなく! DatabricksにおけるインテリジェントなKubernetes負荷分散 Databricksは、AWS、Azure、GCP全体で数千のマイクロサービスを実行しています。この規模では、Kubernetesのデフォルトの負荷分散は機能しません。組み込みのkube-proxyとClusterIPモデルはレイヤー4で動作し、リクエストではなく接続を分散します。長期間のHTTP/2接続を持つgRPCサービスの場合、これは深刻なトラフィックの偏りを引き起こします。一部のPodは過負荷になり、他のPodはアイドル状態になります。その結果、テールレイテンシのスパイク、コンピューティングリソースの無駄遣い、予測不可能なサービス動作が発生します。 私たちはこの問題に対処するためにカスタムソリューションを構築しました。このトークでは、アーキテクチャ、検討したトレードオフ(Istioやフルサービスメッシュを採用しなかった理由を含む)、そしてマルチクラウドフリート全体でこれを展開して得られた教訓について説明します。 詳細については、以前のブログ記事をご覧ください: DatabricksにおけるインテリジェントなKubernetes負荷分散 。 AIを活用した数千ものデータベースのデバッグ方法 Databricksは、3つのクラウドと数百のリージョンにまたがる数千のOLTPデータベースインスタンスを運用しています。問題が発生した場合、エンジニアは従来、Grafanaダッシュボード、CLIツール、クラウドプロバイダーのコンソール、および社内ランブックから収集したシグナルを組み合わせる必要がありました。デバッグ体験は断片的で遅く、暗黙知に大きく依存していました。新しいエンジニアがデータベースの問題を診断できるようになるまで、数週間かかることもありました。 私たちはこの状況を変えるためにAI支援プラットフォームを構築しました。ハッカソンのプロトタイプから始まり、本番システムへと成長させました。このトークでは、ゼロから本番に至るまでの道のり、それを機能させたアーキテクチャ上の決定、そして大規模なAI駆動運用ツールの構築について学んだことについて共有します。 詳細については、以前のブログ記事をご覧ください: DatabricksにおけるAIを活用した数千ものデータベースのデバッグ方法 。 ネットワーキングイベント:Dicerディープダイブ 今年初め、私たちは高可用性で低レイテンシのシャーディングサービスを構築するための自動シャーディングシステムである Dicerをオープンソース化しました 。Dicerは、分散システムにおける基本的な緊張関係に対処します。ステートレスアーキテクチャはシンプルですが高価です(すべてのリクエストがデータベースまたはリモートキャッシュにヒットします)。一方、静的にシャーディングされたアーキテクチャは効率的ですが壊れやすいです(再起動により可用性が低下し、ホットキーが不均衡を引き起こし、スケーリングには手動介入が必要です)。...

最新の投稿

20 の結果のうち 1 - 10 を表示しています

最新の投稿を受信トレイで受け取る

ブログを購読して、最新の投稿を受信トレイにお届けします。