データエンジニアリング2024年11月26日<1分で読めます

DatabricksのサーバーレスコンピュートでVM起動を7倍高速化

Databricksのサーバーレスコンピュートインフラは、3大クラウドプロバイダー上で毎日数百万台の仮想マシン（VM）を起動・管理しています。この規模で効率的にインフラを運用することは、大きな課題です。本日は、真のサーバーレス体験を実現するための最近の取り組みをご紹介します。これにより、コンピュートリソースだけでなく、Apache SparkクラスタやLLMの提供など、あらゆるデータとAIのワークロードを大規模に処理するための基盤システムが数秒で準備完了します。私たちの知る限り、これほど多様なデータおよびAIワークロードを大規模に数秒以内で実行できるサーバーレスプラットフォームは他にありません。最大の課題は、VM環境を最適なパフォーマンスでセットアップするための時間とコストにあります。このセットアップには、さまざまなソフトウェアパッケージのインストールだけでなく、実行環境の十分なウォームアップも必要です。たとえば、Databricks Runtime（DBR）では、JVMのJITコンパイラをウォームアップすることで、開始直後から最高のパフォーマンスを提供する必要があります。このブログでは、DatabricksソフトウェアをプリロードしたVM（Databricks VM）の起動時間を数分から数秒に短縮するために開発したシステムレベルの最適化について説明します。これは、サーバーレスプラットフォームのリリース以来、7倍の改善を達成したものであり、現在ではほぼすべてのDatabricks製品を支えています。これらの最適化は、OSやコンテナランタイムからホストされたアプリケーションに至るまで、ソフトウェアスタック全体にわたり、毎日数千万分の計算時間を節約し、Databricksサーバーレスのお客様に最高の価格パフォーマンスを提供しています。 Databricks VMの起動図1で示される3つの主要な起動ステージについて、それぞれが時間を要する理由を以下に簡単に説明します： 1. OSの起動 Databricks VMは、一般的なOSの起動シーケンスからスタートします。これには、カーネルの起動、システムサービスの開始、コンテナランタイムの起動が含まれ、最終的にはVMフリート全体を管理するクラスタマネージャーへの接続が行われます。 2. コンテナイメージの取得 Databricksでは、アプリケーションをコンテナイメージとしてパッケージ化しています。これにより、実行時リソースの管理が簡素化され、デプロイが効率化されます。VMがクラスタマネージャーに接続すると、コンテナ仕様のリストを受け取り、コンテナレジストリから数ギガバイトにおよぶイメージをダウンロードします。これらのイメージには、最新のDatabricks Runtimeだけでなく、ログ処理、VMのヘルスモニタリング、メトリック収集などのユーティリティアプリケーションも含まれています。 3. コンテナ内のセットアップ最後に、VMはワークロードコンテナを起動し、環境を初期化して稼働可能な状態にします。たとえば、Databricks Runtimeの場合、その初期化プロセスには数千ものJavaライブラリの読み込みや、JVMをウォームアップするための一連の厳選されたクエリの実行が含まれます。これらのウォームアップクエリを実行することで、JVMが一般的なコードパスのバイトコードをネイティブマシン命令にジャストインタイム（JIT）コンパイルし、最初のクエリから最高の実行パフォーマンスを提供します。多くのウォームアップクエリを実行することで、すべての種類のクエリやデータ処理ニーズに対して低レイテンシの体験を保証します。しかし、クエリの数が多いほど、初期化プロセスに数分を要する場合があります。これらの各ステージで、以下の最適化を開発することでレイテンシを改善しました。専用のサーバーレスOS...

DatabricksのサーバーレスコンピュートでVM起動を7倍高速化

最新の投稿

Databricksでのサッカーコーチングアプリの構築

「支払う」をタップした直後の数ミリ秒間に起きていること

Apache Spark 4.2のご紹介

Apache Spark リアルタイムモードによる超高速異常検知

SynapseからDatabricksへの移行の進め方

Databricks AI全体でGPUの信頼性を維持する方法

モノリスからLakebase、そしてLTAPへ：ストレージ起点でデータベースを再考する

Databricksが動画を検索可能で実用的なインテリジェンスに変換する方法

DatabricksへのETL移行のための意思決定フレームワーク

テストベンチからレイクハウスへ：AVLがImpulseで計測データ分析をモダン化する方法

最新の投稿を受信トレイで受け取る

Sign up

DatabricksのサーバーレスコンピュートでVM起動を7倍高速化

Databricksでのサッカーコーチングアプリの構築

「支払う」をタップした直後の数ミリ秒間に起きていること

Apache Spark 4.2のご紹介

Apache Spark リアルタイムモードによる超高速異常検知

SynapseからDatabricksへの移行の進め方

Databricks AI全体でGPUの信頼性を維持する方法

モノリスからLakebase、そしてLTAPへ：ストレージ起点でデータベースを再考する

Databricksが動画を検索可能で実用的なインテリジェンスに変換する方法

DatabricksへのETL移行のための意思決定フレームワーク

テストベンチからレイクハウスへ：AVLがImpulseで計測データ分析をモダン化する方法

エージェント型アプリを大規模に展開

最新の投稿を受信トレイで受け取る

Sign up