メインコンテンツへジャンプ
ログイン
      • Databricks を知る
        • For App Developers
          • エグゼクティブ向け
            • スタートアップ向け
              • レイクハウスアーキテクチャ
                • Databricks AIリサーチ
                • 導入事例
                  • 注目の導入事例
                  • パートナー
                    • パートナー概要
                      Databricks パートナー エコシステムの詳細
                      • パートナースポットライト
                        注目のパートナーの発表
                        • パートナープログラム
                          特典、レベル、パートナーになる方法をご覧ください
                          • クラウドプロバイダー
                            AWS、Azure、GCP 上の Databricks
                            • パートナーを探す
                              ニーズに合った Databricks パートナーを見つける
                              • パートナーソリューション
                                業界別および移行ソリューションを見つける
                              • Databricks プラットフォーム
                                • プラットフォームの概要
                                  データ・分析・AI のための統合プラットフォーム
                                  • データ管理
                                    データの信頼性・セキュリティ・パフォーマンス
                                    • 共有
                                      オープン、セキュア、ゼロコピーでのデータ共有
                                      • データウェアハウジング
                                        バッチ、ストリーミングデータのための ETL とオーケストレーション
                                        • ガバナンス
                                          データ・分析・AI のための統合ガバナンス
                                          • データエンジニアリング
                                            バッチ、ストリーミングデータのための ETL とオーケストレーション
                                            • 人工知能(AI)
                                              ML と生成 AI アプリケーションの構築とデプロイメント
                                              • ビジネス生産性
                                                統合された検索、チャット、ダッシュボード、アプリ
                                                • BI
                                                  実世界データのインテリジェント分析
                                                  • アプリケーション開発
                                                    安全なデータと AI アプリを迅速に構築
                                                    • Database
                                                      Postgres for data apps and AI agents
                                                      • セキュリティ
                                                        AI時代のために構築されたオープンなエージェント型SIEM
                                                      • 統合とデータ
                                                        • マーケットプレイス
                                                          データ、分析、AI のためのオープンマーケットプレイス
                                                          • IDE 統合
                                                            お気に入りの IDE(統合開発環境)でレイクハウスを構築
                                                            • パートナーコネクト
                                                              Databricks エコシステムの検索と統合
                                                            • ご利用料金
                                                              • Databricks のご利用料金
                                                                料金設定、DBU、その他
                                                                • コスト計算ツール
                                                                  クラウド利用でのコンピュートコストの試算
                                                                • オープンソース
                                                                  • オープンソーステクノロジー
                                                                    プラットフォームを支えるイノベーションをもっと詳しく
                                                                  • 業界向け Databricks
                                                                    • 通信
                                                                      • メディア・エンターテイメント
                                                                        • 金融サービス
                                                                          • 官公庁・公共機関
                                                                            • 医療・ライフサイエンス
                                                                              • リテール・消費財
                                                                                • 製造
                                                                                  • 全て見る
                                                                                  • クロスインダストリーソリューション
                                                                                    • AI Agents
                                                                                      • AI ガバナンス
                                                                                        • サイバーセキュリティ
                                                                                          • マーケティング
                                                                                          • 移行・デプロイメント
                                                                                            • データの移行
                                                                                              • プロフェッショナルサービス
                                                                                              • ソリューションアクセラレータ
                                                                                                • ソリューションアクセラレータ一覧
                                                                                                  成果を加速
                                                                                                • トレーニング・認定試験
                                                                                                  • トレーニング概要
                                                                                                    ニーズに合わせたカリキュラムを探す
                                                                                                    • Databricks アカデミー
                                                                                                      Databricks ラーニングプラットフォームにサインインする
                                                                                                      • 認定
                                                                                                        スキル・認定で差別化を図る
                                                                                                        • 無料版
                                                                                                          専門家向けデータとAIツールを無料で学べます
                                                                                                          • 大学との連携
                                                                                                            Databricks を教材として活用
                                                                                                          • イベント
                                                                                                            • DATA+AI サミット
                                                                                                              • Data+AI ワールドツアー
                                                                                                                • AI Days
                                                                                                                  • イベントカレンダー
                                                                                                                  • ブログ・ポッドキャスト
                                                                                                                    • Databricks ブログ
                                                                                                                      最新情報、製品発表、その他の情報
                                                                                                                      • AI ブログ
                                                                                                                        当社のAI研究とエンジニアリングの取り組みをご覧ください
                                                                                                                        • Data Brew ポッドキャスト
                                                                                                                          ご相談・お問い合わせ
                                                                                                                          • ポッドキャスト:Data+AI のチャンピオン
                                                                                                                            イノベーションを支えるデータリーダーのインサイト
                                                                                                                          • お役立ちリソース
                                                                                                                            • カスタマーサポート
                                                                                                                              • ドキュメント
                                                                                                                                • コミュニティ
                                                                                                                                • もっと詳しく
                                                                                                                                  • リソースセンター
                                                                                                                                    • デモセンター
                                                                                                                                      • アーキテクチャ センター
                                                                                                                                      • 企業概要
                                                                                                                                        • Databricks について
                                                                                                                                          • 経営陣
                                                                                                                                            • Databricks Ventures
                                                                                                                                              • ご相談・お問い合わせ
                                                                                                                                              • 採用情報
                                                                                                                                                • 採用情報概要
                                                                                                                                                  • 求人情報
                                                                                                                                                  • プレス・ニュース記事
                                                                                                                                                    • ニュースルーム
                                                                                                                                                      • 受賞歴と業界評価
                                                                                                                                                      • セキュリティと信頼
                                                                                                                                                        • セキュリティと信頼
                                                                                                                                                    • 是非ご検討ください!
                                                                                                                                                    • デモを見る
                                                                                                                                                    • ログイン
                                                                                                                                                    • Databricks 無料トライアル
                                                                                                                                                    1. すべてのブログ
                                                                                                                                                    2. /
                                                                                                                                                      エンジニアリング
                                                                                                                                                    • イントロダクション
                                                                                                                                                    • 背景
                                                                                                                                                    • ステートとステート管理とは?
                                                                                                                                                    • ベンチマーク
                                                                                                                                                    • まとめ
                                                                                                                                                    • 利用
                                                                                                                                                    • イントロダクション
                                                                                                                                                    • 背景
                                                                                                                                                    • ステートとステート管理とは?
                                                                                                                                                    • ベンチマーク
                                                                                                                                                    • まとめ
                                                                                                                                                    • 利用
                                                                                                                                                    データエンジニアリング
                                                                                                                                                    2024年2月28日

                                                                                                                                                    Apache Spark 構造化ストリーミングにおけるステートフルパイプラインのパフォーマンス改善

                                                                                                                                                    によって Mojgan Mazouchi, ムリティウンジャイ・クマール, Anish Shrigondekar 、 カルティケヤン・ラマサミー による投稿

                                                                                                                                                    イントロダクション

                                                                                                                                                    Apache Spark™ の構造化ストリーミングは、Spark SQLエンジン上に構築された、スケーラビリティと耐障害性を提供する人気のオープンソースストリーム処理プラットフォームです。 Databricksレイクハウスプラットフォーム上のほとんどの増分的およびストリーミングワークロードは、Delta Live TablesおよびAuto Loaderを含む構造化ストリーミングを利用しています。 ここ数年、あらゆる業界における多様なユースケースにおいて、構造化ストリーミングの使用と採用が飛躍的に伸びています。 Databricksでは、1週間に1,400万以上の構造化ストリーミングジョブが実行されており、その数は年間2倍以上のペースで増加しています。

                                                                                                                                                    構造化ストリーミングワークロード

                                                                                                                                                    ほとんどの構造化ストリーミングのワークロードは、分析ワークロードと運用ワークロードの2つに大別できます。 運用ワークロードは、ビジネスの重要な部分をリアルタイムで実行します。 分析処理とは異なり、運用処理ではデータに対するタイムリーな変換とアクションが重視されます。 運用処理アーキテクチャーにより、企業は受信データを迅速に処理し、業務上の意思決定を行い、データから得られるリアルタイムの洞察に基づいて即座に行動を起こすことができます。

                                                                                                                                                    このような運用ワークロードにとって、一貫した低レイテンシは重要な要件です。 このブログでは、構造化ストリーミングを使用するステートフルパイプラインのこの要件を達成するために、DatabricksがProject Lightspeedの一部として実装したパフォーマンス改善に焦点を当てます。

                                                                                                                                                    当社の性能評価では、これらの機能強化により、Databricks Runtime 13.3 LTS以降で実行される100kイベント/秒以上のスループットを持つワークロードで、ステートフルパイプラインのレイテンシを最大3~4倍改善できることが示されています。 これらの改良は、非常に厳しいレイテンシSLAを持つ、より多様なワークロードへの扉を開くものです。

                                                                                                                                                    このブログは2部構成になっており、第1部ではパフォーマンスの改善と向上について掘り下げ、第2部ではパフォーマンスの改善を達成した方法について、包括的な深堀りと高度な洞察を提供します。

                                                                                                                                                    このブログ記事は、読者がApache Spark 構造化ストリーミングの基本的な理解を持っていることを前提としていることに注意してください。

                                                                                                                                                    背景

                                                                                                                                                    ストリーム処理は、ステートレスとステートフルに大別されます:

                                                                                                                                                    • ステートレスパイプラインでは、通常、マイクロバッチ間のコンテキストを記憶することなく、各マイクロバッチを独立して処理する必要があります。 例えば、レコード単位でデータを変換する(フィルタリング、分岐、マッピング、反復など)ストリーミングETLパイプラインなどがあります。
                                                                                                                                                    • ステートフルパイプラインでは、複数のマイクロバッチに現れるレコードの情報を集約することがよくあります(例えば、時間ウィンドウの平均を計算する)。 このような操作を完了するために、これらのパイプラインはマイクロバッチ間で見たデータを記憶する必要があり、この状態はパイプラインの再起動にも弾力的である必要があります。

                                                                                                                                                    ステートフル・ストリーミング・パイプラインは、主に商品やコンテンツのレコメンデーション、不正検知、サービスのヘルスモニタリングなど、リアルタイムのユースケースに使用されます。

                                                                                                                                                    ステートとステート管理とは?

                                                                                                                                                    Apache Sparkクエリのコンテキストにおけるステートとは、ストリーミングパイプラインのマイクロバッチ間で維持される中間的な永続的コンテキストのことで、キー付きステートストアのコレクションです。 ステートストアは、読み取りと書き込みの両方の操作を提供するバージョン管理されたキーバリューストアです。 構造化ストリーミングでは、ステートストア・プロバイダの抽象化を使用してステートフルなオペレーションを実装します。 組み込みのステート・ストア・プロバイダーの実装は2つあります:

                                                                                                                                                    • HDFSにバックアップされたステート・ストア・プロバイダーは、すべてのステート・データをエクゼキューターのJVMメモリーに保存し、HDFS互換ファイルシステムに永続的に保存されたファイルによってバックアップされます。 ストアの更新はすべてトランザクション単位で行われ、更新のセットごとにストアのバージョンがインクリメントされます。 これらのバージョンは、正しいバージョンのストアでアップデートを再実行し、必要に応じてストアのバージョンを再生成するために使用できます。 すべての更新はメモリに保存されるため、このプロバイダはメモリ不足の問題やガベージコレクションの一時停止に定期的に遭遇する可能性があります。
                                                                                                                                                    • RocksDBステートストア・プロバイダは、各実行ノードのSparkパーティションごとに1つずつ、RocksDBインスタンス内の状態を管理します。 この場合、状態も分散ファイルシステムに定期的にバックアップされ、特定の状態バージョンをロードするために使用することができます。

                                                                                                                                                    Databricksでは、本番ワークロードにはRocksDBステートストア・プロバイダを使用することを推奨しています。 このプロバイダーを使用することで、JVMヒープ関連のメモリー問題や、HDFS状態ストア・プロバイダーによくあるガベージ・コレクションによる速度低下のリスクを回避できます。

                                                                                                                                                    ベンチマーク

                                                                                                                                                    私たちは、ステートフル・ストリーミング・パイプラインのパフォーマンスと、私たちの改善の効果をよりよく理解するために、一連のベンチマークを作成しました。 テスト用に一定のスループットでソースからデータを生成しました。 生成されたレコードには、レコードがいつ作成されたかという情報が含まれていました。 すべてのステートフル・ストリーミング・ベンチマークについて、レコード単位でエンド・ツー・エンドの待ち時間を追跡しました。 シンク側では、Apache DataSketchesライブラリを使用して、各レコードがシンクに書き込まれた時刻とソースが生成したタイムスタンプの差を収集しました。 このデータは、ミリ秒単位の待ち時間を計算するために使用されました。

                                                                                                                                                    Kafkaベンチマークでは、Kafkaを実行し、Kafkaに供給するデータを生成するために、いくつかのクラスタノードを確保しました。 レコードのレイテンシを計算したのは、レコードがKafka(シンク上)に正常にパブリッシュされた後です。 すべてのテストは、ステートフル・ストリーミング・クエリ用のステート・ストア・プロバイダーとしてRocksDBを使用して実行されました。

                                                                                                                                                    以下のテストはすべて、AWSのi3.2xlargeインスタンス(8コア、61GB RAM)で実行しました。 テストは、DBR 12.2 (改良なし) をベースイメージとして、DBR 13.3 LTS (すべての改良を含む) をテストイメージとして、1つのドライバと5つのワーカーノードで実行しました。

                                                                                                                                                    Kafkaソース/シンクによるストリーミング集約
                                                                                                                                                    Streaming Aggregation with Kafka Source/Sink: This benchmark reads from a Kafka source, writes to a Kafka sink, and performs stateful aggregation operations. We see up to 76% (p95) and 87% (p99) end-to-end latency reduction with an optimized number of shuffle partitions and improvements enabled.

                                                                                                                                                    ストリーム-ストリーム結合ベンチマーク
                                                                                                                                                    Stream-Stream Join Benchmark: This benchmark reads from an in-memory rate source, writes to an in-memory stats sink, and performs stream-stream join operations. We see up to 78% (p95) and 83% (p99) end-to-end latency reduction with an optimized number of shuffle partitions and improvements enabled.

                                                                                                                                                    ストリーミング重複排除ベンチマーク
                                                                                                                                                    Streaming Drop Duplicates Benchmark: This benchmark reads from an in-memory rate source, writes to an in-memory stats sink, and performs dropDuplicate operations. We see up to 77% (p95) and 93% (p99) end-to-end latency reduction with an optimized number of shuffle partitions and improvements enabled.

                                                                                                                                                    ストリーミングflatMapGroupsWithStateベンチマーク
                                                                                                                                                    Streaming flatMapGroupsWithState Benchmark: This benchmark reads from an in-memory rate source, writes to an in-memory stats sink, and performs arbitrary stateful operations using flatMapGroupsWithState. We see up to 65% (p95) and 66% (p99) end-to-end latency reduction with an optimized number of shuffle partitions and improvements enabled.

                                                                                                                                                    まとめ

                                                                                                                                                    このブログでは、Project Lightspeedのアップデートブログで言及されたパフォーマンスの改善を紹介するために実施したベンチマークのハイレベルな概要を提供しました。 ベンチマークが示すように、Databricks上でSpark Structured Streamingを使用してステートフルなパイプラインを実行しているお客様にとって、私たちが追加したパフォーマンスの向上は、多くのスピードと価値を解き放ちます。 ステートフルパイプラインに追加されたパフォーマンス改善については、次のブログポスト" ADeep Dive Into Latest Performance Improvements of Stateful Pipelines in Apache Spark Structured Streaming" で詳しく説明します。

                                                                                                                                                    利用

                                                                                                                                                    上記の機能はすべてDBR 13.3 LTSリリースから利用可能です。

                                                                                                                                                    最新の投稿を受信トレイで受け取る

                                                                                                                                                    ブログを購読して、最新の投稿を受信トレイにお届けします。

                                                                                                                                                    Sign up

                                                                                                                                                    すべてのブログを見る
                                                                                                                                                    databricks logo
                                                                                                                                                    Databricks を選ぶ理由
                                                                                                                                                    Databricks を選ぶ理由
                                                                                                                                                    • For App Developers
                                                                                                                                                    • エグゼクティブ向け
                                                                                                                                                    • スタートアップ向け
                                                                                                                                                    • レイクハウスアーキテクチャ
                                                                                                                                                    • Databricks AIリサーチ
                                                                                                                                                    導入事例
                                                                                                                                                    • 注目の導入事例
                                                                                                                                                    パートナー
                                                                                                                                                    • パートナー概要
                                                                                                                                                    • パートナープログラム
                                                                                                                                                    • パートナーを探す
                                                                                                                                                    • パートナースポットライト
                                                                                                                                                    • クラウドプロバイダー
                                                                                                                                                    • パートナーソリューション
                                                                                                                                                    Databricks を選ぶ理由
                                                                                                                                                    • For App Developers
                                                                                                                                                    • エグゼクティブ向け
                                                                                                                                                    • スタートアップ向け
                                                                                                                                                    • レイクハウスアーキテクチャ
                                                                                                                                                    • Databricks AIリサーチ
                                                                                                                                                    導入事例
                                                                                                                                                    • 注目の導入事例
                                                                                                                                                    パートナー
                                                                                                                                                    • パートナー概要
                                                                                                                                                    • パートナープログラム
                                                                                                                                                    • パートナーを探す
                                                                                                                                                    • パートナースポットライト
                                                                                                                                                    • クラウドプロバイダー
                                                                                                                                                    • パートナーソリューション
                                                                                                                                                    製品
                                                                                                                                                    レイクハウスプラットフォーム
                                                                                                                                                    • プラットフォーム
                                                                                                                                                    • 共有
                                                                                                                                                    • データガバナンス
                                                                                                                                                    • 人工知能(AI)
                                                                                                                                                    • BI
                                                                                                                                                    • Database
                                                                                                                                                    • データ管理
                                                                                                                                                    • データウェアハウス
                                                                                                                                                    • データエンジニアリング
                                                                                                                                                    • ビジネス生産性
                                                                                                                                                    • アプリケーション開発
                                                                                                                                                    • セキュリティ
                                                                                                                                                    ご利用料金
                                                                                                                                                    • 料金設定の概要
                                                                                                                                                    • 料金計算ツール
                                                                                                                                                    オープンソース
                                                                                                                                                    統合とデータ
                                                                                                                                                    • マーケットプレイス
                                                                                                                                                    • IDE 統合
                                                                                                                                                    • パートナーコネクト
                                                                                                                                                    レイクハウスプラットフォーム
                                                                                                                                                    • プラットフォーム
                                                                                                                                                    • 共有
                                                                                                                                                    • データガバナンス
                                                                                                                                                    • 人工知能(AI)
                                                                                                                                                    • BI
                                                                                                                                                    • Database
                                                                                                                                                    • データ管理
                                                                                                                                                    • データウェアハウス
                                                                                                                                                    • データエンジニアリング
                                                                                                                                                    • ビジネス生産性
                                                                                                                                                    • アプリケーション開発
                                                                                                                                                    • セキュリティ
                                                                                                                                                    ご利用料金
                                                                                                                                                    • 料金設定の概要
                                                                                                                                                    • 料金計算ツール
                                                                                                                                                    統合とデータ
                                                                                                                                                    • マーケットプレイス
                                                                                                                                                    • IDE 統合
                                                                                                                                                    • パートナーコネクト
                                                                                                                                                    ソリューション
                                                                                                                                                    業種別
                                                                                                                                                    • 通信
                                                                                                                                                    • 金融サービス
                                                                                                                                                    • 医療・ライフサイエンス
                                                                                                                                                    • 製造
                                                                                                                                                    • メディア・エンタメ
                                                                                                                                                    • 官公庁・公共機関
                                                                                                                                                    • リテール・消費財
                                                                                                                                                    • 全て表示
                                                                                                                                                    クロスインダストリーソリューション
                                                                                                                                                    • AI エージェント
                                                                                                                                                    • AI ガバナンス
                                                                                                                                                    • サイバーセキュリティ
                                                                                                                                                    • マーケティング
                                                                                                                                                    データの移行
                                                                                                                                                    プロフェッショナルサービス
                                                                                                                                                    ソリューションアクセラレータ
                                                                                                                                                    業種別
                                                                                                                                                    • 通信
                                                                                                                                                    • 金融サービス
                                                                                                                                                    • 医療・ライフサイエンス
                                                                                                                                                    • 製造
                                                                                                                                                    • メディア・エンタメ
                                                                                                                                                    • 官公庁・公共機関
                                                                                                                                                    • リテール・消費財
                                                                                                                                                    • 全て表示
                                                                                                                                                    クロスインダストリーソリューション
                                                                                                                                                    • AI エージェント
                                                                                                                                                    • AI ガバナンス
                                                                                                                                                    • サイバーセキュリティ
                                                                                                                                                    • マーケティング
                                                                                                                                                    リソース
                                                                                                                                                    ドキュメント
                                                                                                                                                    カスタマーサポート
                                                                                                                                                    コミュニティ
                                                                                                                                                    トレーニング・認定試験
                                                                                                                                                    • トレーニング
                                                                                                                                                    • 認定
                                                                                                                                                    • 無料版
                                                                                                                                                    • 大学との連携
                                                                                                                                                    • Databricks アカデミー
                                                                                                                                                    イベント
                                                                                                                                                    • DATA+AI サミット
                                                                                                                                                    • Data+AI ワールドツアー
                                                                                                                                                    • AI Days
                                                                                                                                                    • イベントカレンダー
                                                                                                                                                    ブログ・ポッドキャスト
                                                                                                                                                    • Databricks ブログ
                                                                                                                                                    • AI ブログ
                                                                                                                                                    • Data Brew ポッドキャスト
                                                                                                                                                    • Data+AI のチャンピオンシリーズ
                                                                                                                                                    トレーニング・認定試験
                                                                                                                                                    • トレーニング
                                                                                                                                                    • 認定
                                                                                                                                                    • 無料版
                                                                                                                                                    • 大学との連携
                                                                                                                                                    • Databricks アカデミー
                                                                                                                                                    イベント
                                                                                                                                                    • DATA+AI サミット
                                                                                                                                                    • Data+AI ワールドツアー
                                                                                                                                                    • AI Days
                                                                                                                                                    • イベントカレンダー
                                                                                                                                                    ブログ・ポッドキャスト
                                                                                                                                                    • Databricks ブログ
                                                                                                                                                    • AI ブログ
                                                                                                                                                    • Data Brew ポッドキャスト
                                                                                                                                                    • Data+AI のチャンピオンシリーズ
                                                                                                                                                    企業情報
                                                                                                                                                    企業概要
                                                                                                                                                    • Databricks について
                                                                                                                                                    • 経営陣
                                                                                                                                                    • Databricks Ventures
                                                                                                                                                    • ご相談・お問い合わせ
                                                                                                                                                    採用情報
                                                                                                                                                    • 採用情報概要
                                                                                                                                                    • 求人情報
                                                                                                                                                    プレス・ニュース記事
                                                                                                                                                    • ニュースルーム
                                                                                                                                                    • 受賞歴と業界評価
                                                                                                                                                    セキュリティと信頼
                                                                                                                                                    企業概要
                                                                                                                                                    • Databricks について
                                                                                                                                                    • 経営陣
                                                                                                                                                    • Databricks Ventures
                                                                                                                                                    • ご相談・お問い合わせ
                                                                                                                                                    採用情報
                                                                                                                                                    • 採用情報概要
                                                                                                                                                    • 求人情報
                                                                                                                                                    プレス・ニュース記事
                                                                                                                                                    • ニュースルーム
                                                                                                                                                    • 受賞歴と業界評価
                                                                                                                                                    databricks logo

                                                                                                                                                    Databricks Inc.
                                                                                                                                                    160 Spear Street, 15th Floor
                                                                                                                                                    San Francisco, CA 94105
                                                                                                                                                    1-866-330-0121

                                                                                                                                                    採用情報

                                                                                                                                                    © Databricks 2026. All rights reserved. Apache, Apache Spark, Spark and the Spark logo are trademarks of the Apache Software Foundation.

                                                                                                                                                    • プライバシー通知
                                                                                                                                                    • |利用規約
                                                                                                                                                    • |現代奴隷法に関する声明
                                                                                                                                                    • |カリフォルニア州のプライバシー権利
                                                                                                                                                    • |プライバシー設定