メインコンテンツへジャンプ

統計の予測最適化のゲーテッドパブリックプレビューを発表できることを嬉しく思います。Data + AI Summitで発表された予測最適化Predictive Optimizationは、最適化プロセスを効率化するためのAI駆動のアプローチとして一般提供されています。予測最適化は現在、重要なデータ レイアウトとクリーンアップ タスクをサポートしており、ユーザーからの早期フィードバックでは、日常的なデータ メンテナンスを大幅に簡素化する効果が高く評価されています。

 

自動統計管理の追加により、予測最適化は次のような進歩を通じて顧客に価値を提供し、操作を簡素化します。

  • データスキップ統計のインテリジェントな選択により、列順序管理の必要性が排除されます
  • クエリ最適化統計の自動収集により、データロード後にANALYZEを実行する必要がなくなります
  • 収集された統計情報はクエリ実行戦略に役立ち、平均してパフォーマンスの向上とコストの削減につながります

統計の影響

最新の統計情報を利用することで、パフォーマンスと総所有コスト(TCO)が大幅に向上します。統計情報ありとなしのクエリ実行の比較分析から、観察されたワークロード全体で平均22%のパフォーマンス向上が明らかになりました。Databricksはこれらの統計を利用して、データスキャンプロセスを洗練させ、最も効率的なクエリ実行計画を選択します。このアプローチは、データインテリジェンスプラットフォームがユーザーに具体的な価値を提供する能力を示しています。

統計によるクエリ時間の減少

 

 

統計がクエリパフォーマンスに影響を与えるのは驚くことではありません。統計はクエリプランの最適化を決定するために使用され、実行時にアダプティブクエリ実行 (AQE)によって補完されます。ゲーテッドパブリックプレビューに参加している顧客の中には、最適化された結合戦略を持つクエリの割合の増加とブルームフィルターの普及によるパフォーマンス改善が見られました。統計はパフォーマンス改善を最も確認するための最良の機会を提供します。

 

現在の課題

データレイクハウスは、2つの異なるタイプの統計を使用しています: データスキップ統計(デルタ統計とも呼ばれます)と クエリ最適化統計です。デルタ統計はファイルレベルで動作し、スキャン操作中のデータスキップを容易にし、デフォルトで最初の32列に対して自動的に生成されます。対照的に、クエリ最適化統計は、クエリ計画を支援するテーブルレベルのメトリクスで、ANALYZEコマンドを実行した後にのみ収集されます。

 

現在の統計収集のアプローチは、最適なパフォーマンスを追求しながらコストを最小限に抑えるデータエンジニアリングチームにとっていくつかの課題を提起しています:

 

  1. ワイドおよびネストされたスキーマのデータスキップ機能をどのように強化するか?
  2. ワークロードのクエリパターンを進化させるためにどのような戦略を使用できるか?
  3. ANALYZEコマンドを使用してクエリオプティマイザの統計を更新する最適な頻度はどれくらいか?

データスキップ統計は自動的に収集されますが、データが増え続け、使用方法が多様化するにつれて、ANALYZEコマンドをいつ実行するかを決定することが複雑になります。顧客は、クエリ最適化統計のメンテナンスを積極的に管理することで、この運用負荷に対処する必要があります。さらに、多くの顧客は定期的にANALYZEコマンドを実行しないため、最適でないクエリ実行計画が生じる可能性があります。

 

統計の予測最適化

予測最適化を有効にすると、統計は 2 つの異なるフェーズで管理されます。最初に、Photon対応コンピューティング (Databricks SQL および Serverless 製品ではデフォルトで有効) を通じて処理されたすべての新しいデータの統計が収集されます。これは、取り込み後に ANALYZE を実行する従来の方法とは異なり、データに一度しかアクセスしないため、統計収集に対するより効率的でコスト効率の高いアプローチです。その後、UPDATE および DELETE 操作によって統計が低下すると、予測最適化によってバックグラウンドで ANALYZE がトリガーされ、統計が最新かつ信頼できる状態が維持されます。

スマートデルタ統計収集

統計の予測最適化における最近の進歩により、データスキップ統計の収集プロセスが大幅に強化されました。現在、デルタ統計を収集するための主な方法は 2 つあります。従来は最初の 32 列に依存するデフォルトのアプローチと、手動で列を指定するオプションです。

 

この限定公開プレビューにより、Databricks は以前の 32 列の制約に従わなくなりました。代わりに、データ クラスタリングと使用パターンを採用して、Delta 統計の計算に最も関連性の高い列をインテリジェントに識別します。

 

顧客が Delta 統計収集の列を手動で指定した場合、その設定は最新のアップデートで確立された新しいデフォルトの基準よりも優先されることに注意してください。

クエリオプティマイザの統計情報をすぐに利用可能

Photonにより、クエリ最適化統計は書き込み操作中に自動的に収集されるようになりました。これは、新しく作成されたテーブルと既存の統計を持つテーブルの両方について、データ取り込み後にANALYZEコマンドが不要になることを意味します。最新の統計は、データロードが完了するとすぐに利用可能になります。

インテリジェントなバックフィル

多くの既存のテーブルでは、クエリ最適化統計が不足しています。予測最適化は、統計が古いまたは存在しないテーブルを特定し、更新するタイミング(および必要性)を決定します。このプロセスにより、統計が具体的な価値を提供するテーブルだけが更新されるため、パフォーマンス向上とコスト効率のバランスが保たれます。

統計のための予測最適化がどのように機能するか

予測最適化は、レイクハウスアーキテクチャのパフォーマンスと効率を向上させます。プロセスは簡単です。統計は書き込み中に収集されるため、データをロードした後にANALYZEを実行する必要はありません。デルタ統計は使用要素に基づいて収集されます。予測最適化は、その使用、データレイアウト、統計の古さに基づいて最適化をスケジュールします。これらはすべて、システムテーブルを使って簡単に監視し理解することができます。

書き込み、ス��ケジュール、最適化、観察のプロセス

 

ゲーテッドパブリックプレビューにサインアップしてください

こちらのフォームを使用して 統計のためのPredictive Optimizationのゲーテッドパブリックプレビューに サインアップしてください

 

クラウドごとの予測最適化のサポート地域の最新情報については、以下のドキュメントを参照してください: AWS | Azure | GCP

 

Databricks 無料トライアル

関連記事

Season's Speedings: Databricks SQL Delivers 4x Performance Boost Over Two Years

As the season of giving approaches, we at Databricks have been making our list and checking it twice--but instead of toys and treats...

Databricks SQLの最新情報 ~2024年10月~

私たちは、Databricks SQLをこれまで以上にシンプルで、高速で、手頃な価格にする最新の機能とパフォーマンスの改善をお知らせできることを嬉しく思います。 Databricks SQL は、Databricks Data Intelligence Platform内のインテリジェントなデータウェアハウスで、 レイクハウスアーキテクチャ 上に構築されています。実際、 Databricks SQLは現在8,000以上の顧客に使用頂いています! このブログでは、AI/BI、インテリジェントな体験、予測的最適化について詳しく説明します。また、強力な新しい価格/パフォーマンス機能も備えています。過去3ヶ月間の革新的な機能を皆様にご紹介できることを嬉しく思います。 AI/BI 2024年のData + AI Summit (DAIS)で AI/BIを発表 して以来、多くのエキサイティングな機能強化を追加してきました。まだAI/BIを試していない方は、ぜひお試しください。追加ライセンス不要で、すべてのDatabricks

Predictive Optimization (予測最適化) の一般提供開始を発表!

Translation Review by saki.kitaoka Databricks Predictive Optimization (予測最適化) の一般提供開始をお知らせできることを嬉しく思います! この機能は、テーブルデータのレイアウトをインテリジェントに最適化し、クエリの高速化とストレージコストの削減を実現します。 Predictive Optimizationは Unity Catalog を活用し、データインテリジェンスエンジンによって最適なデータ操作を自動的に実行することで、サーバーレスインフラ上で動作します。 従来はデータチームが手動で管理していたメンテナンス操作を、 Databricks Data Intelligence Platform が自動化することで、管理の複雑さを軽減し、パフォーマンスとコスト効率を向上させます。 今すぐアカウントコンソールから Predictive...
プラットフォームブログ一覧へ