Databricksで複雑な地理データとAIを活用し、実用的なインサイトを獲得!
によって ケイレブ・モリソン, シンディ・ホフマン, ロブ・フォスター, Michael Johns 、 ジャコモ・リスティ による投稿
電力会社であるXcel Energyのような企業にとって、野火の軽減は電力インフラの保護と、電力関連の発火イベントのリスクを最小限に抑えるために重要です。典型的な軽減戦略には、植生管理、グリッドの強化、リスク評価、公共安全電源遮断(PSPS)、AIやセンサーのような先進技術の活用が含まれます。このユースケースでの一般的な課題は、利用可能な構造化データとともに地理空間データの分析です。地理空間分析は、地球上の特定の場所に関連するデータを研究することで、さまざまな現象や相互作用を理解するために重要です。一般的な例としては、ナビゲーションアプリ、ジオタグ付きの写真、天気図などがあります。しかし、地理空間データを扱うことは、データプライバシーや位置追跡に関する課題、さまざまなデータ形式(GeoJSONやShapefileなど)を扱うための複雑なソフトウェアツールの必要性、計算的に集中的な大規模データセットの管理といった課題をもたらします。さらに、座標系や測定単位が異なる異なるソースからのデータを統合する際に、精度や歪みに関する課題が生じることがあります。これらの複雑さにもかかわらず、地理空間データはXcel Energyの戦略と運用において重要な役割を果たしています。この重要なデータを最大限に活用するためには、地理空間の洞察を効果的に統合し、分析して野火のリスクに対応するための課題を克服するソリューションが必要です。
ユースケース
ワイルドファイアの軽減はXcel Energyの主要な取り組みであり、2020年以降にワイルドファイアの軽減活動に5億ドルを投資しています。Xcel Energyは、2025-2027年のワイルドファイヤー軽減計画で、システムの保守とアップグレード、運用上の予防策、広範な状況認識を含む多面的な戦略をコロラド州に提案しています。これらの取り組みは、リアルタイムの天気予報に基づいたワイルドファイヤーのリスク指標を計算するために、先進的な地理空間と機械学習モデルに依存しています。Nousotとの協力のもと、Xcel EnergyはDatabricks Data Intelligence PlatformとH3インデックスなどの地理空間ライブラリを使用して、複雑な天候データを単純化された表形式の出力に変換します。この効率的なデータは、効率的な機械学習のワークフローをサポートし、生成的なAIソリューションが地理空間情報を文脈化し、問い合わせるための道を開きます。これらの技術は、気象チームと資産チームに対するより速く、より正確なリスク洞察を可能にします。この取り組みにより、Xcel Energyの停電データの分析範囲が3.3倍に増加し、精度が4.1倍に向上し、処理時間が64倍に短縮されます。
Databricks Spatial SQLとH3機能を使用して、テラバイト単位の地理空間気象データを処理することができ、これにより高速で高影響力の意思決定が可能になります。— ロブ・フォスター、Xcel Energyの主任データサイエンティスト
Databricksプラットフォ ームで地理空間分析を実行する力は、そのソリューションの高性能、精度、およびスケーラビリティにあります。Xcel Energyは、数百の大規模な天候ファイル(多くは複数のデータバンドを含む)を効率的に処理し、分析することができます。これは1時間以内に可能です。この偉業は、旧来のGISシステムではほぼ不可能でした。このような能力により、気象学者や資産管理の関係者は、電気設備によって引き起こされる野火のリスクを軽減するための適時かつ適切な決定を下すことができます。2025年には、Xcel Energyはこのプロセスの表形式の出力を活用して、火災リスクや停電の予測に役立つ機械学習モデルの訓練を計画しています。
次の例は、Databricks Platformが地理空間分析をどのようにサポートしているかを示しており、米国地質調査所(USGS)によって計算された野生地火災潜在指数(WFPI)を使用しています。USGSは毎日7日間のWFPI予測を公開し、Xcel Energyはこれを算術およびAIの野火リスクモデリングの一部として使用します。図1に示すように、米国のWFPI測定の地図が表示されています。黄色と赤のピクセルは火災リスクが高いことを示し、緑はリスクが低いことを示し、灰色/白色のエリアは農地や雪などの未測定地域を表しています。Xcel Energyの資産データの機密性を考慮して、この例ではオレゴン州を代理として使用しています(Xcel Energyはオレゴン州で運営していません)。

地理空間画像データは、図1に示すように、広大なエリアをカバーすることがよくあります。このような広範囲で細かい解像度でH3インデックスを作成することは、計算コストが高く、しばしば不必要です。Xcel Energyは、自社の資産が存在する地理的なエリアのみを処理する必要があります。これに対処するため、次のステップは初期画像を「切り取り」、関心のあるエリアに焦点を当てることです。次に、関心のあるエリア内の所望の解像度で各H3ヘキサゴンの野生火災潜在指数(WFPI)値を計算します。これらのH3値は、Delta Live Tableに保存したり、Pythonライブラリを使用して視覚化したりすることができます。オレゴン州の例を引き続き使用すると、図2は特定の夏の日の切り取られてインデックス化されたWFPIリスクレベルの視覚化です。この視覚化は、DatabricksノートブックまたはDatabricksアプリで生成できることに注意してください。

H3の空間解像度を示すために、緑のボックスで強調表示されたエリアにズームインしましょう。

H3解像度7では、各六角形は約5.16平方キロメートルをカバーし、一辺の長さは約1.41キロメートルです。
可視化の多くの特徴はカスタマイズ可能で、この例では、測定された火災の可能性の値が元の画像と同じ色にマッピングされています。隣接する六角形間の色の鮮やかなコントラストに注目してください。WFPIの変動は、H3インデックスシステムによって可能となる精度を強調しています。
この同じプロセスは、数多くの天候予報と観測、および複数のXcel Energy資産タイプに対して繰り返されます。結果として、すべての環境データと資産データが同じH3ドメインに集約されます。このデータは、MLとGenAIモデルの訓練に強固な基盤となります。野火AIには複数の影響範囲があります。これには、大規模言語モデル(LLM)を使用してフィールドクルーからの作業指示ノートと停電報告をレビューし、火花などの点火イベントが発生したかどうかを判断することが含まれます。スパーキングは通常、乾燥した植生との接触、倒れたワイヤー、または機能不全の機器によるもので 、火災を引き起こす可能性があります。LLMは、開発、実験追跡、管理のためにMLflowにログインされます。LLMは、Databricks Model Servingを使用してリアルタイムの推論のために実用化することができます。このGenAIパワードのアプローチは、停電イベントのデータ完全性を100%達成し、以前の手動プロセス(データの30%しかキャプチャできなかった)に比べて変革的な改善をもたらし、重要なデータギャップを解消し、スタッフの時間を節約し、運用能力を強化します。現在、資産の発火可能性を予測するなど、さまざまなシナリオを予測し、シミュレートするための他のAI/MLモデルが設計されています。H3データとの自然言語を使用した対話は、AI/BI GenieやAI FunctionsなどのDatabricksツールを使用すると簡単になります。

このアプローチはDatabricksで容易にスケールし、MLモデルの提供を加速することでAIを解放します。— Cindy Hoffman、データ戦略ディレクター、Xcel Energy
Databricksプラットフォームで地理空間分析を統合することにより、NousotはXcel Energyに、野火のリスクを積極的に対処するための精度とスケーラビリティを提供します。このソリューションは、地域化されたリスク分析と複雑な天候データの効率的な処理に基づいて、企業が迅速に情報に基づいたデータ駆動型の決定を下すことを可能にし、コミュニティの安全性と運用効率の両方を向上させます。

Databricks Data Intelligence Platformは、分析とトランザクションにおける伝統的なデータレイクの制限、およびデータウェアハウスの高コストと柔軟性の欠如を解消します。それはすべてのデータタイプに対して高いスケーラビリティを持ちながら、信頼性とデータバージョニングのためのACIDトランザクションをサポートし、一貫性のためのスキーマ強制をサポートします。Unity Catalogは、アクセス、監査、メタデータ管理の中央化制御を提供することで、構造化データと非構造化データ、そしてMLとAIモデルのデータ管理を強化します。さらに、プラットフォームは、SQLウェアハウスとノートブックでの迅速な利用可能性をサポートするためのサーバーレスコンピューティングをサポートし、Photon Engineはクエリパフォーマンスを大幅に向上させます。Databricksはまた、Unity Catalog内で統合されたWorkflows、Jobs、Delta Live Tablesを通じて、柔軟なワークロード設定とタイムリーな更新を容易にします。これにより、データの系譜と変換に対する可視性が向上します。
Databricksプラットフォームは、高度なデータウェアハウジング、バージョニング、ガバナンス機能を超えて、地理空間ワークロードをサポートするいくつかの機能を持っています。
現在プライベートプレビュー中のDatabricksは、座標、点、線、多角形などのベクトルデータを扱うための70以上のSpatial SQL関数を提供しています。プレビュー機能へのアクセスは、このフォームを通じてリクエストすることができます。この新機能は、ユーザーが専有的なスキルセットを必要とせずに、SQLデータ言語を通じて複雑な地理空間データに簡単にアクセスできるようにします。
地理空間グリッドインデックスは、空間データをグリッドに整理する技術で、パフォーマンスを向上させ、データの取得を容易にします。さまざまなインデックスシステムの中で、H3グローバルグリッドインデックスは、高性能でスケールする能力が推奨されています。
Uberが開発しオープンソース化したH3は、地球の表面を階層的な六角形グリッド(一部は五角形)を使用してモデル化します。16の解像度レベルを提供し、解像度の数値が低いほど、地理空間エリアが大きくなります。例をいくつかご紹介します。
この柔軟性により、ビジネスは自分たちのニーズに最も適した解像度の粒度を選択することができます。Databricksは、H3 SQL関数を通じてH3 Global Grid Indexingをサポートしており、現在では地理空間データ処理を効率化するための30以上の関数が利用可能です。図5はH3インデックスの例を示しています。

ラスター(天気予報の地図や衛星画像など)は扱いにくい場合があります。ラスターでは、画像の各ピクセルが特定の地理空間エリアの測定値を表します。例えば、ERA5気候学データセットには、大気、陸地、海洋の気候変数の推定値がピクセルあたり30kmの空間解像度で含まれています。NOAA Operational Model Archive and Distribution System (NOMADS)プロジェクトは、複数の機関や機関からのデータやモデルの共有を可能にし、これにはいくつかの異なる解像度での大気予報が含まれます。これらの機関からのラスターは、同じファイル内に複数のレイヤーやバンドのデータを含むことがあり、これには地表温度、風速、相対湿度のための別々のバンドが含まれ、ファイル形式はGeoTIFF、NetCDF、GRIB、HDF4/5などがあります。
databricks-mosaicライブラリは、Databricks Labsから提供され、これらの複雑なファイルタイプと、後継プロジェクトであるspatial-utilsからの新たなラスターサポートとの対話をサポートします。Databricks-mosaicは、Apache Spark™のスケーラブルな地理空間拡張で、複数のオープンソースフレームワークの機能を統合します。このライブラリには、ファイルとバンドのメタデータを読み取り、必要なバンドを抽出し、ラスターにH3インデックスを適用し、各H3セル内のピクセル値の測定(最小、最大、平均、または中央値)を行う機能があります。このプロセスは、複雑なラスターを単純な表形式のデータに変換します。
Databricks Platformは、Shapely、GeoPandas、Rasterio、Sedona、Xarrayなどの多くのサードパーティ製のPythonベースの地理空間ライブラリの使用をサポートしています。新たに人気を博しているライブラ リには、CARTOの無料のDatabricks用Analytics Toolboxがあり、これはネイティブのDatabricksとSedonaとCARTOが提供する機能を組み合わせています。EsriのDatabricks上のGeoAnalytics Engineも強力なオプションであり、視覚化はmatplotlib、Plotly、Cartopy、Kepler.glなどのライブラリを通じてサポートされています。Databricks DashboardsとDatabricks Appsを使用してチャート、テーブル、地図を提供することで、ユーザーが洞察を得てデータを探索するためのシンプルなインターフェースが提供されます。
Databricksは、創設以来、データとAIの最前線で革新を続けてきました。私たちの継続的な投資を通じて、Nousotなどの素晴らしいパートナーと共に、お客様は私たちのData Intelligence Platformを使用して、空間ユースケースをスケールする際のデータの取り込み、処理、分析、モデル構築、提供のニーズを効率的に処理しています。— マイケル・ジョンズ、地理空間スペシャリストリーダー、Databricks
ポイントデータや複雑なラスターを扱う場合でも、Databricksは地理空間分析に最適なプラットフォームです。Xcel Energyの野火緩和のユースケースは、天候予報、嵐の対応、植生管理、リスク緩和、需要予測、人間の移動、インフラ計画、小売業務、精密農業などの他のイニシアチブにも適用可能です。
Databricksでの地理空間分析は、ソリューション資産を活用し、伝統的なO&Mコストを削減することで、定量的なビジネス価値を提供する機会を提供します。— Giacomo Listi、エネルギー&ユーティリティプラクティスリード、Nousot
Databricksは、数十の地理空間SQL関数、H3インデックス、そして強力なオープンソースライブラリのサポートを含む、その地理空間機能への投資を続けています。これらのソリューションは、空間的な文脈と認識を持つGenAIとMLモデルを構築するための堅固な基盤を提供します。

Nousotは、ビジネス成果に駆動されたAIと分析のユースケースを提供することに焦点を当 てたDatabricksのコンサルティングパートナーです。彼らのエネルギー&ユーティリティー部門は、このセクターの特定の課題に対応したソリューションを提供し、エネルギー需要予測、レートケースの結果、AMIスマートメーター、GenAI顧客エンゲージメント、野火緩和、グリッドのレジリエンス、GenAI加速規制遵守などを通じて変革をもたらします。
このブログ投稿は、Caleb Morrison&Giacomo Listi(Nousot)、Cindy Hoffman&Rob Foster(Xcel Energy)、Michael Johns(Databricks)によって共同で執筆されました。
話し合いたいユースケースがある場合は、databricks@nousot.comでNousotに連絡してください。
ブログを購読して、最新の投稿を受信トレイにお届けします。