メインコンテンツへジャンプ
ソリューション2026年6月26日<1分で読めます

Databricksが動画を検索可能で実用的なインテリジェンスに変換する方法

ある公益企業は、数百マイルに及ぶ送電線を検査するためにドローンを配備しています。警察署は、ひき逃げ事故を捜査するために何時間もの交通カメラの映像を抽出しています。都市計画チームは、歩行者や交通の流れを分析するためにカメラ映像を活用しています。 業務効率から公共の安全に至るまで、あらゆることに貴重なインサイトをもたらすテラバイト規模の動画データが毎日生成されています。しかし、そのほとんどは有意義な方法で分析されていません。なぜなら、この非構造化動画データをくまなく調べるには、膨大な時間とコストがかかるからです。 特定のコンテンツを見つけるだけでなく、動画コンテンツに対して自然言語クエリを大規模に適用し、分析、評価、学習ができることを想像してみてください。 Databricksはまさにそれをサポートできます。そのアプローチとは?動画をデータエンジニアリングの課題として捉えることです。 Databricksは動画分析へのアプローチをどのように変えたのか? 従来の動画分析のアプローチは、より多くの人間のアナリストをこの問題に投入することでした。ディープラーニング、コンピュータビジョン、そして最近ではビジョン言語モデル(VLM)の進歩により、コンピュータが動画内のオブジェクトを高い精度で特定できるようになりました。しかし、膨大な量の非構造化データを使用して推論をスケーリングし、パイプラインをオーケストレーションすることは、組織にとってこれらのパイプラインを構築する上での大きな課題となっています。これは、この問題にVLMを適用する場合に特に当てはまります。VLMはプロンプトの柔軟性を提供し、使用前に特定のクラスでモデルを事前学習またはファインチューニングする必要はありませんが、従来のオブジェクト検出モデルよりもサイズが大きく低速であるため、スケーリングの課題が生じます。 Databricksでは、モデルの推論やインフラの複雑さに悩まされることなく、これらのモデルを使用した動画分析をデータパイプラインにどのように適合させるかに集中できます。 Databricksはどのようにして大規模な動画の処理と分析を行うのか? このアプローチは、Databricksワークスペースに直接デプロイされたDatabricksアプリで実証できます。ユーザーは動画をアップロードするか、すでにDatabricks Volumeに保存されている動画を指定し、探しているものを説明する自然言語プロンプト(例:白いボックストラック、警備員、ソーラーパネルなど)を直接入力して、ワンクリックで処理パイプラインを開始します。 そこからは、Databricks Serverless GPU Compute(SGC)が処理を引き継ぎます。Lakeflowジョブがトリガーされ、事前にウォームアップされたGPUを確保し、数秒以内にMetaのSAM3セグメンテーションモデルを介して動画の処理を即座に開始します。モデルは、動画の各フレームでプロンプトに一致する対象オブジェクトを特定します。動画はそれらの瞬間だけに切り詰められ、別のDatabricks Volumeに書き戻されます。例えば、26分間の交通カメラの動画が、関連する1分55秒の映像に短縮され、必要に応じてレビュー担当者がソースに戻れるように元のタイムスタンプが保持されます。その後、切り詰められた各クリップは、Databricks Foundation Model API(FMAPI)を介して基盤モデルに渡され、AIによる要約が生成されます。これにより、テーブルに書き込んだり、追加の下流プロセスに流したりできるテキストデータが提供されます。 このプロセス全体がデータエンジニアリングの課題として扱われるため、パイプラインは明示的にモデルアグノスティック(モデルに依存しない)であり、MLflowを活用して、ユーザーが好みのモデルを選択したり、新しいモデルやファインチューニングされたモデルをワークフローに導入したりできます。MLflowのモデル署名は、モデルの入力と出力を標準化し、継続性と柔軟性を確保します。Hugging Faceからダウンロードしたモデルや、ゼロからトレーニングしたモデルはすべて、このパイプラインで活用できます。SAM3は、YOLOモデル、その他のトランスフォーマーベースのビジョンモデル、またはファインチューニングされたドメイン固有のモデルに置き換えることができます。” その柔軟性は、要約および異常検知レイヤーにも及びます。マルチモーダル基盤モデルや、より小規模な画像キャプション生成モデルを使用して、フレームの内容をテキストの説明に変換できます。これらのテキスト説明を用意することで、テキストベースのAIワークフローにデータを提供し、アナリストのレビュー用に動画を要約したり、予期しないコンテンツを特定してレビュー用に動画セグメントにフラグを立てたりすることができます。パイプラインを壊すことなくモデルを交換可能にすることで、この例はほぼすべての動画処理ユースケースに拡張できます。 サーバーレスGPUコンピュートは、一般的なNVIDIA GPUやディープラーニングフレームワークで動作するように事前設定されているため、データエンジニアリングコードを記述するだけで済みます。GPUの計算能力や、PythonパッケージのバージョンとCUDAとの互換性について心配する必要はありません。...

最新の投稿

20 の結果のうち 1 - 10 を表示しています

eBook

MLOps のビッグブック

あらゆるデータと AI 資産にガバナンスとリネージを導入する

最新の投稿を受信トレイで受け取る

ブログを購読して、最新の投稿を受信トレイにお届けします。