メインコンテンツへジャンプ

Azure Databricksを使用したデータインテリジェンスのエンドツーエンドアーキテクチャ

データインテリジェンスのエンドツーエンドアーキテクチャは、バッチデータとストリーミングデータの両方にわたる分析、AI、リアルタイムの洞察に対するスケーラブルで安全な基盤を提供します。

Image of Azure Databricks architecture, including data ingestion, transformation, querying, and serving processes.

アーキテクチャの概要

データインテリジェンスのエンドツーエンドアーキテクチャは、Microsoft FabricのPower BIとCopilot、Microsoft Purview、Azure Data Lake Storage Gen2、Azure Event Hubsとシームレスに統合し、企業全体でのデータ駆動型の意思決定を強化します。このソリューションは、Azure DatabricksのData Intelligence PlatformとPower BIを組み合わせてデータとAIを民主化し、エンタープライズグレードのセキュリティとスケールのニーズを満たす方法を示しています。Unity Catalogによって管理されるオープンで統一されたレイクハウスアーキテクチャから始めて、データインテリジェンスは組織のユニークなデータを活用して、ETL、データウェアハウジング、AIに対するシンプルで堅牢でアクセス可能なソリューションを提供し、データ製品の提供をより迅速かつ容易にします。

 

ユースケース

このエンドツーエンドのアーキテクチャは以下の用途に使用できます:

  1. ETL、データウェアハウジング、AIを組み合わせてレガシーデータアーキテクチャを近代化し、シンプルで未来に対応したプラットフォームを作成
  2. eコマースの推奨事項、予測保守、スケールでのサプライチェーン最適化などのリアルタイム分析のユースケースを強化
  3. AI駆動のカスタマーサービスエージェント、パーソナライゼーション、ドキュメント自動化などの本番環境向けのGenAIアプリケーションを構築
  4. 組織内のビジネスリーダーが深い技術スキルセットやカスタムビルトのダッシュボードなしでデータから洞察を得ることを可能にします
  5. パートナーや顧客とデータを安全に共有または収益化する

 

データフロー

  1. データの取り込み
    • データをストリーム化 Azure Event Hubs から Lakeflow Declarative Pipelinesへ、スキーマの強制とガバナンスは Unity Catalogを通じて行います
    • 使用 オートローダー を使用して、ADLS Gen2 からデルタレイクへと構造化されていないデータや半構造化データを増分的に取り込む
    • 外部のリレーショナルシステムに Lakehouse Federationを使用してアクセスし、すべてのソースが同じガバナンスモデルに従うことを確認します
  2. Lakeflow Declarative PipelinesとPhotonエンジンを使用して、メダリオンアーキテクチャに従い、バッチデータとストリーミングデータを大規模に処理します。
    • ブロンズ: 保持と監査可能性のためにそのまま取り込まれた生のバッチデータとストリーミングデータ
    • シルバー: クレンジングと結合されたデータセット - ストリーミングとバッチのロジックは、複雑さを簡素化するために宣言的に定義されています
    • Gold: ダウンストリームの分析とAIシステムによる消費を目的とした集約されたビジネスレディなデータ
    • この統一的なアプローチにより、チームはリアルタイムと履歴データ処理を同じアーキテクチャでサポートする堅牢なパイプラインを構築できます
  3. Delta Lake on ADLS Gen2を使用して、すべてのデータをオープンで相互運用可能な形式で保存します。
    Delta、Apache Iceberg™、Hudiなどのエンジン間での互換性を有効にし、ストレージを安全でスケーラブルな環境に集約します。
  4. 共同作業のノートブックと管理されたMLツールを使用してAIモデルを探索、強化、トレーニングします。
    サーバーレスのノートブックを使用して探索とモデルトレーニングを行い、MLflow、フィーチャーストア、Unity Catalogがモデル、フィーチャー、ベクトルインデックスを管理します。
  5. Databricks SQLを使用して、データレイクから直接アドホックおよび高並行クエリを提供します。
    データを移動または複製することなく、ゴールドレベルのデータへの高速でコスト効率的なアクセスを提供します。
  6. Unity Catalogに接続されたセマンティックモデルを使用して、Power BIでビジネスレディのデータを視覚化します。
    Microsoft Fabricでレポートを作成し、Databricks SQLを介したガバナンスデータへのライブ接続。
  7. AI/BIジニーを使用してビジネスユーザーが自然言語でデータを探索できるようにします。
    SQLを書くことなく、誰でも会話的にデータをクエリすることを可能にすることで、データアクセスを民主化します。
  8. Delta Sharingを使用して、ライブで管理されたデータを外部に共有します。
    オープンスタンダードを使用して、パートナー、顧客、または他のビジネスユニットとデータを安全に配布します。
  9. Databricks Jobsを使用してプラットフォーム全体のデータとAIワークフローをオーケストレーションします。
    パイプラインとMLジョブ全体での依存関係、スケジューリング、実行を一元管理。
  10. メタデータをMicrosoft Purviewに公開して、統一されたデータの発見とガバナンスを実現。
    Unity Catalogのメタデータを同期してガバナンスの範囲を拡大し、企業全体の可視性を確保します。
  11. プラットフォームのガバナンスのために、コアなAzureサービスを活用します。

おすすめ

Databricks上のインテリジェントデータウェアハウジング

リファレンスアーキテクチャ

Databricks上のインテリジェントデータウェアハウジング
データ取り込み参照アーキテクチャ

リファレンスアーキテクチャ

データ取り込み参照アーキテクチャ
クレジットロス予測のためのリファレンスアーキテクチャ

業界アーキテクチャ

クレジットロス予測のためのリファレンスアーキテクチャ