メインコンテンツへジャンプ

データリネージ

データリネージとは何ですか?

データリネージとは、起点から利用先まで、時間の経過に沿ってデータとAIの来歴を記録・追跡・可視化するプロセスです。効果的な データリネージ により、データチームは、データがどのように変換され、自社のデータ資産全体をどのように流れていくかを、最初から最後まで把握できます。

データリネージは、データのライフサイクル全体で、データに関連する重要な情報やイベントを記録します。たとえば次の内容が含まれます:

  • データの提供元
  • それを作成するために、ほかにどのようなデータセットが使われましたか?
  • 誰がいつ作成したか
  • どのように変換されたか
  • 他にどのデータセットがこれを活用しているか
  • データの活用方法
  • データの利用・変更の責任者は誰ですか

組織がデータドリブン文化を受け入れ、データとAIの民主化とスケールを進める中で、データリネージュはデータ管理とガバナンス戦略の不可欠な柱です。

Databricks についてさらに詳しく

データの来歴はなぜ重要ですか?

データの来歴(データリネージ)を把握すると、データがどこから来たのか、時間とともにどう変わったのか、どこに保存され、どう使われているのかが分かり、透明性と信頼が高まります。これは、データの理解と完全性を支える重要な基盤であり、組織が十分な情報に基づいて意思決定し、コンプライアンスを確保し、リスク管理を改善できるようにします。

データリネージは、組織がデータ資産を管理するための原則・運用・ツールである データガバナンス の要です。データリネージ(データの来歴)は、組織のデータガバナンスの枠組みに沿ってデータが管理されていることを確認するために必要な可視性を提供し、データ品質を確保し、価値あるインサイトの土台を築きます。

データリネージにより、組織はデータの正確性と一貫性を検証してデータ品質を確保できます。さらに、データリネージが提供する詳細な監査証跡は、パイプライン内のデータエラーを迅速に特定してデバッグするうえで不可欠です。

適切なデータの来歴管理は法令順守に不可欠で、データがどこから来て、どのように扱われたかをたどれる監査証跡の提供を可能にします。データリネージは、機密データの流れを追跡し、ポリシーや管理策に沿っているかを確認し、潜在的なリスクの特定にも役立ちます。

データリネージにはどんな活用例がありますか?

組織がデータとAIを民主化し拡大していくうえで、効果的なデータ管理とガバナンス戦略にはデータリネージが不可欠です。
ユースケースの例:

影響分析とリスク管理: データはライフサイクルの中で変換を繰り返すため、これらの変更が下流の利用者に与える影響を分析し、潜在的なリスクを評価することが大切です。データリネージは、アプリケーション、ダッシュボード、機械学習モデルなどのすべての下流の利用者を確認でき、変更の影響を理解して関係者に通知できます。

データの理解と透明性: データを取り巻く文脈をよりよく理解することは、データの信頼性を確保するうえで不可欠です。とくに、組織が複数のデータソースから増え続けるデータ量に対応するなかで、その重要性は一層高まります。データリネージは、データ利用者がデータを分析するときの文脈を把握できるようにし、より高品質な成果につながります。

デバッグと診断: データリネージは、チームがエラーの発生源までたどることで、データパイプラインのエラーの根本原因を突き止めるのに役立ちます。これによりデバッグにかかる時間を大幅に削減し、効率が向上します。

コンプライアンスと監査への備え: コンプライアンスには、データをたどれることが重要です。一般データ保護規則(GDPR)、カリフォルニア州消費者プライバシー法(CCPA)、医療保険の相互運用性と説明責任に関する法律(HIPAA)、バーゼル銀行監督委員会(BCBS)239、サーベンス・オクスリー法(SOX)などの多くのコンプライアンス規制は、組織に対し、データの流れを明確に理解し、可視化することを求めています。効果的なデータリネージの取り組みがあれば、こうした情報を手元ですぐ確認でき、監査対応の準備も整います。

データモデリング: データリネージは、データがどのように整理され、アクセスされるかを可視化するデータモデリングに役立ちます。データリネージは、データ資産間の関係を明らかにし、現在のデータフローの背景情報を提供することで、データモデルの更新と改善に役立ちます。

データ移行: データリネージは、データの所在とライフサイクルに関する情報を提供します。これは、データを新しいソフトウェアシステムやストレージに移すデータ移行に重要です。組織は、移行を計画しリスクを減らすために、データリネージの情報を活用します。また、データの来歴は、移行が必要なデータ量を整理・削減するのにも役立ちます。

データリネージュ導入のベストプラクティス

効果的なデータリネージを導入するには、明確に定義されたプロセスを備えた戦略的なアプローチが必要です。組織が従うべき主なベストプラクティスは次のとおりです:

  • 統合されたデータとAIのカタログ – データとAIの資産を統合した集中管理型のカタログを整備し、シームレスな可視化とガバナンスを可能にする
  • 強固なデータガバナンス – データを効果的に管理し、品質・セキュリティ・コンプライアンスを確保するための明確な戦略、プロセス、ツールを定義します
  • 包括的なドキュメント – 完全で正確な履歴を提供できるよう、データソース、変換、変更の詳細な記録を維持する
  • 自動化 – 列レベルまでのデータの流れを監視できる自動の来歴追跡ツールを活用し、正確性と効率を高め、手作業を減らしましょう
  • 明確なデータ所有権 – データ資産に所有者を割り当てて責任を明確にし、課題解決を効率化し、コラボレーションを促進します
  • 継続的な監査 – 正確性と完全性、ガバナンス方針への準拠を保つため、リネージュの記録を定期的に見直し、更新する

Databricks Unity Catalog で、データと AI の来歴を自動化しましょう

Unity Catalog はデータ、アナリティクス、AI のための統合ガバナンスソリューションを提供し、データチームがすべてのデータと AI 資産をカタログ化し、きめ細かなアクセス権限を定義し、データアクセスを監査し、クラウド、リージョン、データプラットフォーム間でデータを共有できるようにします。自動化された Unity Catalog のデータリネージ により、データチームはコンプライアンス要件や監査報告のために機密データを列レベルまで自動で追跡し、すべてのワークロードでデータ品質を確保し、レイクハウス全体にわたるあらゆるデータ変更の影響分析や変更管理を行い、データパイプラインのエラーの根本原因を分析できます。

Unity カタログによるデータリネージ
Automated column-level lineage with Databricks Unity Catalog
用語集に戻る