メインコンテンツへジャンプ

データガバナンス

データを効率的に管理し、データの価値を最大限に活用するためのプロセス、ポリシー、技術を包括的なガイドで説明します。

Data Governance

データガバナンスとは

データガバナンスは、組織のデータ資産をそのライフサイクルを通じて管理するための原則、プラクティス、ツールからなる包括的なアプローチです。データ関連の要件をビジネス戦略と整合させることで、データガバナンスは組織全体にわたって優れたデータ管理、品質、可視性、セキュリティ、コンプライアンス機能を提供します。効果的なデータガバナンス戦略を導入することで、企業は不正アクセスからデータを保護し、規制要件へのコンプライアンスを確保しながら、データ主導の意思決定のためにデータを容易に利用できるようになります。

Databricks についてさらに詳しく

ビジネスにおけるデータガバナンスのメリット

データガバナンスは、組織にとって重要な資産であるデータの価値を引き出すために不可欠です。堅牢なデータガバナンスアプローチを導入することで、企業はデータ資産を活用し、競争力を高め、健全なデータとプライバシーの実践を保証することで顧客の信頼を築き、維持できます。

運用効率の向上とコスト削減

効果的なデータガバナンスにより、組織はデータエステートの信頼できる唯一の情報源を作成し、データの無秩序な拡散やサイロ化を防ぎ、重複を削減できます。これにより、効率性が向上してコストを削減し、データエステート全体のセキュリティとガバナンスの概念が管理しやすくなります。

生産性の向上と迅速な意思決定

データガバナンスは、データの正確性、一貫性、信頼性を確保することで、データの民主化を促進します。データ利用者が高品質なデータを迅速に見つけ、データの意味や文脈をより深く理解することで、生産性の向上と意思決定の迅速化につながります。

コラボレーションと価値実現の強化

強力なデータガバナンスプログラムは、チーム、事業部門、パートナーを横断してデータのコラボレーションと共有を強化するための基盤を築きます。これにより、組織は知識の共有を促進し、よりよいデータ文化を構築できるようになり、イノベーションの拡大やより優れた意思決定、データの価値の最大化につながります。

セキュリティとプライバシーの強化

データガバナンスは、機密データへの不正アクセスや悪用を防止するためのコントロールとプロセスを導入することで、セキュリティとプライバシーのリスクを軽減します。ステークホルダーとの信頼と透明性を重視する文化を促進します。

規制や基準へのコンプライアンスの向上

効果的なデータガバナンスは、HIPAA、FedRAMP、GDPR、CCPA などの規制要件へのコンプライアンスの向上につながります。これにより、組織の評判を守り、潜在的な財務的・法的影響を回避し、ステークホルダーの信頼を高めることができます。

データガバナンスの主要な要素

データガバナンス(Data Governance)の概念図。中央にData Governanceを配置し、その周囲にデータカタログ(Data Catalog)、データ分類(Data Classification)、アクセス権限管理および監査(Access Control and Auditing)、データディスカバリー(Data Discovery)、データ共有とコラボレーション(Data Sharing and Collaboration)、データリネージ(Data Lineage)、データセキュリティ(Data Security)、データ品質(Data Quality)の各要素を循環構造で配置。

データのカタログ化

効果的なデータガバナンスには、組織内に存在するデータに関する知識が必要です。そこでデータカタログの出番です。データカタログは、組織のデータ資産のための一元的なメタデータリポジトリを提供します。データカタログにより、ステークホルダーは必要なデータを迅速に発見、理解し、アクセスできるようになり、データディスカバリー、ガバナンス、分析などのデータ関連活動が向上します。フォーマット、構造、場所、使用方法に関する情報を含む、利用可能な全てのデータの検索可能なインデックスとして機能し、識別できない情報の海に意味的価値を提供します。データカタログをガバナンスプログラムに組み込むことで、組織はデータ管理を改善し、コラボレーションを強化し、冗長性を削減し、適切なアクセス制御と監査による情報検索を確保できます。

 

データ品質

今日のデータ主導の世界では、正確な分析、情報に基づく意思決定、費用対効果を高めるために、高いデータ品質を確保することが極めて重要です。データ品質は、データ主導の意思決定の信頼性に直接影響し、データガバナンスの重要な側面となります。効果的なデータガバナンスを維持するために、組織は正確性、完全性、鮮度、データ品質ルールへの準拠など、主要なデータ品質属性の評価を優先する必要があります。そのため、データガバナンス戦略では、データ品質に強くフォーカスすることが不可欠です。データ品質を高めることは、データリネージを追跡し、データ品質ルールを実施し、変更を追跡するのに役立ちます。データ品質が低いために、ビジネス上の意思決定やリソースの割り当てに支障をきたすことがないように、データガバナンスの重要な一部としてデータ品質を優先させ、より優れた成果を得られるようにしましょう。

 

データの分類

データの分類は、データの機密性、価値、重要性に基づいてデータを整理、分類するデータガバナンスの重要な部分です。データの急激な増加に伴い、企業は機密データの保護、リスクの軽減、データ品質の確保に対する懸念を高めています。分類により、組織はリスクレベルと重要性に基づいてデータを識別・分類し、適切なセキュリティ対策とポリシーを適用できます。堅牢なデータ分類システムは、データガバナンスを強化し、リスクを低減し、規模に応じたデータ品質と保護を保証します。

 

データセキュリティ

組織は、機密データを不正アクセスから保護することを優先しつつ、知見やビジネス価値を高めるために、チームに高品質なデータアクセスを付与することの重要性を理解しています。効果的なデータアクセス管理は、データセキュリティとガバナンスにとって極めて重要であり、優れたデータセキュリティガバナンスプログラムには、どのグループまたは個人がどのデータにアクセスできるかを定義するアクセス制御が含まれている必要があります。これらのコントロールは、個々のレコードやファイルに至るまで、非常に具体的に行うことができます。GDPR や CCPA のようなデータ侵害や規制がリスクを増大させる中、企業は、誰が機密データセットにアクセスできるのか、不正使用をどのように追跡するのかを定義する明確なガバナンスポリシーを確立する必要があります。個人情報や機密情報への不正アクセスは発生させず、データを保護し、顧客の信頼を維持するためには、効果的なアクセス管理戦略の導入が不可欠です。

 

データ権限とアクセスの監査

効果的なデータアクセスの監査は、データガバナンスとセキュリティガバナンスプログラムの重要な側面であり、特に規制が厳しい業界では不可欠です。誰がどのデータにアクセスできるかを把握し、最近のアクセス状況を追跡することで、組織は権限のないユーザーやグループを積極的に特定し、それに応じてアクセスを調整でき、データの悪用リスクを最小限に抑えられます。適切な監査の仕組みがなければ、組織はリスク範囲を十分に把握できず、データ漏洩や規制の不遵守に対して脆弱なままになってしまう可能性があります。そのため、データガバナンスやセキュリティガバナンスの組織内で適切に構築された監査チームは、データセキュリティを確保し、GDPR や CCPA などの規制に準拠する上で重要な役割を果たします。効果的なデータアクセスの監査戦略を導入することで、組織は顧客の信頼を維持し、不正アクセスや悪用からデータを保護できます。

 

データリネージ

データリネージは、データソースとデータ使用に関する理解を深めることで、組織がデータ品質と信頼性を確保するのに役立つ強力なツールです。データのライフサイクル全体を通じて関連するメタデータとイベントをキャプチャし、組織のデータエステート全体におけるデータの流れをエンドツーエンドで把握できます。実用的なデータガバナンス戦略の重要な柱として、データリネージは、組織がコンプライアンスと監査に対応できるようにし、手動で監査証跡を作成する運用上のオーバーヘッドを削減し、監査レポートのための信頼できるソースを提供します。さらに、データリネージは、データ利用者がより適切な分析を実行できるようにし、データチームがあらゆるエラーの根本原因分析を実行できるようにすることで、デバッグ時間を大幅に短縮します。

 

データディスカバリー

組織がさまざまなソースから大量のデータを収集し続ける中で、分析、AI、ML のユースケースのためにデータを容易に発見できるようにすることがますます重要になっています。これは、データの民主化を加速させ、データの真の価値を引き出すために非常に重要です。さらに、ダッシュボード、機械学習モデル、クエリ、ライブラリ、ノートブックなどの最新のデータ資産の出現により、データディスカバリーは、堅牢なデータガバナンス戦略の重要な柱となっています。組織は、データディスカバリーをデータガバナンス戦略の基本的な側面として捉える必要があります。データチームは組織全体のデータ資産を容易に検索し、さまざまなプロジェクトでコラボレーションを行い、迅速かつ効率的にイノベーションを促進できます。これにより、データの重複を防ぐことができます。重複したデータを維持するにはコストがかかり、異なるセキュリティレベルでのガバナンスの課題を引き起こす可能性があります。

 

データの共有とコラボレーション

今日のビジネス環境において、データの共有とコラボレーションは不可欠な要素であり、組織は複数のクラウド、データプラットフォーム、リージョンにわたって、社内チーム、社外パートナー、顧客とデータを交換しています。外部データへの需要が増大し続ける中で、組織にとって機密情報がどのように使用されているかを管理・可視化しながら、データを安全に交換することは非常に重要です。データクリーンルームは、安全かつ管理されたデータコラボレーションにおいて重要な役割を果たし、データプライバシー規制を確実に守ります。データ主導型のイノベーションのニーズを満たすためには、オープンフォーマット、相互運用性、マルチクラウドのデータ共有技術への投資が不可欠です。さらに、データマーケットプレイスはデータプロバイダーと消費者の橋渡し役となり、データセットの発見と流通を促進します。そのため、データ共有はビジネスにおいて必要なものであり、堅牢なデータガバナンス戦略の重要な柱であることを再認識することが重要です。

データガバナンス フレームワークとは何ですか?

データガバナンス フレームワークは、ガバナンスの原則を実践に移すための構造化された設計図です。「データ ガバナンス」が、データを戦略的資産として管理するためのより広範な規律を指すのに対し、「データ ガバナンス フレームワーク」は、その規律を組織全体で実践するための具体的なポリシー、役割、標準、プロセスを定義するものです。

フレームワークがなければ、善意のデータガバナンスの取り組みでさえ停滞しがちです。所有権が不明確で、データガバナンス ポリシーが徹底されず、データ品質の維持が体系的ではなく事後対応的になってしまうからです。

強力なデータガバナンス フレームワークは、組織がデータを重要な資産として扱うための運用基盤を提供し、そのデータが正確で信頼性が高く、適切な担当者が適切なタイミングでアクセスできることを保証します。

データガバナンスフレームワークの4つの柱

効果的なデータガバナンスフレームワークは、相互に依存する4つの柱で構成されています。これらは共に、健全なデータ管理プラクティスにおける人的側面と技術的側面の両方に対応します:

人: ガバナンス プログラムの強さは、それを実行する人によって決まります。これには、特定のデータドメインに責任を負うデータオーナー、日々のデータスチュワードシップの責任を担うデータスチュワード、一貫したデータ定義とデータ統合をサポートする構造を設計するデータアーキテクト、ポリシーを設定して紛争を解決するデータガバナンス委員会またはデータガバナンス評議会が含まれます。

役割を明確にすることで、曖昧さがなくなり、データサイロの形成を防ぎ、組織全体に説明責任が適切に分散されるようになります。

ポリシー: データ ガバナンス ポリシーとは、データ ライフサイクル全体にわたって、データの作成、保存、使用、保護の方法を規定するルールです。

これには、センシティブデータを識別するためのデータ分類体系、特定のデータアセットを誰が閲覧または変更できるかを決定するアクセス制御、GDPR、CCPA、HIPAA などの規制に関連するコンプライアンス要件などが含まれます。

整備されたポリシーは、データの取り扱い方について単一の信頼できるソースとなり、リスクを減らし、関係者の信頼を築きます。

プロセス: ポリシーを効果的にするには、再現可能なプロセスが必要です。中核となるデータガバナンス プロセスには、メタデータ管理やデータ品質の向上、データアクセスとエンタイトルメントの監査、ソースから消費までのデータリネージの追跡などが含まれます。

これらのプロセスは、データガバナンスが一度きりの取り組みではなく、日々のデータ管理プラクティスに組み込まれた継続的な機能であり、データ量、データソース、ビジネスの複雑さが増大するにつれて拡張するものであることを保証します。

テクノロジー: 適切なテクノロジーは、フレームワークを大規模に強化します。これには、検出とメタデータデータマネジメントのためのデータカタログ、データフローのエンドツーエンドの可視性を提供するデータリネージツール、事業部門間で一貫したデータ定義を維持するマスターデータマネジメントシステム、およびすべてのデータ資産とクラウドにわたってアクセス制御を一貫して適用する統合ガバナンスプラットフォームなどが含まれます。

テクノロジーによって、ガバナンスは手作業でドキュメント主導の業務から、自動化され監査可能な機能へと変革されます。

データ ガバナンス フレームワーク モデル

組織は、その規模、業界、既存のデータ管理プラクティスの成熟度に応じて、さまざまな構造構成でデータガバナンス フレームワークを導入します。最も一般的な 3 つのデータ ガバナンス フレームワーク モデルは次のとおりです。

中央集権型: 単一のデータガバナンス協議会またはガバナンス機能が、企業全体のすべての意思決定を担います。このモデルは、小規模な組織や、一貫したデータガバナンス ポリシーが必須である規制の厳しい業界には適していますが、データチームが成長するにつれてボトルネックを生じさせる可能性があります。

フェデレーション型: 個々の事業部門が、共通の一連の基準に基づいて独自のデータドメインを管理します。このモデルは、俊敏性とドメイン専門知識の向上を促進しますが、データのサイロ化を防ぎ、組織全体でデータ完全性を維持するためには、強力な連携が求められます。

ハイブリッド: 大企業で最も一般的なアプローチであるハイブリッド ガバナンスは、一元的な監視(共有データ ガバナンス ポリシー、一元化されたデータ カタログ、統一されたアクセス制御)と、ドメインレベルでのフェデレーション データスチュワードシップを組み合わせたものです。事業部門は柔軟性を維持しつつ、組織は規制コンプライアンスに必要な一貫した標準と高品質なデータを維持します。

適切なモデルを選択することは、理論的に理想的な構造を選ぶことよりも、むしろ現状を率直に評価することです。つまり、どのようなデータガバナンス プロセスがすでに導入されているか、チーム間のデータリテラシーはどの程度成熟しているか、顧客データやその他の重要なデータドメインにどのようなコンプライアンス要件が適用されるか、といったことを評価します。

ガバナンスの原則と一般的な課題

データ ガバナンス インスティテュートなどの標準化団体によるガイダンスや、ISO のデータ品質基準に準拠したフレームワークをはじめとする効果的なデータ ガバナンス フレームワークは、説明責任、透明性、データ完全性、データの正確性、スチュワードシップという共通の原則を共有しています。これらの原則により、データ利用者はアナリティクスや意思決定に利用するデータを信頼でき、一方でデータ所有者は、自身のドメイン内のデータ資産の品質とセキュリティに対して明確な責任を負い続けることが保証されます。

これらの原則を理解することで、ガバナンス プログラムが失敗しがちな箇所も明らかになります。一般的なデータガバナンスの課題には、断片化された所有権、事業部門間で一貫性のないデータ定義、エンドユーザーのデータリテラシーの不足、大規模なガバナンス ポリシーを適用できるテクノロジーの欠如などがあります。堅牢なデータガバナンス フレームワークは、官僚的なオーバーヘッドを追加することによってではなく、データ プロセスとツールにガバナンスを組み込むことによってこれらの課題に対処します。これにより、間違ったことよりも正しいことの方が実行しやすくなります。

データガバナンスのベストプラクティスを遵守するとは、フレームワークを固定されたポリシー ドキュメントとしてではなく、生きたプログラムとして扱うことを意味します。

堅牢なデータ ガバナンス フレームワークを維持している組織は、定期的にポリシーを見直し、新しいデータソースの導入に合わせてプロセスを調整し、データレイクの生データからアナリストやビジネス関係者が利用するキュレートされたデータ プロダクトまで、データ資産全体でガバナンスを適用するために必要なテクノロジーに投資します。

優れたデータガバナンスソリューション

データ重視の組織は、データ、分析、AI を優先してビジネス成果を推進し、データ、分析、AI を単一のプラットフォーム上で統合するデータレイクハウスアーキテクチャを中心にデータ戦略を構築します。このアーキテクチャは、データウェアハウスとデータレイクの長所を組み合わせ、データ、分析、AI のあらゆるユースケースをサポートします。全てのデータはクラウドデータレイクに保存され、統合レイヤーで管理されるため、データの単一コピーに対して直接分析を実行できます。このアプローチにより、データガバナンスとセキュリティが簡素化され、機能のサイロが減り、コラボレーションが容易になります。データに対する高い信頼性を確立することで、組織は自信を持って運営でき、あらゆる分析ワークロードでデータがどのように取得、変更、使用され、影響を受けるかをよりよく理解できます。

データレイクハウスのデータガバナンスソリューションには、次のような多くの重要な機能が含まれています。

  • 一元化されたデータカタログ:一元化されたデータカタログは、全てのデータ、ML モデル、分析アーティファクト、各オブジェクトのメタデータが格納されます。また、既存の Hive メタストアなど、他のカタログからのデータも統合されます。
  • 統合データアクセス制御:あらゆるデータ資産やクラウドにわたる単一の統合型権限モデルです。個人を特定できる情報(PII)に対する属性ベースアクセス制御(ABAC)が含まれます。
  • データの監査:データアクセスは、アラートと監視機能によって一元的に監査され、アカウンタビリティとセキュリティが促進されます。
  • データの品質管理:品質管理、テスト、監視、実施を組み込んだ堅牢なデータ品質管理により、正確で有用なデータの利用が可能になります。
  • データリネージ:データリネージにより、レイクハウスのデータの流れをソースから消費、さらにはカラムレベルに至るまでエンドツーエンドで可視化します。
  • データディスカバリー:容易なデータディスカバリーにより、データサイエンティスト、アナリスト、エンジニア、ステークホルダーが関連データを迅速に発見、参照し、価値創出までの時間を短縮します。
  • データの共有とコラボレーション:クラウド、リージョン、プラットフォーム間で、きめ細かなアクセス制御を行いながらデータを共有し、サイロ化を防ぎます。
  • プライバシーに配慮したコラボレーションのためのデータクリーンルーム:プライバシーを保護する環境で、社内外のステークホルダーと機密データに関するコラボレーションを実現します。
  • データ、分析、AI のためのオープンマーケットプレイス:データセットや、ML モデル、ノートブック、アプリケーション、ダッシュボードなどの AI や分析資産を、独自のプラットフォームへの依存や複雑な ETL、高価なレプリケーションなしに発見、アクセス、展開できます。

データガバナンスの監督者

最高データ責任者(CDO)

最高データ責任者(CDO)は、ガバナンスチームで最も上級の幹部です。最終的には、データのセキュリティ、アクセシビリティ、ユーザビリティに責任を持つことになります。

CDO の役割には、システムのセットアップ、運用のための資金とスタッフの確保(および一部のプロセスを自動化するツールなどの関連事項)、全体的な状況の定期的なチェックが含まれます。

データの所有者

データの所有者は、データセットの技術的管理に責任を持つ個人またはチームです。どのチームメンバーがどのような情報にアクセスするべきかを決定することがあります。そのポリシー(またはその欠如)がデータ漏洩につながった場合、責任を問われる可能性があります。

この役割と多くの責任を果たすため、データの所有者は通常、組織の上級メンバーであることが多いです。

データスチュワード

データガバナンスワークフローの日々の運用を支援するために、データの所有者と CDO はデータスチュワードを任命します。データスチュワードシップは、基本的には定められたプログラムを実施し、新旧両方のデータが適切に管理されるようにすることです。従業員と顧客のコンプライアンスを監視し、問題が発生した場合はエスカレーションを行います。

データガバナンス委員会

この委員会は、組織内の関連方針を作成する主要機関となります。

多くの場合、データのセキュリティとユーザビリティに強い関心を持つ上級幹部やデータの所有者で構成されます。方針が承認されれば、スチュワードが従うべき手順を策定し、関係者間の紛争を解決することもあります。

Databricks が提供するデータガバナンスとデータ共有の詳細

Unity Catalog
Unity Catalog
データ共有
データ共有
Databricks Marketplace
ク�リーンルーム
クリーンルーム

よくある質問

関連リソース