メインコンテンツへジャンプ

データガバナンス戦略

データ要件がビジネス戦略と一致している場合、データガバナンスは、データ駆動型の意思決定を行いながら、組織全体やそれを超えてデータアクセスと分析を民主化するために必要なデータ管理、品質、可視性、セキュリティ、コンプライアンスを提供します。
 
データガバナンス戦略は、データの収集、保存、アクセス、使用方法を明確に定義するポリシーと手順を明確にします。これにより、データ保護規制の遵守が確保され、データの使用に関連するデータ侵害やその他の危険のリスクが軽減されます。
 
このガイドでは、堅牢なデータガバナンス戦略の実装におけるステップと考慮事項、そしてそれが組織内のすべての人々にデータの力を民主化する価値について詳しく説明します。

データガバナンス戦略とは何ですか?

データガバナンスは、組織のデータ資産をそのライフサイクルを通じて管理するための原則、プラクティス、ツールからなる包括的なアプローチです。この戦略は、組織がデータを使用、共有、保護できるようにするために毎日行われるタスクを定義します。
 
包括的なデータガバナンス戦略は、データの処理と共有に関するポリシーを明示し、それがどのように命名され、保存されるかのプロセスを確立します。これにより、これらのプロセスとポリシーの実施責任者、およびどのデータドメインの責任者であるかが決定されます。
 
最良のデータガバナンス戦略は、組織内の人々がそのプロセスと技術に接続されるフレームワークを構築します。組織内でデータを収集し管理するためのプロセス、基準、文書化構造を確立するべきです。

Databricks についてさらに詳しく

データレイクのデメリット

データレイクには多くのメリットがある一方で、トランザクションのサポートやデータ品質の保証がなく、ガバナンスの実施や性能が最適化されていないなど、重要な機能が欠けています。データレイクは、これらの理由から本来の目的の達成には至っておらず、データスワンプ(活用できないデータが大量に溜まっている沼のような状態)となっているのが実情です。

データガバナンス戦略の重要性は何ですか?

強固なデータガバナンス戦略は、よりクリーンで一貫性のある、そして最終的にはより使いやすいデータにつながります。これにより、組織は確かな証拠に基づいているという確信のもとに、正確な結論を引き出し、情報に基づいたビジネス決定を下すことができます。
 
この戦略は、データチームのデータ管理の実践を定義し、それがデータガバナンスの技術的な実装となります。しっかりとした戦略は部門間の壁を取り払い、データを共有言語でビジネスユニット全体でより容易に利用できるようにします。これにより、より良い協力関係が育まれ、ビジネス全体でデータからより多くの価値が引き出されるようになります。
 
堅牢なガバナンスアプローチにより、組織は自信を持ってデータ資産を活用し、競争優位を得て顧客の信頼を得ることができます。さらに、データガバナンス戦略は、以下の運用上の利点の一つ以上に焦点を当てます:
 
生産性の向上と意思決定の迅速化 
データガバナンスは、データの正確性、一貫性、信頼性を保証することでデータの民主化を促進します。データ利用者が高品質なデータを迅速に見つけ、データの意味や文脈をより深く理解することで、生産性の向上と意思決定の迅速化につながります。

運用効率の向上とコスト削減
効果的なデータガバナンスにより、組織はデータエステートの単一の真実の源を作成することができ、データの拡散とシロ化を防ぎ、重複を減らすことができます。これにより、効率性が向上してコストを削減し、データエステート全体のセキュリティとガバナンスの概念が管理しやすくなります。
 
強化されたコラボレーションと価値の実現 
強固なデータガバナンスプログラムは、チーム、ビジネスユニット、パートナー間でのデータのコラボレーションと共有の基盤を築きます。これにより、組織は知識の共有を促進し、よりよいデータ文化を構築できるようになり、イノベーションの拡大やより優れた意思決定、データの価値の最大化につながります。
 
強化されたセキュリティとプライバシー 
データガバナンスは、セキュリティとプライバシーのリスクを軽減し、機密データの不正アクセスと誤用を防ぐためのコントロールとプロセスを実装します。ステークホルダーとの信頼と透明性を重視する文化を促進します。
 
規制と基準へのより良い準拠 
効果的なデータガバナンスは、HIPAA、FedRAMP、GDPR、CCPAなどの規制要件へのより良い準拠をもたらします。これにより、組織の評判を守り、潜在的な財務的・法的影響を回避し、ステークホルダーの信頼を高めることができます。

データガバナンス戦略の作成手順

データガバナンス戦略は、組織のデータの最適な使用を、データライフサイクル全体を通じて指導します。これはビジネス目標を一連の運用上の考慮事項と比較し、次のステップ/タスクがどのように達成されるかを計画します: 
 
データガバナンスの目標を設定する  
データガバナンス戦略の目標と優先事項を明確に定義し、それが全体的なビジネス目標と一致するようにします。例えば、一つの目標は、競争市場での価値創造という組織の目標に直接結びついた、より良い意思決定のためのデータ品質を向上させることかもしれません。関連する目標としては、データをよりアクセス可能で行動可能にし、組織の持続可能性の目標を支援するための効率と生産性を向上させることが挙げられます。

上級経営陣とデータガバナンス委員会からの承認を確保する
データガバナンスプログラムが組織全体で統一されていることを確認するためには、最上位の人々が関与し、データガバナンスのイニシアチブを支持する必要があります。強固なデータガバナンス戦略の利点を強調し、情報のシロ化を作成するのではなく、一貫性を維持するためのプロセスを周囲に強調することが重要です。

データガバナンス委員会を設立し、関連するポリシーと手順を作成します。データガバナンス戦略は、組織全体がそれを採用した場合にのみ機能します。強力なコミュニケーション戦略により、全員がデータガバナンスについて同じ理解を持ち、戦略がすべての部門で維持されることを確認できます。
 
必要なスタッフを雇うか訓練する
エグゼクティブのサポートは重要ですが、それと同じくらい重要なのは、ボトムアップのサポートを得ることで、その最良の方法は、すべてのユーザーのデータリテラシーとスキルを向上させることです。データガバナンスプログラムの主要なステークホルダーと役割を特定し、その実行に関与する必要がある人々、データの所有者、管理者、データガバナンスのワークフローの日々の運営を担当するデータスチュワードを特定します。データリテラシーの向上により、ユーザーは既存のデータを見つけて再利用する知識を得ることができ、レポート、スプレッドシート、データベースの重複したインスタンスを減らすことができます。

すべてのデータソースを特定する
効果的なデータガバナンスには、組織内に存在するデータの知識が必要です。そこでデータカタログの出番です。データカタログは、組織のデータ資産のための一元的なメタデータリポジトリを提供します。フォーマット、構造、場所、使用方法に関する情報を含む、利用可能な全てのデータの検索可能なインデックスとして機能し、識別できない情報の海に意味的価値を提供します。
 
保有しているデータ資産とそれを監督する人物を確認し、この情報を使用してディレクトリデータリストの作成を開始します。あなたが終了したとき、データ資産、役割、および責任の包括的なリストを持つことになります。
 
データのメタデータを準備し、メタデータの保存オプションを整理する
強力なメタデータ管理は、情報資産のデータ定義の理解を助け、その検索性と利便性を向上させます。
 
エンタープライズデータ資産を適切に管理するためには、データの視覚化と特徴エンジニアリングのためのメタデータをクリーニングし、整理することが不可欠です。データクレンジング、データ統合、データ移行は、データが新しい戦略に準拠していることを確認するための一般的なステップであり、今後データに行われる任意の変換は新しいフレームワークに従うべきです。また、データの管理、共有、分析のために、データセットを効率的に保存し更新するためのデータアーキテクチャを設定することも必要です。データストレージには、データの保存に関わる物理的なコンポーネント、それを取り巻くデータセキュリティ機能、そしてそれと対話するために使用されるアクセス制御が含まれます。データレイクアーキテクチャは、メタデータを保存し、スケーラブルで信頼性の高いデータパイプラインを構築するためにより効果的であることが証明されています。

データ分配の手段を確立する 
堅実なデータガバナンス戦略には、組織内の全員がデータを見つけてその真の価値を引き出すための安全でコンプライアンスを満たす手段が含まれている必要があります。ダッシュボード、機械学習モデル、クエリ、ライブラリ、ノートブックなどの現代のデータ資産の出現により、データの発見が堅牢なデータガバナンス戦略の重要な柱となり、また、機密データのアクセス方法と使用方法を共有、協力、制御する能力も同様に重要です。オープンフォーマット、相互運用可能でマルチクラウドのデータ共有技術は、データセットの発見と配布を容易にするために不可欠となっています。
 
データフローと使用状況のデータ系統を追跡する 
データ系統とは、データのライフサイクルをその起源まで遡る能力のことです。すべてのワークロードのデータ系統をキャプチャする能力は、コンプライアンスのための機密データを追跡し、データ品質を確保し、データセットがどのように使用され、誰によって使用されているかの洞察を得るための基本的な能力です。
 
データエステートで機密データをスキャンする 
メタデータは、データセットの内容、構造、使用法、依存関係、許可についての詳細な情報をキャプチャするために使用できます。また、潜在的なデータ品質、コンプライアンス、セキュリティ、プライバシーの問題を特定するためにも使用できます。
 
ガバナンスフレームワークを作成する  
ガバナンスフレームワークは、ポリシー、手順、ベストプラクティス、データ品質要件、アクセス制御、コンプライアンス基準、検索と共有制御、データの系統、監視と監査要件を含むデータガバナンス戦略を実装するためのプロセスと技術を定義します。
 
関連する規制要件の遵守を確認する 
規制遵守要件を満たすことは、データガバナンスの取り組みの主要な推進力の一つかもしれません。ビジネスや政府の領域によっては、規制された業界のユニークなデータ要件を満たすためのコントロールがない断片化したデータエステートを持つ複雑な事業となる可能性があります。これには、データの保存、監視、ログ記録、共有の方法が含まれることがあります。アメリカでは、金融サービス業界と教育業界は、AI/MLモデルの開発とトレーニングに含めることができる入力の種類を規定する法律の対象となっています。
 
データ品質チェックを行う  
データ品質はデータ駆動型の意思決定の信頼性に直接影響を与え、データガバナンスの重要な側面です。データ品質ルールの適用は、データの系統を追跡し、変更を追跡するのに役立ちます。効果的なデータガバナンスを維持するために、組織は正確性、完全性、鮮度、データ品質ルールへの準拠など、主要なデータ品質属性の評価を優先する必要があります。中央で管理され、バージョン管理されているルールライブラリを持つことが重要です。新しいルールを定期的にルールライブラリに更新します。
 
データの権限とアクセスを定期的に監査して遵守を確認する 
誰がどのデータにアクセスでき、最近のアクセスを追跡することで、組織は過剰に権限を持つユーザーやグループを積極的に特定し、そのアクセスを適切に調整することができ、データの誤用のリスクを最小限に抑えることができます。誰がどのデータにアクセスでき、最近のアクセスを追跡することを理解することで、組織は積極的に権限を持つユーザーやグループを特定し、そのアクセスを適切に調整することができます。これにより、データの誤用のリスクを最小限に抑え、顧客の信頼を維持します。
 
定期的なレビューを設定する 
上級経営陣、データガバナンス委員会、データ所有者、データスチュワード、関連するステークホルダーからの定期的なフィードバックのプロセスを設定します。データガバナンスの努力とポリシーの成功をどのように測定するかを決定し、データガバナンス戦略の成功を測定する責任者を考慮してください。
 
まず、会社のデータの正確性、一貫性、完全性、および重複のインスタンスを追跡することから始めてください。また、システムへのアクセスを持つ人々の数、その権限、そしてそれらがどれほど頻繁に使用されているかを追跡し、特に分析ユーザーの数に注意を払ってください。これはデータリテラシーの向上を示すかもしれません。
 
データガバナンス戦略の成功を評価するために使用する指標を決定し、ビジネスのニーズが変わるにつれて必要に応じてこれらを一貫して監視し、変更します。
 
ガバナンスモデルを常に適応させるプロセスを確立する
データガバナンス戦略は常に進化しています。新しいビジネス要求には、異なるレベルのコントロールとセキュリティが必要な新しいデータセットが伴うことがあります。新しい技術と進化する技術的役割は、新しいポリシーを実装し、新しいデータアプリケーションを立ち上げる際に機動性を必要とします。自動化と機械学習の機能は、データライフサイクルの各段階でプロセスを効率化することで、データオーナーがエンタープライズデータから価値を抽出する方法を最適化するのに役立ちます。
 
最良のデータガバナンスフレームワークは、ビジネスのニーズと一致します。ビジネスのニーズが変わると、新しい目標を反映するようにデータガバナンス戦略を更新します。

統一された、オープンなアプローチ

データガバナンス戦略を作成する際に考慮すべき多くの事項があるため、企業はデータエステートの統一されたビューと、チーム間の管理と協力を簡素化するツール、例えばDatabricks Unity Catalog(Databricks Data Intelligence Platformに組み込まれたオープンなガバナンスソリューション)が必要です。  
 
Unity Catalogは、データとAIの資産に対するアクセスポリシーを定義し、これらのポリシーを任意のクラウドやデータプラットフォームに一貫して適用し、監査する統一インターフェースを提供することで、相互運用性を促進し、アクセス管理を簡素化し、オンボーディングプロセスを効率化します。 AI のパワーを活用し、モニタリングの自動化、エラーの診断、データと ML モデルの品質維持を実現します。
 
データ、分析、AIの民主化は、データガバナンスの中心にあります。これは、品質やセキュリティを妥協することなく、データを誰でもアクセス可能で使える状態にすることについてです。従業員、クライアント、顧客は、自分の情報が規制に従って保管されていることに完全な信頼を持つべきです。このアクセシビリティとセキュリティの融合が、データガバナンスの核心です。