Databricks のデータ プラットフォーム チームとして、私たちは独自のプラットフォームを活用して、直感的で構成可能な包括的なデータおよび AI プラットフォームを社内のデータ担当者に提供し、彼らが安全に使用状況を分析し、製品とビジネス オペレーションを改善できるようにしています。 当社は成長するにつれて、安全でコンプライアンスに準拠した費用対効果の高いデータ運用を可能にするデータガバナンスを確立することに特に意欲を持っています。 何千人もの従業員と何百ものチームがデータを分析しているため、大規模なデータガバナンスと継続的なコンプライアンスを達成するには、一貫した基準を構築して実装する必要があります。 当社では、2022 年 8 月に一般公開された Unity Catalog (UC) を標準的なガバナンスプラクティスを確立するための基盤として特定し、社内レイクハウスの 100% を Unity Catalog に移行することが会社の最優先事項となりました。
データガバナンスを実現するために Unity Catalog に移行する理由は何か?
データ移行は難しく、費用もかかります。 そこで私たちは自問しました。すべてのデータを Unity Catalog に移行せずにガバナンスの目標を達成できるだろうか?
私たちはすべてのテーブルを管理するために Databricks のデフォルトの Hive Metastore (HMS) を使用していました。HMS 上に独自のデータガバナンス機能をゼロから構築するのは無駄な作業であり、数四半期の遅れにつながります。 一方、Unity Catalog は、すぐに使用できる非常に大きな価値を提供しました。
- HMS 上のすべてのデータは誰でも読み取ることができました。 UC は、きめ細かなアクセスを安全にサポートします。
- HMS はリネージや監査ログを提供しません。 リネージ サポートは、データ フローを理解し、効果的なデータ ライフサイクル管理を実現するために不可欠です。 監査ログと組み合わせることで、データの変更と伝播に関する可観測性が得られます。
- 製品内検索機能との統合が強化された UC により、ユーザーは高品質なデータに注釈を付けたり、データを発見したりするための優れたエクスペリエンスを実現できます。
- Delta Sharing、クエリ フェデレーション、カタログ バインディングは、セキュリティやコンプライアンスのリスクを生み出すことなく、リージョン間のデータ メッシュを作成するための効果的なオプションを提供します。
Unity Catalog の移行はガバナンス戦略から始まる
大まかに言うと、次の 2 つのパスのいずれかに進むことができます。
- リフトアンドシフト:すべてのスキーマとテーブルをそのままレガシー HMS から UC カタ ログにコピーし、すべてのユーザーにすべてのデータへの読み取りアクセス権を付与します。 このパスは、短期的には少ない労力で済みます。 しかし、HMS または有機的な成長を動機として、古いデータセットや一貫性のない悪いプラクティスを持ち込むリスクがあります。 クリーンアップのために、その後の複数の大規模な移行が必要になる可能性が高くなります。
- 変革:Unity Catalog でのデータ編成のコア構造を確立しながら、データセットを選択的に移行します。 この道筋は短期的にはより多くの努力を必要としますが、軌道修正の重要な機会を提供します。 その後の増分 (小規模) クリーンアップが必要になる場合があります。
私たちは後者を選びました。 これにより、将来のガバナンス ポリシーを導入するための基礎を築くと同時に、構築に必要な骨組みを提供することができました。 私たちは、デフォルトですべての従業員にアクセスを開放するのではなく、明確なデータ所有権、命名規則、意図的なアクセスを保証する舗装されたパスを可能にするインフラストラクチャを構築しました。
そのような例の 1 つは、事前に選択したカタログ整理戦略です。
| カタログ | 目的 | ガバナンス |
|---|---|---|
| ユーザー | 個々のユーザースペース(スキーマ) |
|
