データマート

用語集のトップページへ

データマートとは

データマートは、テーブルのセットを含むキュレートされたデータベースです。単一のデータチームやコミュニティ、マーケティングやエンジニアリング部門といった基幹業務の特定のニーズに対応できるよう設計されています。データマートは通常、データウェアハウスよりも小規模で、特定の目的に特化しています。一般的には、大規模なエンタープライズのデータウェアハウスのサブセットとして扱われ、分析や BI(ビジネスインテリジェンス)、レポーティングに使用されます。データマートは、中央データウェアハウスとデータレイクの物理的現実における最初の進化的ステップでした。エーシーニールセンは、1970 年代初頭に、情報をデジタル保存し販促活動を促進するための最初のデータマートを顧客に提供しました。

データマートの特徴

  • 通常、データマートの構築や管理は企業のデータチームが行いますが、各事業部署の専門家が組織的に行うことも可能です。
  • 企業のデータスチュワードがデータマートを管理し、エンドユーザーは読み取り専用の権限が設定されます。これは、技術に精通していないユーザーによる重要なビジネスデータの誤った削除、変更を防ぐためです。
  • 一般的には、ディメンションモデルとスタースキーマが使用されます。
  • データマートは、大規模なデータウェアハウスからキュレートされたデータのサブセットを含んでいます。データは高度に構造化され、データチームによってデータクレンジングと適合化が施されて容易に理解、参照できるようになっています。
  • データマートは、特定の基幹業務やユースケースに特有のニーズにあわせて設計されています。
  • 基本的に、ユーザーは、SQL コマンドを使用してデータを参照します。

データマートの種類 - 独立型データマート、従属型データマート、ハイブリッド型データマート

データマートには、基本的に 3 つの種類があります。
  • 独立型データマート:データウェアハウスの一部ではなく、エーシーニールセンが提供した最初のデータマートと非常によく似ています。通常、1 つの領域または対象領域に特化しています。データソースには、外部ソースと内部ソースの両方を含めることができます。データは変換、処理、データマートにロードされ、必要になるまで保存されます。
  • 従属型データマート:既存のデータウェアハウスに従属する形で存在するデータマートです。トップダウンのアプローチを採用し、あらゆるデータを一元的に保存できます。何かしらの目的でデータを使用する際は、明確に定義されたデータのセクションを選択できます。
  • ハイブリッド型データマート:データウェアハウスだけではなく、それ以外の独自のデータソースから取得したデータを組み合わせて使用します。これは、組織に追加された新たなグループや製品をアドホックに統合する場合など、さまざまな状況で役立ちます。ハイブリッド型データマートは、複数のデータベースが存在する環境に適しており、短期間で導入できます。このようなシステムはデータクレンジングを容易にし、小規模なデータセントリックのアプリケーションと相性が良いとされています。

データマートのメリット

  • 信頼できる唯一の情報源(SSOT):データマートは、特定の基幹業務の単一のデータソースとして機能します。業務に関わる全ての人が同一の事実とデータに基づいて作業することを可能にします。
  • 業務効率化をサポートするシンプルさ:ユーザーは、必要なデータを見つけるためにデータウェアハウス全体を調べたりテーブルを結合したりする必要はなく、あらかじめ精選されたデータマートで、必要なデータに容易にアクセスできます。

データマートにおける課題

エンタープライズデータウェアハウスは、その企業における全てのデータ管理ニーズに対応するために善意で作成されています。しかし、各事業部署によってデータのニーズや目的が異なるため、あらゆるユーザーのニーズを満たすことはできません。そのため、各部門ではセルフサービスでの分析や、部門のレポーティングのニーズを満たすべく、時には IT 部門のサポートを受けながら、特定のデータウェアハウスの対象領域を拡張し、データをコピーして、独自のデータマートを作成しています。その結果、各部門のニーズを満たしたとしても、時間が経つにつれて、データのサイロ化やシャドーコピーの原因になります。また、多くの部署でこのようなことが行われている場合、組織内で信頼できる単一のデータソースが存在しなくなってしまいます。

レイクハウスはデータマートの課題をどのように解決するか

レイクハウスは、企業内に存在するデータウェアハウスとデータマートを単一のプラットフォーム上に設置し、セキュリティとガバナンスを統一することで、データマートの課題を解決しています。同時に、各チームが独自システムを持つことができる柔軟な環境を提供します。また、データマートや「拡張コピー」は、他の全てのデータと同じレイクハウスプラットフォーム上で作成されるため、類似したコピーの複製を防止できます。レイクハウスのデータカタログにより、重複コピーを発見し、タグ付けやデータ辞書の使用などのデータガバナンスルールを使用して、誰もが拡張コピーを発見できるようになります。

Databricks SQL でデータマートを構築する

Databricks SQL の無料トライアル

関連リソース


用語集のトップページへ