データアーキテクチャは、組織内でデータを管理するために使用される、概念、標準、ポリシー、モデル、ルールのフレームワークとして定義されます。データアーキテクチャは、データマネジメントが組織のビジネス目標に沿うように、企業データのプロセスとフローを整理するための設計図です。
データアーキテクチャには、以下のようなデータマネジメントのあらゆる側面が含まれます。
- コレクション
- ストレージ
- 変換
- ディストリビューション
- 使用
データ アーキテクチャ: データ管理の未来
ビジネス環境は進化し、データとAIは競争上の優位性のために不可欠なものとなっています。データはあらゆる企業にとって重要な資産となっており、データマネジメントは組織の全体戦略をサポートするように慎重に設計する必要があります。データアーキテクチャは、データマネジメントの日常的な実態を決定するフレームワークであり、データとAIの時代において企業が成功できるかどうかに大きな影響を与えます。
データ アーキテクチャ フレームワーク
データアーキテクチャフレームワークは、アーキテクチャを計画、開発、実装、統制、維持するために使用される概念的な構造です。主なフレームワークは次の 3 つです。
- TOGAF: 最も一般的に使用されるデータアーキテクチャは、1995年にThe Open グループによって開発されたTOGAFです。このフレームワークは、データアーキテクチャの戦略と目的をビジネス目標と一致させることに重点を置いています。
- DAMA-DMBoK2: DAMA Internationalは、2018年にデータマネジメント知識体系(Data Management Body of Knowledge)を初版として発行しました。このフレームワークはデータマネジメントに焦点を当てており、データマネジメントの原則に関する定義とガイドラインが含まれています。
- ザックマン フレームワーク: 1987年に John Zachman によって開発されたこのフレームワークは、エンタープライズ アーキテクチャを管理するためのマトリックスです。モデル、仕様、ドキュメントなどの要素の整理に役立つよう設計されています。このフレームワークの中心と なるのは、誰が、何を、いつ、どこで、なぜ、どのように、という6つの質問です。
データ アーキテクチャの構成要素
データアーキテクチャは、組織がデータを効果的に活用するためにまとめる、いくつかの異なるコンポーネントで構成されます。主要なコンポーネントの例は次のとおりです。
- データ ストレージ: データ ストレージは、データを保存および管理するためのメカニズムであり、データを安全に保存、整理し、取得、処理、分析に利用できるようにします。
- データパイプライン: データパイプラインとは、あるシステムから別のシステムへ、たとえばストレージからアプリケーションへとデータを移動するためのエンドツーエンドのプロセスです。パイプラインには、精製、保存、分析など、データプロセスのすべてのステップが含まれます。
- データ ストリーミング: データ ストリーミングもデータをある場所から別の場所に移動させますが、そのデータはソースから宛先へと継続的なストリームで流れます。データ ストリーミングにより、リアルタイムの処理とアナリティクスが可能になります。
- データダッシュボード: データダッシュボードは、さまざまなソースから得られる重要なメトリクスや知見を視覚的に表示するユーザーインターフェースです。これにより、リアルタイムのモニタリング、分析、意思決定が可能になります。
- データ ガバナンス: データ ガバナンスは、効率的なデータ処理のためのポリシーとフレームワークを作成するプロセスです。データ関連の要件をビジネス戦略と連携させることで、データガバナンスは優れたデータマネジメント、品質、可視性を提供します。優れたデータガバナンスにより、組織はセキュリティとコンプライアンスを確保しながら、データを最大限に活用できます。
- データ統合: データアーキテクチャがデータ統合を促進すると、システム間でデータが容易に流れ、データサイロが解消され、組織がデータを活用できるようになります。
- データ共有: データ共有とは、データを内部または外部で利用できるようにすることです。効果的なデータ共有をサポートするデータアーキテクチャは、コラボレーションを可能にし、データ収益化によって新しい収益源を生み出す機会を創出します。
- データ分析: アナリティクスとは、データを分析および解釈するプロセスです。アナリティクスは、パターン、傾向、相関を明らかにすることで、生データを実用的な知見に変換します。リアルタイムアナリティクスとは、生成されたストリーミングデータを収集・分析する手法を指し、タイムリーであることが重要なアプリケーションでよく使用されます。リアルタイム分析は、データストリーミングの基本機能に基づいて構築されています。
- AI と機械学習: 組織が貴重な知見を得るために機械学習モデルを使用する場合でも、AI アプリケーションを 構築する場合でも、AI と machine learning の能力を活用するには、適切なデータアーキテクチャが不可欠です。データアーキテクチャは、AI インフラストラクチャをサポートし、効果的なデータフローと分析を可能にし、AI と機械学習の結果に直接影響を与えます。
- データマーケットプレイス:データマーケットプレイスは、データプロデューサーとデータコンシューマーの間でデータ製品の交換を可能にするオンラインストアです。
データアーキテクチャの種類
企業は、それぞれのニーズや目的に基づいて、さまざまな種類のデータアーキテクチャから選択できます。最も一般的なデータ アーキテクチャには、次のようなものがあります。
- ラムダ アーキテクチャ: ラムダ アーキテクチャは、バッチ処理とストリーム処理の手法を組み合わせたハイブリッド アプローチにより、膨大な量のデータを処理する方法です。ラムダ アーキテクチャは非常に複雑になる可能性があります。管理者によるバッチレイヤーとストリーミングレイヤー用の 2 つの別のコードベースをメンテナンスする必要とするため、デバッグが困難です。
- データメッシュ: データメッシュは、データ分析プラットフォームを拡張するための一連の原則と論理アーキテクチャを記述したパラダイムです。一元化されたデータガバナンスと共有を通じて、複数のソースからの異種データを統合し、アクセスとセキュリティを向上させます。
- データウェアハウス:データウェアハウスは、事前定義されたスキーマに構造化データを格納するデータ管理システムです。複数のソースからの現在およびヒストリカルデータが含まれており、インサイトの取得とレポート作成を容易にします。データウェアハウスは、一般的にビジネスインテリジェンス(BI)、レポーティング、データ分析に使用されます。
- データレイク: データレイクは、データをネイティブの生フォーマットで保存するデータ リポジトリであり、さまざまなソースからの大量のデータをコスト効率よく保存できます。データレイクを使用すると、ユーザーはデータを最初に構造化することなくそのまま保存し、さまざまなアナリティクスを実行できます。これらのアナリティクスには、ダッシュボードと可視化、ビッグデータ処理、リアルタイム分析、machine learningなどがあります。
- データ レイクハウス: データ レイクハウスは、データレイクの柔軟性、費用対効果、規模と、データウェアハウスのデータ管理機能を組み合わせたオープンなデータ管理アーキテクチャです。データレイクハウスを利用することで、チームは複数のシステムにアクセスすることなく、データサイエ ンス、machine learning、ビジネスアナリティクスの各プロジェクトで利用できる、最も完全で最新のデータを確実に入手できます。
- メダリオンアーキテクチャ: メダリオンアーキテクチャは、レイクハウス内のデータを論理的に整理するために使用されるデータ設計パターンです。その目的は、データがアーキテクチャの各レイヤーを通過するにつれて、データの構造と品質を段階的かつ継続的に向上させることです。
データ アーキテクチャのベスト プラクティス
企業がデータを活用して成功につながる知見を得るには、適切なデータアーキテクチャが不可欠です。最良の結果を得るために、データアーキテクチャのベストプラクティスには次のものが含まれます。
- ビジネス アラインメント: データアーキテクチャは、企業の長期的な目標とビ ジネス目標をサポートする必要があります。
- 柔軟性と拡張性: データアーキテクチャは、変化するニーズに容易に適応できる必要があります。データ量の増加に伴い、アーキテクチャを拡張してリアルタイムで知見を提供し、machine learningとAIの取り組みをサポートする必要があります。
- 統合されたガバナンスとセキュリティ: ガバナンスとセキュリティは、アーキテクチャ設計の中心であるべきです。アーキテクチャは効率的なガバナンスをサポートする必要があり、また機械学習およびAIとデータプラットフォームの統合もサポートする必要があります。
- 統合: 統合されたアプローチにより、セキュリティとガバナンスを確保しながら、さまざまなデータワークロードが同じデータ上でシームレスに動作できます。
- オープンな基盤: 独自のツールによるベンダー ロックインは、幅広い採用を妨げ、イノベーションを制限します。オープンな基盤で作業することで、より良い知見を得るための容易なデータ統合と共有が促進されます。
- データの民主化: データアーキテクチャは、明確に定義されたデータガバナンスポリシーを統合しつつ、チームがデータを使ってイノベーションを起こすのを妨げるボトルネックを解消する必要があります。
Databricks のデータ アーキテクチャ
レイクハウスアーキテクチャ上に構築されたDatabricksデータインテリジェンスプラットフォームは、データとAIのための統合され、安全で、統制されたソリューションを提供します。信頼性の高いパフォーマンス、データ中心のAI機能、柔軟で費用対効果の高いサーバーレスデータウェアハウジングを重視しており、すべてベンダーロックインがありません。
レイクハウスアーキテクチャは、データレイクとデータウェアハウスの長所を組み合わせることで、コストを削減し、データおよび AI イニシアチブの迅速な実現を支援します。オープンソースとオープンスタンダードを基盤とするDatabricksプラットフォームは、これまでデータとAIのワークロードを複雑にしてきたサイロを排除します。
Databricksデータインテリジェンスプラットフォームの一部として、Unity Catalogはレイクハウス上のデータとAIに統合ガバナンスを提供します。これにより、シームレスなコラボレーションが可能になり、生産性が向上し、あらゆるプラットフォームにおけるコンプライアンスが確保されます。
Databricksデータインテリジェンスプラットフォームは、今日のビジネスが直面する多面的な課題に対処します。データを安全に民主化するアーキテクチャにより、Databricksはすべてのチームメンバーが組織の成功のためにデータの可能性を活用できるよう支援します。
関連資料