によって マニッシュ・アガルワル による投稿
データ量が膨大かつ複雑化するにつれて、データの収集、保存、分析における困難に対処するために、モダンデータスタックは設計されています。ビジネスの成功がデータに基づいたインサイトとAIへの依存度を高めるにつれて、効果的で信頼性の高いデータ管理が不可欠になります。
では、モダンデータスタックとは何でしょうか。また、データ利用を最適化するためにどのように設計されているのでしょうか。モダンデータスタックと従来のデータスタックとの違い、あらゆる業界のビジネスにもたらすメリット、そしてデ ータから成功を収めるために必要なモダンデータスタックのツールについて、読み進めて理解を深めましょう。データとAIの目標を加速する方法については、新しいエグゼクティブガイドをこちらでお読みください。
「データスタック」という言葉は、生データを処理するさまざまなテクノロジーの集合体を指します。モダンデータスタックは、データの取り込み、整理、保存、変換に使用されるツールで構成されています。
これらのツールは、データを「利用できないデータ」(処理できないデータ)から「利用可能なデータ」(処理できるデータ)へと変換するために不可欠です。データにアクセスし、準備し、分析できる速度が速ければ速いほど、組織はそれを意思決定に活用できます。したがって、効果的なモダンデータスタックアーキテクチャは、データから価値を引き出し、変化に迅速に対応したいと考えるあらゆる組織にとって非常に 重要です。
モダンデータスタックには、主に4つの機能があります。
ロードテクノロジーは、データをある場所から別の場所に移動する役割を担います。例えば、データは、利用可能な状態に変換され、貴重なインサイトのために分析されるために、データパイプラインに取り込まれる必要があります。
データパイプラインを通じてデータが取り込まれたら、どこかに保存する必要があります。データウェアハウスとデータレイクは、一般的に使用される2つのデータ保存テクノロジーですが、どちらにも特定の欠点があります。1つの違いは、データウェアハウスは構造化データの保存により適しているのに対し、データレイクは非構造化データに適していることです。
データレイクハウスプラットフォームは、さまざまな種類の構造化データおよび非構造化データをより適切に処理できるモダンなソリューションを提供します。
オンプレミスオプションではなく、クラウドベースのデータストレージソリューションは、モダンデータスタックに不可欠です。これらは、変化するニーズに容易に適応できる、高度にスケーラブルなプラットフォームでデータに簡単にアクセスできるようにします。
モダンデータスタックは、データの変換にも使用されます。変換プロセスは、「生」データを分析ユースケースに適した「洗練された」データに変換します。多くの組織は、データ変換のためにデータ準備プラットフォームを使用します。
データ変換には、データを別の形式、構造、ま たは値システムに変換することが含まれる場合があります。これは、データ分析とデータに基づいた意思決定に不可欠なプロセスです。
データに適用できるデータ変換には、次のようなものがあります。
データが収集され準備されたら、分析に使用する準備が整います。モダンデータスタックツールもこのステップを処理できます。
パターンやトレンドを特定するために機械学習(ML)モデルを使用してデータを分析することで、計画や意思決定に活用できます。あるいは、処理されたデータはさまざまなアプリケーションの基盤として使用される場合があります。
モダンデータスタックの影響と重要性を理解する鍵は、従来のデータスタックを振り返ることです。以前のデータスタックは今日のツールやテクノロジーの基盤となりましたが、モダンデータスタックが克服するように設計された重大な制限がありました。
エンタープライズデータウェアハウス(EDW)は、おそらく組織がデータ管 理に一般的に使用した最初のデータスタックでした。
これらは、さまざまなソースから蓄積されたデータを一元的に保存するリポジトリを提供します。これにより、顧客関係管理(CRM)プラットフォーム、リレーショナルデータベース、または大量のデータを蓄積する類似システムを利用する組織にとって有用です。
EDWは通常、データを管理するためにETL(抽出、変換、ロード)メカニズムに依存します。これらの場合、データはアップロード時に定義済みのスキーマ(内部データベース形式)に対してチェックされます。これはスキーマオンライトアプローチとして知られています。
EDWは間違いなくデータ管理と分析の合理化に貢献しましたが、人工知能(AI)とMLユースケースへの移行が進むにつれて、やや時代遅れになっています。
これは主に、データウェアハウスがこれらのユースケースに必要な大量のデータを処理するのに苦労するためです。データウェアハウス内に保存されるデータ量が増加すると、データウェアハウスのコストと非効率性も増加します。
また、データウェアハウスは、オーディオ、ビデオ、テキストドキュメント、ソーシャルメディアの投稿など、多くのビジネスにとって重要な情報となっている非構造化データを処理できません。さらに、EDWの構造は通常、タスク固有のデータを保存するように設計されています。これにより、収集されたすべてのデータが利用可能であることに依存するMLおよびデータサイエンスタスクには不向きです。
データレイクは、AIおよびMLタスクにおけるデータウェアハウスの不備に対応するために開発さ れました。これらのリポジトリは、大量の生データをネイティブ形式で保存するように設計されています。構造化、非構造化、半構造化データを処理できるため、EDWよりもMLおよびデータサイエンスユースケースに適しています。
データウェアハウスとは対照的に、データレイクはロード前にデータ変換を必要としません。データが適合するスキーマがないためです。スキーマは、データがクエリされるときに検証されます。これはスキーマオンリードアプローチとして知られています。
このため、データレイクは一般的に従来のデータウェアハウスよりも堅牢でコスト効率が高いと考えられています。しかし、だからといって他の制限がないわけではありません。
SQLクエリをサポートするために追加のツールとテクニックが必要なため、ビジネスインテリジェンスとレポート作成はデータレイクを使用する場合に困難になる可能性があります。
データレイクはさまざまな種類と形式の大量のデータを保存するため、データの品質、信頼性、整合性の低下も頻繁な問題となります。レイクに保存されたデータは簡単に整理されなくなり、データの正確性、セキュリティ、ガバナンスに関するさらなる問題につながる可能性があります。
データレイクとデータウェアハウスはどちらも主要な領域で不十分であるため、多くの組織はそれぞれの弱点を回避するために両方を使用しています。たとえば、ビジネスは非構造化データを保存するために1つの大規模なデータレイクを使用し、特定のユースケースのために複数の目的に特化したデータウェアハウスを使用できます。
ほとんどの場合、これはデータサイロ、コストと複雑さの増加につながり、2つのシステム間でデータを一貫して維持する必要性が大きな課題となります。この問題を解決するには、より統合されたソリューションが必要です。
ここでモダンデータスタックが登場します。従来のデータスタックの課題を解決するために設計された、すべてのモダンデータスタックに含めるべき特定のコンポーネントがあります。
おそらく、モダンデータスタックと従来のデータスタックの最も significant な違いは、モダンデータスタックがクラウドでホストされていることです。物理サーバーに依存するのではなく、モダンデータスタックはクラウドコンピューティングに依存しており、多くの場合SaaS(Software as a Service)モデルで提供されます。
これは、通常、ユーザーによる技術的な設定が少なくて済むことを意味します。代わりに、セキュリティ、メンテナンス、アップデートは、モダンデータスタック企業によってサービスの一部として提供されます。これにより、モダンデータスタックは従来のデータスタックよりも柔軟で効率的になります。
また、エンドユーザーのアクセス可能性が促進され、場所に関係なく、より多くのデータプロフェッショナルがデータにアクセスできるようになります。
クラウドベースのソリューションはスケーラビリティも向上させます。これは、ローカルサーバーのスケーリングに伴うコストのかかる長いダウンタイムなしに、組織の変化するニーズを満たすために迅速に調整できるためです 。
現代のデータスタックツールは、幅広いデータユースケースをサポートするだけでなく、組織が膨大なデータトランザクションを処理できるようにします。これらは、分散コンピューティングフレームワークを活用するコンポーネントで構成されています。例えば、HadoopやSparkのようなテクノロジーは、複数のノードやクラスターにわたるデータ処理を可能にし、大規模なデータセットや複雑なワークロードの並列処理を実現します。
これは、組織がインフラストラクチャに追加の負荷をかけることなく、複雑なデータトランザクションを実行し、より多様なワークロードに対応できることを意味します。複数のノードやクラスターの使用は、データパーティショニングも可能にします。これにより、ワークロードが分散され、データをより小さく管理しやすいチャンクに分割することで、より効率的なクエリと処理が可能になります。
データ圧縮、カラムナストレージフォーマット、インデックス作成のようなテクニックも、ストレージと処理の効率を最適化するために、現代のデータスタックで使用されています。これらのテクニックは、大規模なデータセットに必要な物理ストレージスペースを削減し、データアクセスと取得のプロセスを高速化します。
現代のデータスタックは、最適化されたExtract, Transform, Load (ETL) または Extract, Load, Transform (ELT) プロセスを含む、信じられないほど効率的な データパイプライン も使用しています。これに より、処理されるデータの量に関係なく、ソースから宛先へのデータのスムーズな移動が保証されます。
現代のデータスタックは、幅広いビジネスインテリジェンスのユースケースをサポートするのに適しており、組織がデータから最大限の価値を引き出すのを支援します。効率的なデータ分析、データ可視化、データに基づいた意思決定を促進する堅牢なツールを提供します。
企業は、現代のデータスタックとシームレスに統合できる、さまざまな分析およびレポートツールからも恩恵を受けることができます。これにより、BIプラットフォームはSQLクエリ、データ可視化ツール、ダッシュボード、レポート機能を活用して、データからのインサイトを分析および提示できます。さらに、予測分析やMLモデルを統合して、より高度な分析と意思決定を可能にすることもできます。
一部の現代のデータスタックアーキテクチャは、リアルタイムデータ処理とストリーミングもサポートしています。これにより、BIツールは最新のインサイトを提供し、リアルタイムの意思決定をサポートできるため、それを使用する組織の俊敏性と応答性が向上します。
統合された データガバナンス は、現代のデータテクノロジースタックの大きな利点です。データライフサイクルのすべての段階で、データ品質、コンプライアンス、セキュリティ、およびアクセシビリティを確保するために機能するさまざまなツール、プロセス、およびポリシーが実装されています。また、メタデータを文書化および管理するための洗練されたデータカタログツールも組み込まれています。
データソース、構造、リネージ、所有権、および使用状況に関する情報は、最新の中央カタログを維持するために不可欠です。これにより、データはより発見しやすく、理解しやすくなり、透明性とコンプライアンスも確保されます。
セキュリティに関しては、ロールベースアクセス制御 (RBAC) メカニズムを使用して、どのユーザーが異なるデータセットにアクセスできるかを管理および制御します。これらのメカニズムは、組織のセキュリティポリシーを施行するのに役立ち、承認された担当者のみが機密データにアクセスできることを保証します。
これは、銀行やヘルスケアなどの業界で、多くの機密データを扱っている企業にとって特に重要です。現代のデータスタックは、GDPRやHIPAAのようなデータ規制への準拠を支援することもできます。これらは、データ暗号化と監査を可能にし、プライバシーとセキュリティ規制への準拠を保証することで、コンプライアンスを支援する機能を持っています。
多くの現代のデータスタックは、潜在的なデータガバナンスの問題を特定するのに役立つリアルタイム監視機能も組み込んでいます。アラートメカニズムは、疑わしいアクティビティや確立されたガバナンス基準からの逸脱について管理者に通知できます。
一般的に、現代のデータスタックの利点は次の4つのカテゴリに分類できます。
第一に、現代のデータスタックはより高いレベルの柔軟性を提供し ます。さまざまなツールを使用してユーザーの特定のニーズを満たすことができ、利用可能なサービスは必要に応じて追加または削除できます。このモジュール性により、スタックをレイヤーごとに構築して、組織が必要とする正確な現代のデータスタックを作成できます。
さらに、さまざまなデータフォーマット、データベース、およびサードパーティサービスとの互換性により、新しいテクノロジーを組み込む際の相互運用性と柔軟性が保証されます。現代のデータスタックは、オープンソースツールとフレームワークを活用することが多く、カスタマイズとコミュニティ主導の機能強化を通じて、組織にさらなる柔軟性を提供します。
また、リアルタイム処理とバッチ処理の両方のオプションを提供しており、さまざまな種類のワークロードを処理する組織に、ビジネスのさまざまなニーズに合わせてデータ処理を調整できるため、より大きな柔軟性を提供します。
現代のデータスタックはクラウドベースのソリューションであるため、データの処理速度は指数関数的に向上しました。レガシーデータスタックでは数時間かかっていた処理が、数分で大量のデータを処理できるようになりました。
現代のデータスタックには、自動化されたデータ処理および変換ツールが組み込まれていることがよくあります。これらのツールは、データクリーニング、正規化、統合などのタスクを合理化し、手動介入の必要性を減らします。これにより、データ処理がより効率的になるだけでなく、データ精度も向上します。
データ可視化およびレポートツールとの統合により、データを意味のあるインサイトに変換するプロセスがスピードアップします。これらのツールの多くは、直感的なインターフェイスとカスタマイズ可能なダッシュボードという追加の利点も提供しており、データパターンとトレンドの理解を迅速化できます。
大量のデータを維持することはコストがかかりますが、現代のデータスタックは組織全体の運用コストを削減するのに役立ちます。クラウドベースであるため、ハードウェアや複雑なインフラストラクチャに投資する必要はありません。これにより、初期投資に必要な金額が削減されるだけでなく、データスタックのライフサイクル全体にわたるメンテナンスおよび運用コストも削減されます。
多くのSaaS現代データスタック企業は、使用量ベースの価格設定を提供しており、組織は使用したサービスに対してのみ支払うことができます。従量課金モデルで提供されるサービスは、アクティブに使用されている場合にのみ支払う必要があり、使用量が少ないまたは使用がない期間中のコストを最小限に抑えます。
現代のデータスタックは、データ処理の自動化、ダウンタイムの最小化、データパイプライン全体の効率の向上により、リソース利用率を継続的に最適化しています。これにより、リソースがより効果的かつ効率的に利用され、アイドル時間とその関連コストが削減されます。
スタック自体以外では、利用可能な高度な分析およびML機能により、ユーザーはコスト削減の機会を特定できます。需要を予測し、リソースを最適化し、コスト削減の機会を積極的に特定することで、組織は予算を完全に管理できます。
現代のデータスタックは、データ侵害に関連するリスクとコストを最小限に抑える役割も果たすことができます。堅牢なデータガバナンス対策を実装することで、データ侵害のリスクが軽減され、規制違反の事例も軽減されます。これにより、組織はコンプライアンス違反に関連する罰金や法的問題を回避でき、コスト削減にさらに貢献します。
データカルチャーとは、データに関する組織内の行動、態度、および実践を指す用語です。データに基づいた意思決定を取り巻く信念や習慣から、データに置かれる価値まで、すべてを網羅できます。また、組織の日常業務および意思決定プロセスへのデータの全体的な統合もカバーします。
現代のデータスタックは、組織内のデータカルチャーに革命をもたらすのに役立ちます。
まず、現代のデータスタックツールは、使いやすさを念頭に置いて設計されています。これにより、あらゆる技術レベルの従業員がデータにアクセスしやすくなります。提供される柔軟性により、ユーザーは単一の特定のツールを使用することに限定されず、ニーズと専門知識レベルに最適なツールを選択できます。
一方、現代のデータスタックに含まれる堅牢なデータガバナンス対策は、データの正確性に対する信頼を構築するのに役立ちます。信頼性が高く、適切に管理されたデータを提供することで、これらのスタックは意思決定プロセスでのデータの使用を促進します。これにより、組織のデータに関する信頼の文化が生まれます。
この信頼が確立されると、提供される柔軟性とスケーラビリティが活かされ、ユーザーは新しいデータソース、分析ツール、および方法論を試すことができます。これにより、イノベーションと探求の文化が構築されます。
現代のデータスタックは、チーム間のコミュニケーションとコラボレーションを促進するのにも役立ちます。統合されたデータカタログ、メタデータ管理、および組み込まれたコラボレーション機能がすべてこれに役立ちます。すべてのステークホルダーは、データ資産に関する共通の理解を持ち、共通のデータ関連のビジネス目標に向かって努力を一致させることができます。
さまざまな業界の組織が、現代のデータスタックを使用してデータへのアプローチに革命を起こしています。以下にいくつかの例を示します。
AT&Tは、現在米国で事業を展開する主要な通信事業者の一つです。以前は、従来のオンプレミス型のデータアーキテクチャに依存していました。しかし、取り扱うデータの種類と量が増加するにつれて、より良いソリューションが必要であることが明らかになり、レガシーアーキテクチャをDatabricksが提供する最新のデータスタックに移行しました。
これにより、技術者の派遣を最適化するために必要なリアルタイムのインサイトと自動化を実現することができました。現在では、トラブルシューティングのスキルを持つ技術者を、解決すべき顧客の問題と、その顧客の所在地にマッチさせることができます。これらは、レガシーシステムでは統合できなかった3つのデータポイントです。
この新しい自動化された技術者派遣アプローチにより、AT&Tは優れた顧客サービス体験を提供すると同時に、問題解決にかかる試行回数を減らすことで運用コストを削減することに成功しました。
HSBCは、世界中で3900万人以上の顧客にサービスを提供する、世界最大級の国際銀行の一つです。これほど大規模な顧客基盤を持つと、スケーラビリティの限界は避けられませんでした。しかし、HSBCが最新のデータスタックを採用するまでは、そうでした。
現在では、必要に応じてデータ分析とMLをスケーリングできるようになり、パーソナライゼーション、レコメンデーション、ネットワークサイエンス、不正検出など、顧客中心のさまざまなユースケースを推進する力を得ています。そしてこれらすべてを、ビジネスニーズに合ったスピードで実現しています。
"分析に利用できるデータの速度に大きな改善が見られました。以前は6時間かかっていたジョブが、今ではわずか6秒で完了します。" — Alessio Basso, Chief Architect, HSBC
最新のデータスタックは、USPSが米国全土の顧客に効率的にサービスを提供する力を与えています。クラウドベースのレイクハウスアーキテクチャへの移行により、新しいデータ課題に迅速に対応し、イノベーションの新たな機会を提供できるようになりました。
さらに、USPS OIGは、郵便業務とプログ ラムの調査、監査、研究をより適切に行えるようになりました。これは、不正、浪費、乱用との戦いに役立ち、長年にわたって郵便サービスの効率性と完全性を確保します。
最新のデータスタックアーキテクチャは、データスタックの進化における次のステップです。そのスケーラビリティ、効率性、および強化されたガバナンスにより、あらゆる業界のビジネスが、データを効率的かつ安全に最大限に活用できるようになります。
Databricks Data Intelligence Platformは、データレイクとデータウェアハウスの最良の側面を組み合わせたレイクハウスアーキテクチャ上に構築されており、コスト削減、生産性向上、データとAIのイニシアチブをより迅速に実現するための最新のデータスタックを提供します。
Databricksは、業界をリードする幅広いソフトウェアおよびハードウェアの改善を組み込むことにエンジニアリングの労力を集中し、初のデータインテリジェンスプラットフォームを実装しました。
私たちの方法は、Apache Spark™フレームワークのコンピューティングの進歩と、最新のネットワーキング、ストレージ、CPUテクノロジーを活用して、顧客が必要とするパフォーマンスを提供し、アーキテクチャを簡素化します。
これらのイノベーションは組み合わさって、組織内のすべてのデータセットを格納および処理し、重要なインサイトのための幅広い分析をサポートできる単一のアーキテクチャを提供します。
(このブログ記 事はAI翻訳ツールを使用して翻訳されています) 原文記事
ブログを購読して、最新の投稿を受信トレイにお届けします。