2024年11月11日

データサイロとは：問題点とその解決策

データサイロとは？

データは企業の最も価値のある資産の1つですが、その価値は、企業がそのデータをどれだけうまく活用して、インパクトと収益を促進するビジネス上の意思決定を行えるかにかかっています。データサイロは、企業がデータの全体像を把握することを妨げ、そのギャップは、リーダーがデータに基づいた意思決定を行う能力に影響を与える可能性があります。

「サイロ」という言葉は、農場のサイロ、つまり異なる穀物が別々の容器に保管されている様子を思い起こさせるかもしれません。データサイロは、企業内でのデータの同様の分離を指します。異なるチームが、しばしば互いに独立してデータを収集、管理、保存し、アクセスは特定のグループ内のユーザーに限定されています。分離は製品ユニットや職務機能を中心に設計されることもありますが、買収によってデータサイロが作成されることもあります。

多くの組織では、データはタイプ別にサイロ化されています。この場合、構造化データは、オンプレミスとクラウドの両方の複数のデータウェアハウスに保存されます。一方、非構造化データとストリーミングデータは、データレイクに別々に保存されます。この分離はデータ管理を複雑にし、組織がデータから引き出せる価値を制限します。

データサイロはなぜ問題なのでしょうか？

データサイロは、データの可視性とアクセスを妨げ、非効率性とコストを増加させ、効果的なガバナンスを阻害し、組織が重要なインサイトを見逃す原因となるため、問題となります。

企業のデータが、別々のグループによって管理されている複数の独立したシステムに分散している場合、すべてのデータにアクセスすることは、不可能ではないにしても困難です。集計されたデータを分析することも困難です。チームはしばしば、調整が難しい重複データや、ギャップを残す欠落データに苦労します。また、構造化データと非構造化データが異なる場所に保存されていると、高度な機械学習機能やGenAIイニシアチブを実装することが困難になります。組織はまた、サイロ化されたデータを処理するために複数のガバナンスモデルを必要とし、セキュリティとコンプライアンスのリスクを高めます。

データサイロを削除することで、リーダーは企業全体の完全なビューを取得し、重複と非効率性を削減し、ガバナンスを合理化し、データに基づいた意思決定を行うためにAI機能を最大限に活用できるようになります。

データサイロのビジネスコスト

データサイロのある従来のアーキテクチャから最新のデータレイクハウスに移行することで、企業はデータ全体にわたる可視性を得ることができ、コストを削減することもできます。データが複数のチームにサイロ化されている場合、各チームは独自のデータニーズをサポートするためのインフラストラクチャとITスタッフのコストを負担する必要があります。データを一元化することで、企業は技術スタックを統合し、管理と保守のコストを削減できます。

データレイクハウスのような最新のデータアーキテクチャは、柔軟性とスケーリングを強化し、企業がコンピューティングコストを管理するのに役立ちます。必要なコンピューティングクラスターに基づいて動的にスケールアップおよびスケールダウンするDatabricksのようなクラウドソリューションでデータ準備とアドホック分析を実行することで、企業は未使用のコンピューティングリソースに料金を支払うことがなくなります。例えば、Delta LakeとDatabricksに移行したRelogixは、インフラストラクチャコストを80%削減しました。

データサイロはどのように発生しますか？

データサイロは、しばしば企業の組織図に似ており、データサイロは、異なるビジネスユニットや製品グループによってデータが分離されるときに作成されることがよくあります。この分離は、データ管理に対する相反するアプローチや、特定のデータを機密に保ちたいという願望によって強化されることがあります。しかし、データの機密性は、適切なアクセス制御によってより良く達成されます。また、エンジニアリング、マーケティング、財務などの分野では、異なるデータニーズと優先順位があるため、職務タイプに基づいてデータがサイロ化されることもあります。

一部のチームは、単にお互いに十分なコミュニケーションをとっていないため、努力が重複していることに気づいていません。コミュニケーションの欠如は、チームが他のチームのニーズを認識しておらず、他のチームが役立つ可能性のあるデータを持っていることに気づいていない結果にもつながる可能性があります。チームが独立してデータ管理と収集のアプローチを開発するにつれて、サイロは成長し続け、データを独立して保存することで、互換性のないシステムを意図せず開発し、データの共有を困難にします。

データサイロは組織のサイロを反映するだけでなく、そのすべてのデータはタイプ別にサイロ化された方法で保存されることがよくあります。構造化データは複数のオンプレミスおよびクラウドデータウェアハウスに保存されますが、AIに使用される非構造化データはデータレイクに保存されます。これらのアーキテクチャパターンのそれぞれは、独自のガバナンスモデルを必要とし、組織がデータに安全にアクセスし、競争優位性を推進するAIインサイトに使用する能力を制限します。

データサイロの特定方法

データサイロは、日常のビジネスオペレーションで発生するユースケースを通じて、有機的に特定されることがよくあります。チームは、特定のデータへのアクセスが欠けている、または見つけられないことに気づきます。従業員は、レポートをコンパイルするのにかかる時間と手作業の労力について不満を言うかもしれません。リーダーは、異なるチームから矛盾、重複、またはギャップのある同様のレポートを受け取る可能性があります。チームは、より多くの制御またはより高速なデータアクセスを得るために、通常のデータツールの外部にデータを保存および追跡し始め、データの重複コピーやオフラインコピーにつながる可能性があります。

企業は、データ監査を実行することによって、データサイロを積極的に特定できます。企業全体のさまざまなデータソースを注意深く追跡および文書化することで、リーダーはデータ管理とストレージの状況を明確に理解できます。これを、一元化されたデータモデルへの移行を計画するための出発点として使用できます。サイロが削除され、一元化されたアーキテクチャが配置されたら、小さなデータ監査を定期的に実行して、新しいサイロを検出し、それらを迅速に中央データリポジトリに戻すことができます。

データサイロを打破する方法

データサイロが特定されたら、企業はそれらを打破し、一元化された共有ストレージソリューションに移行するためのステップを開始できます。

クラウドストレージソリューションは、一元化されたデータを単一の場所にスケーラブルに保存する方法を提供しますが、AmazonやAzureのような従来のクラウドソリューションは、整理された構造や共有ストレージの使用方法に関する共有された理解なしにデータを配置する共有場所、つまりストレージダンプになることがよくあります。

クラウドデータウェアハウスは、スキーマ定義を通じて、注文と理解の追加レイヤーをもたらします。定義されたスキーマにより、データを分類および整理して、より大きな分析インサイトを可能にすることができます。ただし、これらのスキーマの定義と保守には時間がかかり、単一のスキーマですべてのビジネスに必要なデータタイプをサポートすることは困難な場合があります。

データレイクは、データスキーマを必要とせず、画像、ビデオ、オーディオ、ドキュメントなどの非構造化データや半構造化データを含むすべてのデータタイプをサポートできるため、データウェアハウスよりも柔軟性があります。この柔軟性により、チームはデータ管理プラクティスを大幅に変更することなく、単一の中央ストレージ場所に簡単に移行できます。データレイクはまた、さまざまな形式での分析を可能にし、ユーザーがデータウェアハウスのコストとベンダーロックインに関する懸念に対処できるようにします。

データレイクは、一部の企業が高価なプロプライエタリなデータウェアハウスソフトウェアからデータレイクに移行できることを意味しました。データレイクはまた、データウェアハウスでは不可能だった方法で大量の非構造化データを分析することを可能にし、機械学習も可能にしました。

しかし、データレイクはトランザクションをサポートしておらず、多くの企業が必要とするセキュリティ機能を備えていません。データが増加すると、パフォーマンスの問題が発生することもよくあります。データウェアハウスはこれらの機能領域ではより信頼性がありますが、構造化データのみをサポートし、データレイクやデータレイクハウスのようなオープンフォーマットでは利用できません。

データレイクハウスは、データレイクのスケーラビリティと柔軟性を、データウェアハウスのトランザクションサポートとガバナンスと組み合わせて、真にデータサイロを打破する高度なAIおよび分析シナリオを可能にします。データレイクハウスにより、ユーザーは単一のプラットフォームでBI、SQL分析、データサイエンス、AIなど、すべてを実行できます。レイクハウスは、データレイクのオープン性とスケーラビリティを維持しながら、信頼性、パフォーマンス、品質といったデータウェアハウスの属性を追加することで、データレイクの構築に意見のあるアプローチをとります。

レイクハウスは、Delta LakeやApache Icebergのようなオープンソーステーブルフォーマット上に構築されています。これにより、チームはデータレイクに構造化、半構造化、非構造化データを保存でき、ベンダーロックインを防ぐポータブルフォーマットを使用できます。これらのフォーマットは、ACID準拠のトランザクション、スキーマ強制、データ検証を提供します。

オープンデータレイクハウスを採用する際に組織が直面する主な課題の1つは、データに最適なフォーマットを選択することです。プロプライエタリなフォーマットにデータを投入するよりも、どのオープンフォーマットでも優れています。しかし、標準化するための単一のストレージフォーマットを選択することは daunting なタスクであり、意思決定の疲労と取り返しのつかない結果への恐怖につながる可能性があります。

Delta UniForm（Delta Lake Universal Formatの略）は、追加のデータコピーやサイロを作成することなく、テーブルフォーマットをシンプル、容易に実装、シームレスに統合できる機能を提供します。UniFormを使用すると、Delta LakeテーブルをIcebergテーブルとして読み取ることができるため、Delta LakeまたはIcebergのエコシステムで動作する任意のコンピューティングエンジンを使用できます。

データサイロが引き起こすもう1つの課題は、社内外でのコラボレーションの制限であり、情報とイノベーションの流れを妨げます。これらのサイロを解消し、データレイク、データベース、ウェアハウス、カタログ全体で統一された信頼できる情報源を確立することにより、組織はOpen APIを使用して任意のコンピューティングエンジンまたはツールからデータおよびAIアセットへのシームレスなアクセスを促進できます。ここで、Databricks Unity Catalogが、データとAIのための業界初の統合されたオープンガバナンスソリューションとして登場します。

Unity Catalogを使用すると、組織は、構造化データおよび非構造化データ、AIモデル、ファイルなど、あらゆるクラウドまたはプラットフォームにわたるデータおよびAIアセットをシームレスに管理できます。これにより、データサイエンティスト、アナリスト、エンジニアが安全に発見、アクセス、コラボレーションできるようになり、AIを通じて生産性が向上します。相互運用性を促進し、データイニシアチブを加速することで、Unity Catalogはコンプライアンスを簡素化し、大規模なコラボレーションを推進しながら、ベンダーロックインを回避します。

抽出、変換、読み込みツール

抽出、変換、読み込み（ETL）プロセスは、チームがデータを標準化し、共有するのに役立ちます。ETLツールを活用して、既存のサイロからデータレイクハウスのような一元化された場所にデータを移動できます。エンジニアはETLパイプラインを構築して、継続的なリアルタイム取り込みを管理し、共有セントラルストレージに取り込まれるデータの品質管理を維持できます。

カルチャーシフト

データサイロを解消し、再発を防ぐには、カルチャーシフトと、システムとプロセスを一元化されたデータストレージを使用するように移行する方法についての慎重な計画も必要です。チームが新しいデータストレージソリューションを採用するのを妨げているギャップや技術的な課題を理解することが、全員を巻き込むための鍵となり、変更管理の決定に役立ちます。理想的には、新しいプロセスはスケーラブルで柔軟性があり、会社の要件とデータのニーズが進化しても適応できる必要があります。

追加のガバナンスとデータ管理ポリシーを導入することで、将来的に新しいデータサイロが発生するのを防ぐことができます。ポリシー、標準、手順に関する明確なドキュメントは、チームが共有セントラルストレージ内でデータを採用し、管理し続けるために不可欠です。定期的なデータ監査を実施することで、プロセスのギャップや、カルチャーシフトに対応していない会社の領域を迅速に特定できます。

エグゼクティブサポートと経営陣の承認を得ることが、カルチャーチェンジを達成するための鍵となります。短期および長期の両方の明確なメリットを明確に伝えることで、より広範な変更に対するサポートを得やすくなります。楽になる、またはコストが削減される現在のデータタスクをマッピングし、最新のアーキテクチャが可能にする新しい機能を強調します。

(このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事