メインコンテンツへジャンプ

データオブザーバビリティとは?

データ可観測性とは、組織がビジネスに影響を及ぼす前にデータの問題を検出、診断、防止できるように、取り込みパイプラインからストレージレイヤー、下流のアナリティクスに至るデータシステム全体の健全性、品質、信頼性、パフォーマンスを継続的にモニタリングする実践とプロセスです。データ可観測性は、自動モニタリング、異常検知、根本原因分析、データリネージの追跡といったアクティビティを通じて、ライフサイクル全体にわたるデータの状態を把握することに重点を置いています。これらのアクティビティは、組織がデータのダウンタイムを防ぎ、正確で信頼性の高い、高品質なデータを確保するのに役立ちます。

Databricks についてさらに詳しく

データエンジニアリングのビッグブック

データ エンジニアリングのベスト プラクティスに関する必須ガイド

読む

SQLでETLパイプラインを構築する方法を学ぶ

データエンジニアリングのサポートなしでデータ変換を自ら管理

読む

データエンジニアリングを学ぶ

スキルをレベルアップして、修了証を取得しましょう

今すぐスタート

データ可観測性が重要な理由

データ オブザーバビリティは信頼性の高いデータ パイプラインの構築に役立ちます。内外の分散データソースに依存するデータパイプラインは複雑さを増しているため、今日のデータドリブン組織にとって重要です。今日のデータ環境では、複数のチームが複数の取り込みツールを使用し、データをデータレイク、warehouse、レイクハウスに保存する場合があります。データ オブザーバビリティはデータ品質に大きな影響を与え、古いデータ、欠落レコード、スキーマ変更、予期せぬ量の増加、不正確な変換などの問題を早期に検出するのに役立ちます。

データの問題を早期に検出し、エンドツーエンドのリネージを可視化することで、下流の分析、運用、意思決定を改善し、データの信頼性の問題がユーザーや消費者に届く前に回避することができます。可観測性は、データの信頼性を確保するだけでなく、収益の促進、顧客エクスペリエンスの向上、イノベーションの加速にも役立ちます。

データ可観測性の5つの柱

業界では、オブザーバビリティは 5 つの柱を使って説明されることがよくあります。

  • 鮮度: データは最新ですか?パイプラインは期待どおりに実行されますか?可観測性により、古いテーブル、失敗したジョブ、取り込みの遅延を検出できます。
  • ボリューム: データは想定されるデータサイズの範囲内にありますか?オブザーバビリティは、レコードの欠落、データの重複、ボリュームの予期せぬ急増や急減などの異常を検出できます。
  • 分布: 統計的特性の変化を特定できますか?値は正常に見えますか?可観測性により、外れ値、null率の変化、ドリフト、ビジネスメトリクスのあらゆる異常を検出できます。
  • スキーマ: 予期しない構造的な変更はありませんか?オブザーバビリティは、列の追加や削除、型の変更、ダウンストリームのテーブルやダッシュボードに影響を与える変更を検出できます。
  • リネージ: データはシステム内およびシステム間でどのように流れますか?オブザーバビリティは、上流と下流の依存関係、どのダッシュボードや機械学習モデルが破損するのか、そしてデータ障害の根本原因の把握に役立ちます。

データ可観測性の仕組み

データ可観測性は、自動化された統計的チェック、メタデータ分析、リネージマッピングを使用してデータシステムを継続的にモニタリングし、データの問題をリアルタイムで検出・診断することによって機能します。データヘルス(鮮度、ボリューム、スキーマ、分布、リネージ)の5つの主要なディメンションを監視するために使用されるシグナルとテレメトリを収集します。テーブルの更新、クエリログ、ジョブのステータス、アラート、スキーマのメタデータ、行数、依存関係グラフ情報などのシグナルを収集・分析します。

履歴パターン、統計モデル、機械学習、検出アルゴリズムを使用して、自動化されたデータ品質チェックを実行し、パイプライン、ウェアハウス、アプリケーション全体でエンドツーエンドの可視性を確保します。データに障害が発生すると、可観測性ツールはパイプラインの障害、スキーマの変更、ボリュームの減少、コードのデプロイ、上流の停止を分析し、最も可能性の高い原因を自動的に特定してアラートを送信できます。

ダッシュボードと継続的なモニタリングにより、データのサービスレベルアグリーメントを有効化して遵守を徹底し、組織全体におけるデータへの信頼を維持できます。

データ オブザーバビリティ vs. データモニタリング vs. データ品質

オブザーバビリティと従来のモニタリングは関連していますが、従来のモニタリングツールが既知の障害に焦点を当てるのに対し、オブザーバビリティはシステムの動作に対する可視性を提供して、新しい種類の障害の特定と診断を助け、根本原因分析を可能にします。言い換えれば、モニタリングは症状を検出するのに対し、オブザーバビリティは、物事が壊れている理由を示す単なる生のシグナルではなく、コンテキストを提供するためのより深い知見をもたらします。

従来のモニタリングは事後対応的で、既知のメトリクスを追跡し、ルールベースのチェックを行います。そのため、システムが予測可能である場合に最も効果的に機能します。データオブザーバビリティは、3 つの主要なディメンションにわたって、プロファイリング、異常検出、アラート(PPA)のクエリーを実行します。

  • 範囲 – オブザーバビリティ システムがデータ エコシステム全体にわたるデータの問題をどの程度広範囲に把握できるか。
  • 深度 – システムがデータ、メタデータ、パイプラインの動作をどの程度深く分析するか。
  • 自動化 – 手動でのルール作成や介入に対し、システムがどの程度作業を自動で実行するか。

データ可観測性はプロアクティブであり、統計的プロファイリングとMLベースの検出を活用することで、テストやデータ品質ルールの範囲を超え、エンドユーザーが問題に気づく前にきめ細かいリアルタイムの知見とアラートを自動的に提供します。

データオブザーバビリティ、データモニタリング、データ品質ツールは、それぞれ異なる目的を果たしますが、全体として連携して機能し、信頼性が高く高品質なデータを保証します。既知の問題を検出するにはモニタリングが必要です。データ品質ツールは、ルールを使用してデータの内容を検証し、データが正しく、完全で、正確かつ有効であることを保証します。データの可観測性は、未知の問題を検出し、根本原因を診断できます。つまり、モニタリングは問題を捉え、可観測性はより深い可視性を提供し、データ品質はビジネスルールに対する正確性を確保します。

データ可観測性システムのコアコンポーネント

データオブザーバビリティシステムは、メタデータモニタリング、統計分析、異常検出、リネージ、アラート、根本原因分析、ワークフロー統合を組み合わせ、エコシステム全体にわたるデータの健全性と信頼性に対する継続的な可視性を確保します。システムのコアコンポーネントは次のとおりです。

  • メタデータ収集で、すべてのデータシステムからシグナルを取得
  • 通常のデータ動作を理解するためのプロファイリングとベースライン。
  • 異常検知で予期しない問題を自動的に特定します。
  • スキーマ変更のモニタリング: パイプラインが破損する前にdriftを捕捉
  • リネージ追跡で依存関係を把握し、問題を診断。
  • アラートと通知で、問題を適切な担当者に知らせます。
  • 根本原因分析で、問題の発生原因を特定します。
  • 影響分析で、影響を受ける下流のアセットを特定する。
  • インシデント管理で、対応、SLA、ワークフローをサポートします。
  • データ品質:ルールと統計的チェックを組み合わせます。
  • データ全体の健全性を監視するためのダッシュボードと可視化
  • 所有権、ドキュメント化、コンプライアンスを強化するガバナンス統合
  • 自動修復で、自己修復によりダウンタイムを削減します。

データオブザーバビリティによって特定できる一般的なデータの問題

データオブザーバビリティは、従来のモニタリングでは見過ごされがちな広範なデータの問題を特定するのに役立ちます。パイプライン、ストレージシステム、変換、下流のアナリティクス全体で、予期される問題と予期しない問題の両方を検出できます。

パイプラインのエラー、ジョブの破損、ワークフローの遅延が原因でデータが予定通りに到着しない場合に、データ鮮度の問題を明らかにすることができます。

オブザーバビリティは、データの欠損や不完全なデータ、行数の急激な減少、パーティションやファイルの欠落、重複行などのボリュームの問題を検出します。

スキーマドリフトと予期しないフィールドの変更は、下流のジョブに影響を与えるパイプライン破損の主な原因です。

データの内容が過去のパターンから逸脱すると、統計的な異常を引き起こす外れ値、分布のシフト、不正確なレコードが発生する可能性があります。

オブザーバビリティは、データパイプライン全体の信頼性を低下させる信頼性の低い、または一貫性のないアップストリーム ソースと、パイプライン運用の失敗を検出できます。

データオブザーバビリティの実際のユースケース

組織はデータオブザーバビリティを使用して、データのダウンタイムを防ぎ、アナリティクスに対する信頼性を高め、重要なパイプラインを保護し、トラブルシューティングのコストと労力を削減します。以下に、いくつかの実例を示します。

  • 信頼性の高いアナリティクスとレポートの確保 – チームが独自のダッシュボードを構築すると、新しいダッシュボードによって依存関係が壊れたり、クエリーの繰り返しによってパイプラインが遅くなったり、ユーザーが古いデータや誤ったデータを取得したりする可能性があります。オブザーバビリティによって、下流の可視性が得られ、共有データセットの健全性を追跡できるほか、サードパーティ製データソースの信頼性も確保できます。データの鮮度の問題や失敗したアップストリームジョブを即座に検出し、ユーザーが気づく前にアラートを送信できます。
  • データ品質インシデントの検出と防止 – ダッシュボードやレポートに突然異常が表示された場合、データオブザーバビリティは、ドリフト、Null値の急増、整合性の問題、上流の障害を特定するのに役立ちます。場合によっては、パイプラインは正常に実行されても、不正な出力が生成されることがあります。可観測性により、行数の監視、結合とリレーションシップの追跡、分布の異常に関するアラートの送信が可能になります。
  • 機械学習モデルとAIシステムに対する信頼性の向上 – 機械学習モデルとAIモデルは、データドリフトや特徴量の欠損に非常に敏感であり、不適切な決定につながります。可観測性により、特徴量の健全性を追跡し、ドリフトを検出し、データの欠落や遅延、予期しないカテゴリによって引き起こされるアップストリームの障害を特定できます。
  • データ ガバナンスの取り組みをサポート – 医療や金融などの規制対象分野では、データの信頼性が不可欠です。オブザーバビリティは、データ SLA の追跡、リネージの提供、データ健全性履歴の表示、所有権の文書化、エンドユーザーが気付く前の異常の表面化といった機能を通じて、データの信頼性を向上させます。
  • ダウンタイムと運用コストの削減 – データオブザーバビリティは、組織全体のダウンタイムやコスト増につながりかねない問題を早期に検出し、解決時間を短縮し、不良データの拡散を防ぐ上で重要な役割を果たします。

データオブザーバビリティのツールとプラットフォーム

データオブザーバビリティのツールとプラットフォームは、その焦点、機能、データスタックにおける位置に基づいて、いくつかのカテゴリに分類できます。さらに、商用、オープンソース、クラウドネイティブの各オプションがあり、それぞれ機能、コスト、デプロイメント、スケーラビリティ、使いやすさ、そして理想的なユースケースが異なります。

  • エンドツーエンドのデータオブザーバビリティプラットフォームは、システム全体のオブザーバビリティを提供します。主要なプラットフォームに共通する機能には、鮮度モニタリング、自動リネージ、メトリクス、ダッシュボード、メタデータモニタリング、上流および下流の自動リネージ、インシデントアラート、パイプラインの信頼性に関する知見、データライフサイクル全体にわたる根本原因分析などが含まれます。これらはベンダー製で、充実した機能、サポート、自動化を備えています。オブザーバビリティの 5 つの柱すべてをカバーする、最も包括的なオブザーバビリティ プラットフォームです。フルマネージドの ソフトウェア as a サービス (SaaS) であるためインフラストラクチャは不要で、導入とオンボーディングを迅速に行うことができます。
  • データ品質と可観測性ツールは、従来のルールベースのデータ品質と最新の可観測性機能を融合させ、カスタムデータテスト、自動異常検出、プロファイリングと検証、メタデータベースのモニタリング、テストオーケストレーションを提供します。これらのプラットフォームは、組織が手動の品質ルールと自動化された可観測性の両方を組み合わせたい場合に使用されます。
  • パイプライン オーケストレーションのオブザーバビリティ ツールは、コンピュートレイヤー、パイプラインのパフォーマンス、ジョブの信頼性のモニタリングに重点を置いています。主な機能には、タスクレベルの障害検出、レイテンシ モニタリング、再試行分析、依存関係の追跡、オーケストレーション ツールとの統合が含まれます。これらのツールはパイプラインの健全性には強いですが、データレベルでの詳細な知見に欠ける場合があります。
  • リネージに特化したツールは、エンドツーエンドのデータフローをマッピングし、根本原因分析と影響分析を可能にします。リネージに優れており、多くの場合、可観測性シグナルをフローに埋め込みます。
  • オープンソースのオブザーバビリティフレームワークは、セルフホスティングとカスタマイズの柔軟性を提供し、カスタムデータスタックへの拡張性と統合を可能にします。これらのコミュニティ主導のフレームワークは無料ですが、自己管理が必要で、多くの場合、統合、手動での設定、ルールの作成が求められます。そのため、エンジニアリングリソースと高い運用オーバーヘッドを要します。
  • チームがインフラストラクチャとデータの両方にわたるオブザーバビリティを必要とする場合、データオブザーバビリティ拡張機能を備えたクラウドネイティブのモニタリングツールが使用されることがあります。機能はデータ プラットフォーム内に含まれており、通常はウェアハウスとデータレイクに特化したオブザーバビリティに重点を置いているため、デプロイは不要で、運用上のフットプリントは最もシンプルになります。通常、コストは使用量ベースでクラウドベンダーによってサポートされており、予算が少ないチームや、すでにウェアハウスを購入しているチームに最適です。

データオブザーバビリティの導入

データ可観測性に必要なプロセス、ツール、アーキテクチャ、文化を整備するには、戦略、ベストプラクティス、ツールの選択が伴います。以下は、組織が可観測性のプラクティスを導入するための基本的なステップです:

  • オブザーバビリティを実装する目的と、何を最初に優先すべきかを明確にします。
  • 影響が大きくリスクの高いテーブルやパイプラインから始めて、重要なデータ資産を特定します。
  • モデル(オープンソース、商用、またはクラウドネイティブ)を選択します。
  • メタデータ ソース(パイプライン、ウェアハウスとレイク、オーケストレーション、変換フレームワーク、BI ツール、ストリーミング システムなど、すべてのシグナル)を統合します。
  • オブザーバビリティの 5 つの柱(鮮度、ボリューム、スキーマ、分布、リネージ)全体で継続的なモニタリングを実装します。
  • 機械学習と統計モデルを使用して、自動異常検知をデプロイします。
  • 持続可能なプラクティスのために、オブザーバビリティを中心とした DataOps カルチャーを構築します。
  • 通常追跡される主要なメトリクスとヘルスインジケーターには、5つの柱のメトリクスに加えて、データ完全性メトリクス、パイプライン運用メトリクス、データ品質メトリクス、コストとリソース使用量のメトリクス、機械学習の特徴量とモデルのヘルスが含まれます。

課題と考慮事項

チームがデータ可観測性を導入する前および導入中に理解しておくべき、主要な技術的、文化的、運用上の課題と考慮事項は次のとおりです。

  • 大規模なデータ エコシステムの複雑さと無秩序な拡大により、完全なオブザーバビリティの実現がより困難になります。データスタックが異なれば、多くの場合、必要となる統合アプローチも異なります。まずは影響の大きいパイプラインに重点を置きます。データリネージに投資して依存関係を理解し、ドメインをまたいで所有権を確立することが重要です。
  • 依存関係とその上流/下流への影響を管理することは、課題となる可能性があります。パイプラインの一部分でのわずかな変更でも、ダッシュボード、MLモデル、運用システム全体にわたって連鎖的な障害を引き起こす可能性があります。組織にデータリネージと所有権の完全なマップがない場合、依存関係はしばしば属人化された知識となります。
  • 大量のデータボリュームのモニタリングコストは、大規模なwarehouseやレイクをモニタリングすると増加する可能性があります。メタデータが増加し、メタデータとログのストレージコストが増大する可能性があります。そして、テーブルが追加されるたびに、モニタリングコストが段階的に増加します。資産を重要度によって分類し、ビジネスに不可欠な資産に対してはより詳細なモニタリングを適用します。
  • コストを削減するには、運用オーバーヘッドとの間で粒度のバランスを取ることが不可欠です。すべてのデータが詳細なオブザーバビリティを必要とするわけではありません。価値の低いアセットを高頻度でモニタリングすると、コンピュートコストが高くなる可能性があります。複数の機能を備えた単一のプラットフォームは、冗長な機能を持つ 3~4 個の小規模なツールよりもコストが低くなることがよくあります。

まとめ

データはミッションクリティカルなアセットとなり、データシステムはより複雑化、分散化し、変化のスピードを増しています。組織にとって、信頼性の低いパイプライン、壊れたダッシュボード、不正確なメトリクス、ドリフトする機械学習 モデルは、もはや許容できるものではありません。データ可観測性(取り込みパイプラインからストレージ層、下流のアナリティクスに至るまで、データシステム全体にわたるデータの健全性、品質、信頼性、パフォーマンスを継続的にモニタリングするプラクティスとプロセス)は、組織がデータエコシステム全体でデータの問題がビジネスに影響を及ぼす前に検出し、診断し、防止するために不可欠です。

データオブザーバビリティは、問題を早期に検出して下流のアナリティクス、運用、意思決定を改善し、データの信頼性に関する問題がユーザーや消費者に届く前に回避するのに役立ちます。可観測性は、データの信頼性を確保するだけでなく、収益の促進、顧客エクスペリエンスの向上、イノベーションの加速にも役立ちます。

    用語集に戻る