シームレスかつ安全にデータへアクセスすることは、いまや多くの企業にとって最大の課題のひとつです。特にその重要性が際立つのが、テクノロジー主導の外部監査においてです。ここでは、トランザクションデータの100%を分析することが新たなスタンダードになりつつあります。こうした監査では、数百億行にもおよぶ財務・業務請求データを精査する必要があります。スケールの大きなインサイトを導き出すには、分析が堅牢であるだけでなく、コスト・時間・品質のバランスを取りながら効率的に行うことが求められます。限られた期間の中で最良の結果を出すためです。最近、KPMGは英国の大手エネルギー供給企業との協業において、Databricks 上の デルタシェアリング を活用し、パフォーマンスのボトルネックを解消させ監査効率と品質を大幅に向上させました。本ブログでは、この取り組みの実際と、Delta Sharing 導入による主なメリットや監査プロセスへの具体的な効果についてご紹介します。ビジネス上の課題公開財務報告の締め切りを達成するために、短い監査期間内に監査対象の請求データの何十億件もの行にアクセスし、分析する必要がありました。これまでは、AWS PostgreSQLにホストされた監査対象の分析環境に依存していました。データ量が増大するにつれて、このセットアップはその限界を示しました:データ量: 私たちのアプローチでは、ルーチンに欠かせない歴史データを分析するために、監査期間を超えて見る必要がありました。このデータセットが年々大幅に増加した結果、最終的にはAWS PostgreSQLの限界を超えました。これにより、私たちは2つの別々のデータベースにデータを分割することを強いられ、それが追加の運用上の負担とコストを発生させました。データ転送: 製造環境から「隔離された」分析用のPostgreSQLデータベースへのデータの移動とコピーにより、遅れが生じ、フレッシュさとアジリティさが欠けていました。クエリパフォーマンスの劣化: PostgreSQLはパラレリズムをサポートしていますが、一つのクエリを実行する際に複数のCPUコアを利用することはできず、最適なパフォーマンスが得られません。リソーシング: 監査対象の分析環境へのアクセスがその資産に限定されていたため、私たちは人材を最適に活用し、新しいチームメンバーを迅速に導入するという課題に直面しました。これらの制約を考慮に入れると、私たちはセキュリティやガバナンスを妥協することなく、効率的にデータにアクセスし、処理することを可能にし、より早い結果を得るための「マシン時間」を減らすことができる、スケーラブルで高性能なソリューションが必要とされました。なぜデルタ共有なのか?デルタシェアリングというオープンなデータ共有プロトコルは、KPMGと監査対象の間でセキュアで効率的なクロスプラットフォームデータエクスチェンジを可能にし、データの複製を排除することで理想的なソリューションを提供しました。PostgreSQLを拡張するのと比べて、Databricksはいくつかの独自の利点を提供しています:大規模データセットの取り扱い: Delta Sharingはペタバイト規模のデータを取り扱うように設計されており、PostgreSQLのパフォーマンス制限を排除します。コスト削減: Delta Sharingは、大規模なデータの複製と転送の必要性を減らすことで、ストレージとコンピューティングのコストを削減しました。柔軟性: 共有データは、PySpark、SQL、BIツールのすべてを使用してDatabricksでアクセスでき、監査成果物へのシームレスな統合を可能にします。デルタテーブル: 私たちはデータの過去の状態に“タイムトラベル”することができます。これは、クライアントのデータモデルで以前に失われていた歴史的なポイントを確認するのに価値がありました。実装アプローチ我々は進行中の監査作業を中断させない方法でデルタシェアリングを導入しました:データ共有: 我々は、必要なテーブルとビューのリスト(JSON形式)をエンティティに提供しました。これらはLakeflow JobsとDelta Sharingを利用して、直接私たちのDatabricks環境で利用できるようになりました。監査対象の組織は、キーを共有してアクセスを提供し、AWSとAzure間での最小限の労力で事前に合意したデータセットを保護する権限を私たちに与えました。Delta Sharingは、プラットフォーム間でデータをコピーまたは移動することなく、このクロスクラウド交換を安全に処理しました。ユニティ・カタログとの統合: ユニティ・カタログは、誰がどのデータにアクセスしたかのフルビジビリティを保持し、権限を管理し、ガバナンスポリシーを適用するための一元的な場所を提供しました。スケジュールされたデータのリフレッシュ: 主要な監査サイクル期間中、データは財務報告のタイムラインと合わせてリフレッシュされました。パフォーマンスの最適化: Databricks内部に移ってから、私たちはPostgreSQLからSpark SQLおよびPySparkへのクエリを刷新しました。Delta Sharingが管理された、使用可能なデータを提供してくれたので、データの移動を管理するよりもパフォーマンスの最適化に注力することができました。測定可能な影響私たちはデルタシェアリングを使用して、何十億件ものメーター読み取りを何百万もの顧客アカウント間でアクセスし、分析しました。我々は複数のKPIでの顕著な改善を観察しました:高速なクエリ: デルタシェアリングは、私たちが大規模なデータタスクのための更なる計算能力を使用することを可能にしました。最も複雑なクエリの一部は、私たちの古いPostgreSQLプロセスに比べて80%以上速く完了しました。例えば、14.5時間から2.5時間に短縮されました。監査品質の向上: マシンの待機時間を減らすことで、私たちは例外、異常なパターン、複雑なエッジケースに焦点を当てるための時間が増えました。これにより、私たちは一部のインスタンスでデータ分析結果を15パーセンテージポイント向上させ、残余サンプリングの負担を軽減することができました。コスト削減: デルタシェアリングを使用することで、私たちはデータの追加コピーを作成する必要を避けることができました。これにより、必要なものだけを保存し、処理したので、ストレージコストと計算コストの両方を削減しました。速やかなアクセス: データがデルタシェアリングを通じて供給されていたため、データの準備を待つ時間が少なくなり、より早く作業を開始することができました。チームへのオンボーディングの容易さ: シームレスに新メンバーをオンボーディングし、SQLとPySparkのコーディングスキルを幅広く活用できます。デルタシェアリングの使用は、私たちの監査プロセスに顕著な違いをもたらしました。私たちは、遅延や手動のデータ移動なしに、クラウドプラットフォーム間で安全にデータにアクセスすることができ、私たちのチームは常に最新の真実の一つから作業を行うことができます。このクロスクラウド機能は、私たちはより速い監査、私たちが協力する監査クライアントに対するより信頼性の高い結果、そしてすべてのステップでのデータアクセス制御を意味します。ー Anna Barrell、監査パートナー、KPMG UK技術的な配慮事項Databricksを使用する際のいくつかの技術的な考慮点:• デルタシェアリング: アーリーアダプターとして、いくつかの機能(例えば、マテリアライズドビューの共有)がまだ利用できない状態でしたが、これらが公開リリースで改善されるのを楽しみにしており、これにより私たちのデルタシェアリングのソリューションを強化する予定です。• レイクフロージョブ : 現在、デルタ共有テーブルの上流ジョブが完了したかどうかを確認する仕組みはありません。一つのスクリプトが完了前に実行され、不完全な出力につながりましたが、これは私たちの完全性と正確性の手順を通じてすぐに特定されました。未来への展望デルタシェアリングは、効率的でスケーラブルな、そしてセキュアなコラボレーションを可能にし、監査データ分析にとって画期的なものであることが証明されました。エネルギー供給者との成功した実装は、クラウドとプラットフォーム間で様々なデータソースを持つクライアントに対するデルタシェアリングの価値を示しています。多くの組織が、財務データの大部分をSAPに保存していることを認識しています。これは、さらに大規模な範囲で効率と品質の原則を適用する追加の機会を提供します。DatabricksとSAPの戦略的パートナーシップを通じて、今年の2月に発表された通り、我々は今やDelta Sharingを通じてSAPデータにアクセスすることが可能になりました。この共同ソリューションは、SAPの10年間で最も速く販売が伸びた製品の一つとなり、私たちがこのデータを利用しつつそのコンテキストと構文を保持することを可能にしています。こうすることで、データがUnity Catalogのもとで完全に統制され、所有全体のコストが最適化されることを確認することができます。私たちが監査を行う組織が変革の道のりを進めるにつれて、KPMGではこの推進力を活用し、それが効率化された監査プロセスにもたらす追加の利点を期待しています。