2023年4月21日

YipitDataがDatabricks Unity Catalogを活用しデータサービスの拡張を実現

Our Migration Journey from Hive metastore to Unity Catalog

によって Anup Segu による投稿

This blog is authored by Anup Segu, Co-Head of Data Engineering at YipitData

Original Blog : YipitData leverages Databricks Unity Catalog to Scale Data Services

YipitDataは、Lakehouseに保存されている15ペタバイト以上の代替データを分析することで、クライアントに日々の市場洞察を提供しています。同社のデータ製品とサービスは、時計仕掛けの正確さと効率でデータ分析を活用する同社の複数のビジネスユニットによって、トップクラスの金融機関や企業から信頼を得ています。同社の内部データプラットフォームでは、200人以上のデータチームが、データエンジニアリングが直接関与することなく、毎日2000以上のETLパイプラインを通じて、大小さまざまなデータセットを独立して処理することができます。YipitDataは、データ運用をさらに拡大するために、メタストアサービスとしてDatabricks Unity Catalogを活用し、堅牢なデータガバナンスを提供するとともに、Lakehouseにある15万以上のテーブルの価値と利用率を高めています。ユニティカタログを通じて、YipitDataはアクティブなデータセットと非アクティブなデータセットを可視化し、BI統合のパフォーマンスを向上させ、クライアントにデータを提供する新しいチャネルを開拓しています。

このブログ記事では、Hiveメタストアの使用からUnity Catalogの採用までの道のりを紹介します。また、Lakehouseアーキテクチャの中心的存在としてUnity Catalogを導入して以来、私たちが経験した数々の利点についても説明します。

さらに詳しく知りたい方は、YipitDataがData + AI Summit 2023で発表するプレゼンテーションをご覧ください。

Hive Metastoreを使用すると、スケーラビリティが損なわれ、データプラットフォームの管理が複雑になり、クライアントとの効果的なデータ共有が制限される

ここ数年、YipitDataはその組織を3倍に拡大し、数多くのデータ製品を通じて100以上の企業やセクターをカバーするようになりました。この間、複数のチームや部署が設立され、様々な独自のビジネス要件が存在するようになりました。あるチームは目的を達成するために幅広いデータアクセスを必要とし、他のチームは内部分析を安全に行うために隔離された環境を必要としています。データエンジニアリング部門とデータプラットフォームが一元化されているため、多くのビジネスチャンスをサポートすることは、技術的な課題となっていました。

Unity Catalogを導入する前、YipitDataのLakehouseは、データ資産を管理するために、クラウドプロバイダーを通じてロールベースのアクセスモデルを持つHiveメタストアに依存していました。設立当初は分かりやすいアーキテクチャでしたが、会社の拡大とともに、プラットフォームを管理するために必要な役割の数が20倍に増えました。新しいチームやプロジェクトの立ち上げは、複雑なインフラ展開のプロセスとなり、製品開発を停滞させることになりました。さらに、データセットが使用されていなかったり、権限の問題で重複していたりして、プラットフォーム利用者を混乱させ、データプラットフォームに負担をかけることになりました。メタストアには非常に多くのテーブルがあり、基礎となるメタデータ操作がタイムアウトするため、多くのBIツールが機能せず、顧客にリッチでインタラクティブなデータ体験を提供するための努力を阻害していました。

さらに、私たちのクライアントの多くは、異なるクラウドで運用されていたり、Hiveメタストアとの統合がうまくいかない様々なデータスタックを使用しています。そのため、当社のデータチームは、異なるクライアントのデータをspark以外の環境に複製し、そこで後処理を行う必要がありました。そのため、ストレージコストの増加やパフォーマンスのボトルネックに繋がっていました。

YipitDataのデータエンジニアリング部門は、このアーキテクチャが実行不可能であることを認識し、確立する新しいデータガバナンスソリューションを探しました：

社内のビジネスユニットやプロジェクトを正確に表現する、オブジェクトベースのアクセスコントロールのFinegrain
数十万テーブルをミリ秒レベルの応答時間でサポートする高パフォーマンスのメタストア
組織全体の既存のテーブルやデータベースを特定し、活用するための検索機能
管理者が全社的なデータフローを追跡するための堅牢な観測可能性と系統情報
将来的にデータアプリケーションの開発を可能にする拡張性の高いAPIを搭載
既存のhiveメタストアとの後方互換性により、スムーズな移行経路を実現
より多くのクライアントが好むクラウドやアナリティクスツールでデータを共有できる柔軟性

Unity Catalogへの移行により、アクセス管理の簡素化、データ観測性の向上、データ共有の強化を実現

Databricksでデータプラットフォームの上記のアーキテクチャのニーズを確認したところ、Unity Catalogは、既存のLakehouseのセットアップにプラグインしながら、きめ細かいアクセスコントロールAPIを提供するため、その機能性においてうまく調和していました。HiveメタストアとLakehouseで管理されているUnity Catalogのデータを同時にクエリできるため、Unity Catalogを起動することは、プラットフォームのほとんどのユーザーにとって苦痛ではありませんでした。時間の経過とともに、チームはすべてのデータ分析にUnity Catalogを完全に利用するようになり、データプラットフォームはHiveメタストアの代わりにUnity Catalogへのクエリーを徐々に切り替えていきました。

移行後、チームはデータベースとパイプラインをUnity Catalogの個別のカタログに割り当てたデータメッシュパラダイムで運用し、ビジネスユニット間のデータ資産の所有権と期待値をDatabricks UIで透明化することができるようになりました。Unityカタログは、デルタテーブルのコピーを1つ保持し、BIツール、DBSQL、Delta Sharingに同時に接続できるため、データ共有の取り組みもブロックされなくなりました。これにより、顧客は以前よりもシンプルな方法で当社の分析を利用できるようになり、社内ではそのような経験のためのデータ準備をリーン、パフォーマンス、およびオープンスタンダードとの一貫性を保つことができるようになりました。

移行完了後、以下のような効果が確認されました：

データエンジニアリングが複雑なクラウドデプロイメントをすることなく、ほとんどの新しいチームやプロジェクトでデータアクセスが提供されるようになりました。
データチームは、DatabricksのUIやREST APIを利用して、データベースやテーブルの主要な属性を、スパーク計算を起動したり、チームメイトの手を煩わせることなく、迅速に発見することができます。
データパイプラインは、テーブルとカラムレベルのリネージデータを利用することで、より耐障害性が向上し、変更の中断を回避し、データの問題をソースまで追跡し、使用されていないテーブルを削除します。
データセットは、デルタ共有とBIツールによって、クライアントがより簡単に利用できるようになります。
クエリされたデータ資産の正確な監査証跡は、セキュリティとデータプラットフォームの管理者が利用でき、会社全体のコンプライアンスポリシーの実施を確認することができます。

データへのアクセスを効率化することで、より早いインサイトと業務効率の向上を実現

Unity Catalogは、ガバナンスの向上、データセットの利用率の向上、外部システムやクライアントからのデータへのアクセスを配慮した形で実現しました。Unity Catalogのメタストアサービスは、テーブルメタデータのレイテンシーがミリ秒レベルという高い性能を持ち、これにより15万を超えるテーブルを整理し、効果的に権限を割り当てることができるようになりました。これにより、以前のRBACアーキテクチャにあったカスタムクラウド基盤リソース（ロール、バケット、バケットポリシー）のうち、～70％が廃止されました。データエンジニアは、Databricks UIとREST APIを使用して、より簡単にデータアクセスをプロビジョニングできるようになり、ビジネスユニットの目標達成に向けてより早くブロックを解除することができます。チームはUnityカタログでデータセットを発見し、自動生成された系統グラフを見ることで、重複するテーブルの統合や未使用のテーブル/テーブルカラムの削除を行うことができるようになりました。このデータレイクのクリーンアップにより、クラウドストレージのコストと計算コストも削減されています。さらに、YipitDataのデータ製品は、BIツールやDelta Sharingを利用したインタラクティブな分析でアクセスできるようになり、データアクセスや取り込みのボトルネックに多大な時間を費やすことなく、お客様が当社からより多くの価値を得られるようになりました。

YipitDataのデータエンジニアリング部門は、メタストアとアクセス管理サービスとしてUnity Catalogを採用し、データプラットフォームへの投資を継続することで、分析サービスの拡大に伴う成功に向けた位置付けに興奮しています。YipitDataは2023 Data + AI Summit に参加し、Unity Catalogを採用するまでの道のり、ベストプラクティス、そしてデータプラットフォームとLakehouseアーキテクチャの将来について詳しく紹介します。

YipitDataがDatabricks Unity Catalogを活用しデータサービスの拡張を実現

Hive Metastoreを使用すると、スケーラビリティが損なわれ、データプラットフォームの管理が複雑になり、クライアントとの効果的なデータ共有が制限される

Unity Catalogへの移行により、アクセス管理の簡素化、データ観測性の向上、データ共有の強化を実現

データへのアクセスを効率化することで、より早いインサイトと業務効率の向上を実現

最新の投稿を受信トレイで受け取る

Sign up