2023年5月3日

Databricks、dbt Labs、Fivetranと一緒にレイクハウスでモダンデータスタックを構築する5つの理由

Original : Five Reasons to Build your Modern Data Stack on the Lakehouse with Databricks, dbt Labs and Fivetran
translate by junichi.maruyama

数年前、クラウドベースのモダンデータ・プラットフォームによって、アナリティクスとそれを支えるツールが実務者の手に渡るようになり、モダンデータ・スタック（MDS）が登場しました。オンプレミスで慎重にサイズを調整したHadoopクラスタの時代は終わり、瞬時に拡張でき、標準SQLを使用して新世代のETLおよびBIツールに接続できるデータウェアハウスに取って代わられました。レイクハウスパターンは、ここ数年で登場した最新の、そしておそらく最も強力なパターンです。データウェアハウスのシンプルさと拡張性、データレイクのオープン性とコスト面の優位性を一体化させたものです。重要なのは、レイクハウスパターンは厳密に加算型であることです。データ実務家として、あなたは両方の世界のベストを得ることができます。このブログでは、レイクハウス上に最新のデータスタックを構築する5つの理由と、dbtクラウドとFivetran on Databricksが理想的なデータシートソリューションである理由を説明します。

モダンデータスタックのメリット

Modern Data Stackは、企業にとっていくつかのメリットをもたらします：

弾力的でスケーラブル：レガシーシステムは弾力性に欠け、拡張にコストがかかります。MDSはクラウド技術で構築されており、即時の弾力性と使用量に応じた価格設定が可能です。
ETLではなくELT：クラウドファーストのテクノロジーにより、ETLはELTに進化しました。データ変換はデータウェアハウスで実行され、そのスケールとパフォーマンスの恩恵を受けています。
SQL中心：SQLはアナリティクスの共通言語です。データシートは、限られた帯域幅の中央集権的なデータチームに頼るのではなく、アナリストがデータパイプラインを所有できるようにします。データシートに接続するすべてのツールはSQLを使用し、統合を簡素化します。
洞察に集中する：データシートは、データチームがビジネス価値を生み出さない作業ではなく、インサイトとナレッジの生成に集中することを可能にします。例えば、APIやソーススキーマが変化する中で、データシートユーザーは独自にコネクタを構築・保守するのではなく、マネージドコネクタを使用しています。

データウェアハウスはML＆AIにスケールしない

MDSパラダイムは、従来のオンプレミスシステムに比べて多くのメリットをもたらしますが、レガシーデータウェアハウス上に構築すると、MLやAIのワークロードに対応できないという重大な欠点があります。

データウェアハウスは、MLやAIのために設計されたものではありません。データウェアハウスは、大規模なデータのサブセットに対する高速な分析およびBIクエリという1つのユースケースのために設計された40年前の技術です。データサイエンティストはノートブックを使ってデータを探索し、SQLやPythonなどの計算言語やスクリプト言語でコードを書き、トレーニングや推論を実行し、リアルタイムユースケースを含む実験から展開までモデルを作成する。データウェアハウスにはこのような機能がないため、高価でバラバラな製品を購入し、統合し、維持し、管理しなければなりません。

データウェアハウスは、MLやAIの実務担当者のデータニーズに対して拡張性がない。データウェアハウスは、データを独自のフォーマットで保存することで、高速なクエリパフォーマンスを実現しています。ベンダーに縛られるという問題はさておき、データウェアハウスでスケールアップすると、データ処理が法外に高くつくという事実もあります。顧客は、データのサブセットだけをデータウェアハウスにコピーすることに頼っています。これは、すべての履歴データで学習することで恩恵を受ける最新のML/AIとは相容れないものです。

Databricks + dbt Cloud + Fivetranによるレイクハウスのモダンデータスタック

企業はデータドリブンであることの戦略的価値を認識していますが、データ戦略の実現に成功している企業はごくわずかです。レイクハウスは、上記の課題を解決するデータシートの新しい標準として登場しました。レイクハウスは、アナリティクス、BI、データエンジニアリングからデータサイエンス、機械学習まで、多くのデータ活用事例を引き出すのに役立ちます。

レイクハウスの採用と投資は増加の一途をたどっています。400人以上のITリーダーを対象にデータスタックの状況について調査したFoundryの最新レポートでは、3分の2（66％）がデータレイクハウスを利用しており、利用していない人の84％が利用を検討する可能性があるとしています。

このセクションでは、レイクハウスがモダンなデータスタックの最適な基盤となる理由と、Databricks + dbt Cloud + Fivetranでレイクハウス上の独自のデータシートを始める方法についてお伝えします。

1. 統合とオープン

Databricks Lakehouse Platformは、あらゆるデータタイプとあらゆるワークロードを1つのプラットフォームでサポートするレイクハウスパラダイムに基づいて構築されており、従来データエンジニアリング、アナリティクス、BI、データサイエンス、機械学習を分けていたデータサイロを排除しています。データレイクとデータウェアハウスの最良の要素を組み合わせ、データウェアハウスの信頼性、強力なガバナンス、パフォーマンスと、データレイクのオープン性、柔軟性、機械学習のサポートを実現する。アナリティクスチームは、複数のシステムでデータをコピーして変換する代わりに、1つのプラットフォームですべてのデータにアクセスし、データサイエンス担当者と共通のツールスタックを共有することで、運用上のオーバーヘッドを解消することができます。また、セキュリティとガバナンスのモデルも1つで、分析に利用できるすべてのデータ資産を可視化する必要があるチームにとって、データアクセスの問題を解消することができます。

2. MLやAI（LLMを含む）のために一から構築

新しいデータセットをもたらすデータパイプラインが確立されると、企業はデータシート上でMLやAIといった先進的なユースケースに移行したいと考えるようになります。実際、ChatGPTはすべてを破壊し、何千もの組織が生成的AIを唯一最大の技術的変化（および役員室の優先事項）としています。異なるシステム間でデータを同期させ、組織全体の高品質なデータをまとめる必要性は、かつてないほど高まっています。

Databricks Lakehouseは、世界初のオープンソースLLM Dollyを含むLarge Language Modelsを使用して、どのようなデータペルソナでもデータシートアプリケーションで言語モデルの構築と使用を開始できるよう設計されています。つまり、MLチームとアナリティクスエンジニアが同じデータセットで共同作業することで、現実の問題にAIを簡単かつ安価に適用し、ビジネスのためにより良い意思決定を行うことができるようになります。

Databricksの自動クラスタ管理、フィーチャーストア、コラボレーティブノートブックなどのMLライフサイクルの基礎的な機能は、企業を効率化する生産性の向上を実現しながら、数百万ドルを節約しています。例えば、以下のようなことです、

コカ・コーラ社のCONA Servicesは、DatabricksをMLのライフサイクル全体に使用し、数十万店舗のサプライチェーンを最適化して600万ドル以上の節約を実現しています。
アムジェン社は、データサイエンスとの連携を強化し、創薬を加速させ、5,000万ドル以上の運用コストを削減しました。
Via社は、機械学習を活用して正確な需要予測を行い、計算コストを25%削減し、生産性の向上により390万レアルを節約しました。

3. ビジネスクリティカルなユースケースに対応したストリーミング

組織は、センサーやウェブなどから、膨大な戦略的価値を提供するシステム生成データを大量に収集しています。このデータをレガシーデータウェアハウスで処理するのは非常に難しく、コストもかかります（特にAIやMLのワークロードの場合）。そこで、レイクハウスが輝きを放ちます！Databricks Lakehouse Platformは、Apache Sparkのスケーラブルで耐障害性の高いストリーム処理エンジンであるSpark Structured Streamingをベースに構築されており、ストリーミングデータをスケールアップして処理します。

レイクハウスのインフラ統合のテーマに忠実に、データチームはストリーミングワークロードをバッチワークロードと同じプラットフォームで実行することができます。Databricksにおけるストリーミングワークロードの成長は驚異的で、1週間のストリーミングジョブ数は3年間で数千から数百万に増加し、この速度は現在も加速しています。Databricks Lakehouse Platformは、バッチからリアルタイム処理への移行をよりシンプルにし、運用コストを下げ、データシートのTCOを改善します。

4. 業界トップクラスの価格性能

Databricksは、業界をリードするデータウェアハウス機能をデータレイク上で直接開発し、1つのデータレイクハウスアーキテクチャで両方の世界のベストを実現しています。Databricks SQLは、サーバーレスデータウェアハウスで、従来のクラウドデータウェアハウスよりも最大12倍の価格/性能で、すべてのSQLとBIアプリケーションをスケールアップして実行できます。アナリティクスチームは、Tableau、Power BI、Lookerといった最も一般的なBIツールへのネイティブコネクタを使用してクエリ、インサイトを発見、共有するか、内蔵のSQLエディタ、可視化、ダッシュボードを使用するかを選択することができます。デモやサクセスストーリーはこちらでご確認ください。

Databricks SQLには、Databricks Lakehouse Platformの次世代エンジンであるPhotonが搭載されており、非常に高速なクエリパフォーマンスを低コストで実現し、分析チームにインタラクティブなワークロードを最大3～8倍高速化、ETLの計算コストを1/5、平均TCOを30%削減します。

Databricksは、クエリパフォーマンスを高速化し、TCOを改善する最適化機能を備えているため、データチームは反復作業を行い、より早くビジネス価値を獲得することができます。また、より多くの並行処理に対応するために、自動的にシステムを拡張します。Databricks SQL（DBSQL）のサーバーレスコンピュートが利用できることで、すべてのアナリストや分析エンジニアは、基盤となるインフラを気にすることなく、最も完全で新鮮なデータを取り込み、変換し、クエリすることができます。

5. パートナーとの活気に満ちた成長するエコシステム

Databricks Lakehouse Platformは、データおよびAIツールの広大なエコシステムへの接続性を提供します。これには、dbt CloudやFivetranとのネイティブ製品統合が含まれ、LakehouseにおけるアナリティクスとMLの上流にある自動ELTソリューションが実現します。

Fivetranは、Databricks Lakehouse Platform上で安全でスケーラブルなリアルタイムのデータ統合ソリューションを提供します。データベース、SaaSアプリケーション、イベント、ファイルへの300以上の組み込みコネクタが、正規化された状態のデータをDelta Lakeに自動的に統合します。Fivetranの負担の少ないログベースの変更データ取得（CDC）により、オンプレミスとクラウドのデータベースをリアルタイムで簡単に複製し、レイクハウスで高速かつ継続的なデータ配信を実現します。

Databricks Partner Connectにより、アナリティクスチームはdbt Cloudに即座に接続し、本番レベルのデータ変換をレイクハウス上で直接構築することができます。アナリティクスエンジニアは、すべてのデータへのアクセスを簡素化し、すべてのアナリティクスとAIワークロードのための統一されたオープンでスケーラブルなlakehouseプラットフォーム上でその場で最も新鮮なデータを共同で探索、変換、クエリできます。

お客様の声

コンデナスト社、マルチメディアコンテンツを世界規模で提供

多くの大企業がそうであるように、コンデナスト社もデータをサイロ化したシステムで保管していました。グローバル展開を計画する中で、Condé Nastはデータアーキテクチャが複雑すぎて、同社が必要とするスケーラビリティを実現できていないことに気づきました。

コンデナスト社は、dbt CloudとFivetranをDatabricks Lakehouseと一緒に導入し、すべてのデータチームが同じデータセットにアクセスできるようにしました。これにより、データウェアハウスエンジニアは、分析、機械学習アプリケーション、レポーティングのためのデータモデルを迅速に構築することができるようになりました。

“dbt CloudとDatabricks Lakehouseのおかげで、パーソナライゼーションモデルや解約モデルを構築するデータサイエンティストは、マーケターやアナリストがアクティベーションやビジネスインサイトに使用するのと同じデータセットをようやく使用できるようになりました」とコンデナスト社のデータエンジニアリング＆データウェアハウス担当シニアディレクター、Nana Essumanは報告しました。「これにより、データエンジニアへの依存度が下がり、生産性が飛躍的に向上しました。また、データインフラ全体が1つのプラットフォームで稼働しているため、コストを監視・管理するのも非常に簡単です。”

Read the full customer story here. More information about the Fivetran workflow is here.

Databricks、dbt Cloud、Fivetranでモダンなデータワークロードを解き放つ

ここに見られるように、レイクハウスは現代のデータスタックにとって最高の家として機能します。Databricks、dbt Cloud、Fivetranは、データエンジニアリング、アナリティクス、BI、データサイエンス、機械学習を分離・複雑化するデータサイロを排除する統一アプローチで、現代のデータスタックを簡素化します。

Databricks、Fivetran、dbt Labsの共同創設者から、なぜレイクハウスがあらゆるデータとAIのユースケースに適したデータアーキテクチャであるのかを聞いてください。今すぐ登録すると、Databricksの認定資格取得に必要な100ドルのクレジットがもらえます。

Fivetranとdbt CloudをDatabricksと統合することで、独自のモダンなデータスタックを構築しましょう。また、Databricks Lakehouseでは「Fivetranとdbtを使ったマーケティングアナリティクスソリューション」のデモプロジェクトも用意しています。dbt Cloud on Databricksについてもっと知りたい方は、dbt with Databricks step-by-step trainingをお試しください。