企業が信頼できる、統合されたリアルタイムのデータ基盤
によって ビラル・アスラム, Ray Zhu, Manish Dalwadi, Saad Ansari 、 ジゼル・ゴイコチェア による投稿
すべての分析、AI、アプリケーションはデータから始まります。過去数十年の間に、データエンジニアリングツールはさまざまなユースケースやユーザーペルソナにわたって急増してきました。その結果、ほとんどの企業は、統合、維持、ガバナンスが困難な、非常に複雑で断片化されたデータスタックを抱えることになります。AIがすべてのデータとAI実務者を強力にサポートするようになるにつれ、これらの脆弱なデータスタックにはさらに大きな負荷がかかることになります。
だからこそ私たちは、インジェスチョン(取り込み)から変換、オーケストレーションまで、データエンジニアリングのすべてに対応する統合プラットフォームであるDatabricks Lakeflowの開発に着手しました。すべてのLakeflow機能は完全に統合され、Unity Catalogによって一元的にガバナンスが適用されます。エージェントの時代において、この統合アーキテクチャは大きなメリットをもたらし、エージェントがデータパイプラインを構築するだけでなく、運用することも可能にします。本日、Data + AI Summitにおいて、Databricks Lakeflowの次の大きな進化を発表します。

Genie Codeが、Lakeflowのユーザー体験のあらゆる側面に深く統合されました。Genie Codeを使用して、インジェスチョンコネクタの作成、PythonやSQLでのパイプラインの構築、タスク、トリガー、依存関係を持つジョブの開発を行うことができます。これらはすべて、統合されたデータエンジニアリングスタックによって実現されており、インジェスチョン、変換、オーケストレーションのワークロード全体にわたる完全なエンドツーエンドのコンテキストをGenie Codeに提供します。
一般提供(GA)が開始されたLakeflow Designerは、企業全体でデータエンジ ニアリングを民主化します。このビジュアルでAIを活用したノーコードインターフェースにより、チームはドラッグ&ドロップのキャンバスと自然言語のプロンプトを使用してパイプラインを構築できます。ビジネスアナリストや非技術系のユーザーでも、コードを書くことなく、本番環境に対応したETLパイプラインを構築できます。Designerで構築されたすべてのビジュアルFlowは、本番環境に対応したSpark Declarative Pipeline上でネイティブに動作するため、複雑な引き継ぎをすることなく、変換ロスのない移行を実現します。データエンジニアは、コンテキストを切り替えたりロジックを書き直したりすることなく、その場で直接このコードを簡単にレビューおよび微調整できます。
本日発表されたGenie ZeroOpsは、データチームが本番環境でデータおよびAI資産を運用するのを支援します。Genie ZeroOpsは、データおよびAI資産を監視・管理するために特別に設計されたバックグラウンドAIエージェントです。ZeroOpsは、データ品質メトリクス、エラーログ、Unity Catalogからのリネージデータを使用して、障害を検出し、何が問題だったかを特定する根本原因分析を行います。さらに、修正案を生成し、Unity Catalogによって管理された安全で隔離されたサンドボックス環境で検証します。修正の適用は人間が介在する形(human-in-the-loop)で行われるため、Genie ZeroOpsが面倒な作業をこなし、ユーザーがコントロールを維持できます。エージェントによる開発と同様に、Genie ZeroOpsの機能は、Lakeflowを 備えた統合データスタックによって実現される完全なコンテキスト認識とエンドツーエンドのガバナンスがあって初めて可能になります。
自動化されたパイプラインの価値は、そこを流れるデータの価値によって決まります。完全な「エンタープライズメモリ」を構築し、Databricks GenieのようなAIエージェントをグラウンディングさせるには、ビジネスのあらゆる領域にわたる、ガバナンスが適用された最新のコンテキストへのシームレスなアクセスが必要です。Lakeflow Connectは、増え続けるエンタープライズシステムのリストから最新のデータを、Unity Catalogで管理されたDeltaテーブルに直接段階的にインジェスト(取り込み)することで、このプロセスを簡素化します。
本日、Lakeflow Connectが拡張され、エンタープライズアプリケーション、データベース、ファイルソース、クラウドストレージにわたる100以上のネイティブなマネージドコネクタをサポートすることを発表します。これにより、脆弱なサードパーティ製ツールを排除し、お客様が最も必要とするユースケース向けに最適化されたインジェスチョンパイプラインを実行できるようになります。
専門的なシステムや独自のシステムを導入している組織向けに、Community Connectors(ベータ版)は、Databricks上に構築されたオープンソースのソリューションを提供します。コミュニティから提供されている構築済みのコネクタをデプロイするか、独自のコネクタを構築して、組織内やより広いエコシステム全体で共有できます。
Panasonicは、Lakeflow Connectを使用してSAP、Workday、SharePointからのデータを統合し、脆弱なレガシーETLを、リアルタイムでガバナンスが適用されたインテリジェンスのための単一プラットフォームに置き換えました。
「硬直化したレガシーなETLスタックからDatabricksプラットフォームに移行したことで、当社のBIチームは重要なデータを簡単に発見してアクセスできるよう になり、Power BIの更新時間を50%短縮できました。外部の不整合なデータを、信頼できる本番環境レベルの資産へと変換することで、新たなビジネスの洞察を解き放ち、Panasonicの競争優位性を強化しています。」—Jerry Deng氏、BIディレクター、Panasonic
また、Lakeflow Connect Free Tierにより、組織が大量のインジェスチョンに伴うTCOを恒久的に削減しやすくしています。お客様は毎日自動的に100の無料DBUを受け取ることができ、一般的なマネージドSaaSやデータベースコネクタ全体で、1日あたり最大1億件のレコードをサポートします。
Zerobus Ingestは、メッセージブローカーを必要とせず、組織が大量のイベントデータを処理する方法を変革します。5秒未満のほぼリアルタイムの書き込みと、最大100MB/s(テーブルあたり10GB/s以上)の高いスループットにより、Zerobusはデータをプラットフォームに直接大規模に配信します。
しかし、パフォーマンスが意味を持つのは、プロデューサーが摩擦なく接続できる場合のみです。移行は設定変更と同じくらいシンプルであるべきです。今年初めに一般提供(GA)が開始されて以来、Zerobusは拡張され、データプロデューサーがすでに稼働している環境に対応できるようになりました。
このマルチインターフェースの柔軟性は、グローバル企業にクラウドへの直接的かつ低レイテンシーな架け橋を提供します。たとえば、MetaはZerobus Ingestを使用してオンプレミスのデータセンターとクラウドを橋渡しし、データ駆動型ソリューションの大規模かつ迅速な開発を可能にしています。
「Zerobus IngestとSpark Declarative Pipelinesにより、エンドツーエンドのパイプラインのレイテンシを1分未満に短縮し、価値実現までの時間を短縮することができました。」—Srikanth Sakhamuri氏(Meta、データエンジニアリングリーダー)
データが Unity Catalog で管理された Delta テーブルに格納される と、Databricks Genie などの下流の AI や BI ツールから即座にアクセスできるようになります。エンドツーエンドのリアルタイム分析スタックの一部として、Zerobusがデータを取り込み、Apache Spark™Declarative Pipelines (SDP)のReal-Time Mode(RTM)を使用して処理・変換します。そして、完全にネイティブなリアルタイムエンジン上で動作する新しいデータウェアハウスタイプであるLakehouse//RTが、ミリ秒スケールのパフォーマンスでデータを提供します。
極めて低いレイテンシのストリーミングを実現するには、従来、データチームは複雑で断片化されたアーキテクチャを管理する必要があり、多くの場合、Sparkと並行して Apache Flink などの2つ目の専用エンジンを維持する必要がありました。Databricksは当初、Spark Structured Streaming向けのReal-Time Mode (RTM)を導入することで、この2つのエンジンを併用する複雑さを解決しました。定期的なマイクロバッチから継続的なストリーム処理へと移行することで、RTMは現在、Coinbase、DraftKings、およびMakeMyTripを含むグローバルブランドのパイプラインを支えています。
今回、その同じパワーを統合ETL製品にもたらします。Spark Declarative Pipelines向けのReal-Time Mode (RTM)がパブリックプレビューになりました。SDP向けのRTMは、個別のエンジンを管理する複雑さやコストを伴うことなく、わずか5ミリ秒という極めて低いエンドツーエンドのレイテンシを実現します。クラシックとサーバーレスの両方のコンピュートで利用可能であり、バージョンレス実行、インフラの自動アップグレード、ダウンタイムをほぼゼロに抑えたメンテナンスといったSpark Declarative Pipelinesの運用上のメリットとともに、超低レイテンシのストリーミングを提供します。
次に、Spark Declarative Pipelinesの宣言型API(Append、Auto CDC、インクリメンタルなReplace Where、およびマテリアライズドビューなど)を、Databricksプラットフォームのあらゆる場所で利用でき るようにします。これにより、ユーザーはすでに使い慣れている製品、コンピュートタイプ、ユーザーインターフェースから直接、インクリメンタルなデータ処理を活用できるようになります。これらのAPIはすべて現在Databricks SQLで利用可能であり、数週間以内にはサーバーレスのNotebooksやLakeflow Designerでも利用可能になる予定です。
オーケストレーションは、データパイプラインの管理において最も困難な部分であるべきではありません。複雑な本番環境のDAGの実行、スケジューリング、AIエージェントの起動など、Lakeflow Jobsはこれらすべてのタスクを処理するDatabricksネイティブのオーケストレーションエンジンです。管理されたオーケストレーションとエンドツーエンドのオブザーバビリティをデータライフサイクルのあらゆるレイヤーに導入することで、データチームは Apache Airflow などのレガシーなオーケストレーターを単一の統合プラットフォームに集約しています。
すべてのcronスケジュールは、データがいつ準備できるかを推測しているに過ぎません。Lakeflow Jobsを使用すれば、推測に頼るのをやめ、実際のデータの準備状況に基づいてパイプラインをトリガーできるようになります。自然な言葉を使って、データにおける「準備完了」が何を意味するかを定義するSQLトリガーの作成をGenieに依頼できます 。条件が満たされるとすぐにジョブが実行され、データ契約を遵守し、古いデータが処理されるのを防ぎます。
「Lakeflow Jobsにより、レガシーテクノロジーではアクセスできなかったデータを活用できるようになり、より深く、より信頼性の高いビジネスインサイトを生み出すことができました。」—Sachin Wadhwa氏(The Rank Group、データアーキテクチャ&プラットフォーム担当ディレクター)
Databricksの外部にデータワークフローを持つお客様向けに、Lakeflow Jobsは外部オーケストレーション(External Orchestration)を提供し、統合をゼロから再構築することなく、外部システムへとネイティブに拡張できるようにします。オープンなオペレーターフレームワークを使用することで、Snowflakeジョブのトリガー、カスタムREST APIの起動、SlackやPagerDutyのアラート管理などをシームレスに行うことができます。数時間先になる可能性のある外部条件を待つ間、コンピュートはインテリジェントに一時停止されます。GitHubで40以上のオペレーターの例を公開しており、今後の四半期で数十の管理対象統合を追加する予定です。さらに、すべての資格情報は Unity Catalog を経由し、完全な監査トレイルが保持されます。
Lakeflowは、信頼性の高いエージェント型AIアプリケーションを構築するために必要な、統合されたデータ基盤を提供します。技術的な構成をさらに深く理解し、これらの新機能の実際の動作を確認するには、ハンズオンチュートリアルをご覧いただくか、技術ドキュメントを参照して、次のプロジェクトを開始してください。
構築の準備はできましたか?今すぐLakeflowを体験するには、Databricksを無料でお試しください。
(このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事
ブログを購読して、最新の投稿を受信トレイにお届けします。