2026年6月16日

Lakeflow：エージェント型データエンジニアリングの新時代

企業が信頼できる、統合されたリアルタイムのデータ基盤

によってビラル・アスラム, Ray Zhu, Manish Dalwadi, Saad Ansari 、ジゼル・ゴイコチェアによる投稿

エージェンティックAIのための統合基盤：Lakeflowは、インジェスチョン、変換、オーケストレーションをUnity Catalogの下で統合し、ツールの乱立によるギャップを解消して、AIエージェントに信頼できるリアルタイムのコンテキストの単一ソースを提供します。
高性能なインジェスチョンとストリーミング：Lakeflow Connectで100以上のエンタープライズデータソースに接続し、Zerobus Ingestの複数のインターフェースを介して大量のイベントデータをストリーミングし、Spark Declarative PipelinesのReal-Time Modeでミリ秒単位のレイテンシを実現します。
エージェンティックな開発と運用：Lakeflow Designerでパイプラインを視覚的に構築し、Genie Codeで作成を加速し、Genie ZeroOpsで運用負荷を削減し、Lakeflow Jobsでレガシーなオーケストレーターを統合します。

すべての分析、AI、アプリケーションはデータから始まります。過去数十年の間に、データエンジニアリングツールはさまざまなユースケースやユーザーペルソナにわたって急増してきました。その結果、ほとんどの企業は、統合、維持、ガバナンスが困難な、非常に複雑で断片化されたデータスタックを抱えることになります。AIがすべてのデータとAI実務者を強力にサポートするようになるにつれ、これらの脆弱なデータスタックにはさらに大きな負荷がかかることになります。

だからこそ私たちは、インジェスチョン（取り込み）から変換、オーケストレーションまで、データエンジニアリングのすべてに対応する統合プラットフォームであるDatabricks Lakeflowの開発に着手しました。すべてのLakeflow機能は完全に統合され、Unity Catalogによって一元的にガバナンスが適用されます。エージェントの時代において、この統合アーキテクチャは大きなメリットをもたらし、エージェントがデータパイプラインを構築するだけでなく、運用することも可能にします。本日、Data + AI Summitにおいて、Databricks Lakeflowの次の大きな進化を発表します。

Lakeflow: Connect、Spark Declarative Pipelines、Jobs、Designer

Genie CodeとLakeflow Designer：エージェントによるパイプライン開発

Genie Codeが、Lakeflowのユーザー体験のあらゆる側面に深く統合されました。Genie Codeを使用して、インジェスチョンコネクタの作成、PythonやSQLでのパイプラインの構築、タスク、トリガー、依存関係を持つジョブの開発を行うことができます。これらはすべて、統合されたデータエンジニアリングスタックによって実現されており、インジェスチョン、変換、オーケストレーションのワークロード全体にわたる完全なエンドツーエンドのコンテキストをGenie Codeに提供します。

一般提供（GA）が開始されたLakeflow Designerは、企業全体でデータエンジニアリングを民主化します。このビジュアルでAIを活用したノーコードインターフェースにより、チームはドラッグ＆ドロップのキャンバスと自然言語のプロンプトを使用してパイプラインを構築できます。ビジネスアナリストや非技術系のユーザーでも、コードを書くことなく、本番環境に対応したETLパイプラインを構築できます。Designerで構築されたすべてのビジュアルFlowは、本番環境に対応したSpark Declarative Pipeline上でネイティブに動作するため、複雑な引き継ぎをすることなく、変換ロスのない移行を実現します。データエンジニアは、コンテキストを切り替えたりロジックを書き直したりすることなく、その場で直接このコードを簡単にレビューおよび微調整できます。

Genie ZeroOps：データとAIの運用をオートパイロットに

本日発表されたGenie ZeroOpsは、データチームが本番環境でデータおよびAI資産を運用するのを支援します。Genie ZeroOpsは、データおよびAI資産を監視・管理するために特別に設計されたバックグラウンドAIエージェントです。ZeroOpsは、データ品質メトリクス、エラーログ、Unity Catalogからのリネージデータを使用して、障害を検出し、何が問題だったかを特定する根本原因分析を行います。さらに、修正案を生成し、Unity Catalogによって管理された安全で隔離されたサンドボックス環境で検証します。修正の適用は人間が介在する形（human-in-the-loop）で行われるため、Genie ZeroOpsが面倒な作業をこなし、ユーザーがコントロールを維持できます。エージェントによる開発と同様に、Genie ZeroOpsの機能は、Lakeflowを備えた統合データスタックによって実現される完全なコンテキスト認識とエンドツーエンドのガバナンスがあって初めて可能になります。

Lakeflow Connect：100以上の組み込みコネクタを備えた急成長中のエコシステム

自動化されたパイプラインの価値は、そこを流れるデータの価値によって決まります。完全な「エンタープライズメモリ」を構築し、Databricks GenieのようなAIエージェントをグラウンディングさせるには、ビジネスのあらゆる領域にわたる、ガバナンスが適用された最新のコンテキストへのシームレスなアクセスが必要です。Lakeflow Connectは、増え続けるエンタープライズシステムのリストから最新のデータを、Unity Catalogで管理されたDeltaテーブルに直接段階的にインジェスト（取り込み）することで、このプロセスを簡素化します。

本日、Lakeflow Connectが拡張され、エンタープライズアプリケーション、データベース、ファイルソース、クラウドストレージにわたる100以上のネイティブなマネージドコネクタをサポートすることを発表します。これにより、脆弱なサードパーティ製ツールを排除し、お客様が最も必要とするユースケース向けに最適化されたインジェスチョンパイプラインを実行できるようになります。

エンタープライズナレッジマネジメント：Jira（ベータ版）、GitHub（ベータ版）、およびConfluence（GA）のビジネスデータを、SharePoint（GA）、Google Drive（ベータ版）、およびOutlook（ベータ版）の非構造化ドキュメント、契約書、PDFとともに統合します。単一の基盤上で、コンテキストを認識するAIアプリケーション、サポートエージェント、インテリジェントなドキュメント処理を強力にサポートします。
MarTech：Meta Ads（ベータ版）、TikTok Ads（ベータ版）、Google Ads（ベータ版）、およびHubSpot（GA）からキャンペーンデータや顧客データを直接インジェストし、リアルタイムのパーソナライズを推進します。
IT＆セキュリティ運用：ログとテレメトリを一元化し、堅牢なSIEM分析を実現します。
すべてのデータベースコネクタとLakehouse Federationソース向けのクエリベースのキャプチャ（GA）： ログ解析を必要とせず、データベースに直接クエリを実行して変更をキャプチャします。

専門的なシステムや独自のシステムを導入している組織向けに、Community Connectors（ベータ版）は、Databricks上に構築されたオープンソースのソリューションを提供します。コミュニティから提供されている構築済みのコネクタをデプロイするか、独自のコネクタを構築して、組織内やより広いエコシステム全体で共有できます。

Panasonicは、Lakeflow Connectを使用してSAP、Workday、SharePointからのデータを統合し、脆弱なレガシーETLを、リアルタイムでガバナンスが適用されたインテリジェンスのための単一プラットフォームに置き換えました。

「硬直化したレガシーなETLスタックからDatabricksプラットフォームに移行したことで、当社のBIチームは重要なデータを簡単に発見してアクセスできるようになり、Power BIの更新時間を50%短縮できました。外部の不整合なデータを、信頼できる本番環境レベルの資産へと変換することで、新たなビジネスの洞察を解き放ち、Panasonicの競争優位性を強化しています。」—Jerry Deng氏、BIディレクター、Panasonic

また、Lakeflow Connect Free Tierにより、組織が大量のインジェスチョンに伴うTCOを恒久的に削減しやすくしています。お客様は毎日自動的に100の無料DBUを受け取ることができ、一般的なマネージドSaaSやデータベースコネクタ全体で、1日あたり最大1億件のレコードをサポートします。

Zerobus Ingest：データプロデューサー向けのKafka不要のインジェスチョン

Zerobus Ingestは、メッセージブローカーを必要とせず、組織が大量のイベントデータを処理する方法を変革します。5秒未満のほぼリアルタイムの書き込みと、最大100MB/s（テーブルあたり10GB/s以上）の高いスループットにより、Zerobusはデータをプラットフォームに直接大規模に配信します。

しかし、パフォーマンスが意味を持つのは、プロデューサーが摩擦なく接続できる場合のみです。移行は設定変更と同じくらいシンプルであるべきです。今年初めに一般提供（GA）が開始されて以来、Zerobusは拡張され、データプロデューサーがすでに稼働している環境に対応できるようになりました。

Kafka互換API（ベータ版）：既存のKafkaプロデューサーがデータをDatabricksに直接プッシュします。コードの変更は不要です。
gRPCおよびREST API（GA）：高パフォーマンスアプリケーション向けの永続的なgRPCストリーム、またはWebhookやサーバーレス関数向けのステートレスなREST API。
SDKエコシステム（GA）：Python、Java、Rust、Go、TypeScript向けの本番環境対応SDKにより、Zerobusをカスタムアプリケーションに直接簡単に組み込むことができます。
OpenTelemetry（パブリックプレビュー）：設定を変更するだけで、メトリクス、トレース、ログをレイクハウスに直接送信できます。

このマルチインターフェースの柔軟性は、グローバル企業にクラウドへの直接的かつ低レイテンシーな架け橋を提供します。たとえば、MetaはZerobus Ingestを使用してオンプレミスのデータセンターとクラウドを橋渡しし、データ駆動型ソリューションの大規模かつ迅速な開発を可能にしています。

「Zerobus IngestとSpark Declarative Pipelinesにより、エンドツーエンドのパイプラインのレイテンシを1分未満に短縮し、価値実現までの時間を短縮することができました。」—Srikanth Sakhamuri氏（Meta、データエンジニアリングリーダー）

データが Unity Catalog で管理された Delta テーブルに格納されると、Databricks Genie などの下流の AI や BI ツールから即座にアクセスできるようになります。エンドツーエンドのリアルタイム分析スタックの一部として、Zerobusがデータを取り込み、Apache Spark™Declarative Pipelines (SDP)のReal-Time Mode（RTM）を使用して処理・変換します。そして、完全にネイティブなリアルタイムエンジン上で動作する新しいデータウェアハウスタイプであるLakehouse//RTが、ミリ秒スケールのパフォーマンスでデータを提供します。

Spark Declarative Pipelines：バッチとストリーミング、SQLとPython、そしてリアルタイムへ

極めて低いレイテンシのストリーミングを実現するには、従来、データチームは複雑で断片化されたアーキテクチャを管理する必要があり、多くの場合、Sparkと並行して Apache Flink などの2つ目の専用エンジンを維持する必要がありました。Databricksは当初、Spark Structured Streaming向けのReal-Time Mode (RTM)を導入することで、この2つのエンジンを併用する複雑さを解決しました。定期的なマイクロバッチから継続的なストリーム処理へと移行することで、RTMは現在、Coinbase、DraftKings、およびMakeMyTripを含むグローバルブランドのパイプラインを支えています。

今回、その同じパワーを統合ETL製品にもたらします。Spark Declarative Pipelines向けのReal-Time Mode (RTM)がパブリックプレビューになりました。SDP向けのRTMは、個別のエンジンを管理する複雑さやコストを伴うことなく、わずか5ミリ秒という極めて低いエンドツーエンドのレイテンシを実現します。クラシックとサーバーレスの両方のコンピュートで利用可能であり、バージョンレス実行、インフラの自動アップグレード、ダウンタイムをほぼゼロに抑えたメンテナンスといったSpark Declarative Pipelinesの運用上のメリットとともに、超低レイテンシのストリーミングを提供します。

次に、Spark Declarative Pipelinesの宣言型API（Append、Auto CDC、インクリメンタルなReplace Where、およびマテリアライズドビューなど）を、Databricksプラットフォームのあらゆる場所で利用できるようにします。これにより、ユーザーはすでに使い慣れている製品、コンピュートタイプ、ユーザーインターフェースから直接、インクリメンタルなデータ処理を活用できるようになります。これらのAPIはすべて現在Databricks SQLで利用可能であり、数週間以内にはサーバーレスのNotebooksやLakeflow Designerでも利用可能になる予定です。

Lakeflow Jobs：50以上の統合に対応

オーケストレーションは、データパイプラインの管理において最も困難な部分であるべきではありません。複雑な本番環境のDAGの実行、スケジューリング、AIエージェントの起動など、Lakeflow Jobsはこれらすべてのタスクを処理するDatabricksネイティブのオーケストレーションエンジンです。管理されたオーケストレーションとエンドツーエンドのオブザーバビリティをデータライフサイクルのあらゆるレイヤーに導入することで、データチームは Apache Airflow などのレガシーなオーケストレーターを単一の統合プラットフォームに集約しています。

データとコンテキストを認識するオーケストレーション

すべてのcronスケジュールは、データがいつ準備できるかを推測しているに過ぎません。Lakeflow Jobsを使用すれば、推測に頼るのをやめ、実際のデータの準備状況に基づいてパイプラインをトリガーできるようになります。自然な言葉を使って、データにおける「準備完了」が何を意味するかを定義するSQLトリガーの作成をGenieに依頼できます。条件が満たされるとすぐにジョブが実行され、データ契約を遵守し、古いデータが処理されるのを防ぎます。

「Lakeflow Jobsにより、レガシーテクノロジーではアクセスできなかったデータを活用できるようになり、より深く、より信頼性の高いビジネスインサイトを生み出すことができました。」—Sachin Wadhwa氏（The Rank Group、データアーキテクチャ＆プラットフォーム担当ディレクター）

あらゆる場所のあらゆるものを対象とするユニバーサルオーケストレーション

Databricksの外部にデータワークフローを持つお客様向けに、Lakeflow Jobsは外部オーケストレーション（External Orchestration）を提供し、統合をゼロから再構築することなく、外部システムへとネイティブに拡張できるようにします。オープンなオペレーターフレームワークを使用することで、Snowflakeジョブのトリガー、カスタムREST APIの起動、SlackやPagerDutyのアラート管理などをシームレスに行うことができます。数時間先になる可能性のある外部条件を待つ間、コンピュートはインテリジェントに一時停止されます。GitHubで40以上のオペレーターの例を公開しており、今後の四半期で数十の管理対象統合を追加する予定です。さらに、すべての資格情報は Unity Catalog を経由し、完全な監査トレイルが保持されます。

Lakeflowを使い始める

Lakeflowは、信頼性の高いエージェント型AIアプリケーションを構築するために必要な、統合されたデータ基盤を提供します。技術的な構成をさらに深く理解し、これらの新機能の実際の動作を確認するには、ハンズオンチュートリアルをご覧いただくか、技術ドキュメントを参照して、次のプロジェクトを開始してください。

構築の準備はできましたか？今すぐLakeflowを体験するには、Databricksを無料でお試しください。

(このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事