本番環境のワークロードを監視し、問題を調査して、検証可能な修正案を提案するバックグラウンドAIエージェント
によって ビラル・アスラム, レナート・カッツ, Ray Zhu, マイク・デル・バルソ 、 Ori Zohar による投稿
データやAIの業務には、常にメンテナンスの問題がつきまといます。データパイプラインは、コードの問題だけでなく、上流のスキーマ変更やデータの遅延到着といったデータ自体の問題によっても頻繁に破損します。MLモデルはドリフトし、劣化しているモデルは、エラーが発生するはるか前から、自信満々に誤った回答を返し続けます。本番環境でデータやAI資産を安定して稼働させ続ける負担はデータチームにのしかかっており、その負担は増すばかりです。LLMやエージェントツールの台頭により、パイプライン の構築やモデルのリリースはかつてないほど迅速になりました。その結果、データチームは構築よりもトラブルシューティング(火消し)に大半の時間を費やしていると報告しています。
データチームのこのような運用負荷を軽減するために、私たちはGenie ZeroOpsを開発しました。これは、データやAI資産(パイプライン、ジョブ、テーブル、MLモデルなど)を自律的に監視し、問題が発生する前、または発生した際に対処するバックグラウンドエージェントです。Databricks内で動作するため、以下に安全かつ簡単にアクセスできます。
障害が発生するたびに、以下のプロセスが実行されます。
なぜデータやAIの運用に特化したエージェントが必要なのでしょうか?ソフトウェア開発を支援するのと同じコーディングエージェントを使って、同様の結果を得ることはできないのでしょうか?その答えは「いいえ、それは困難です」です。
コーディングエージェントはソフトウェアエンジニアリング向けに構築されていますが、データエンジニアリングとAIは根本的に異なります。
何かが破損した場合は、それを検出し、根本原因を評価・分析し、修正案で修復し、副作用なく動作することを検証する必要があります。
各ステップを検証すると、一般的なコーディングエージェントでは不十分であることがわかります。検出においては、テレメトリなどのコンテキストが不足していたり、Apache Spark™のログのような非常に大きなコンテキストの処理で行き詰まったりすることがあります。評価・分析(根本原因とその影響の特定)においては、リネージデータへのアクセス権がないことがよくあります。また、データやAIの業務に特化したハーネス(実行環境)がないため、プロセスにコストと時間がかかります。コーディングエージェントは修復のためのコードを書くことはできますが、適切に行うためのコンテキストが不足していることが多く、データ関連の問題を解決することはできません。しかし、コーディングエージェントにとって最も困難なステップは「検証」です。
検証を行うには、隔離された環境で実際の本番データに対してコードの修正をテストする必要があります。外部のエージェントに本番データへのアクセス権を与えることはできません。仮に与えたとしても、本番データに対してコードを実行すると、壊滅的な結果をもたらす副作用のリスクがあります。
エージェントが検証ステップを安全に処理するには、データプラットフォーム自体の一部である必要があります。Genie ZeroOpsはDatabricksプラットフォームの一部であり、だからこそコーディングエージェントが失敗する領域で成功を収めることができるのです。
特に機械学習のワークロードは、運用業務に特化したエージェントのメリットを顕著に示しています。
本番環境のMLは、データエンジニアリングにさらなる課題をもたらします。パイプラインにエラーがなくても、モデルが不適切な予測を出力している可能性があるため、パイプラインを稼働させ続けるだけでは不十分です。モデルの出力が依然として信頼できるかどうかを監視する必要があります。
信頼できない場合、Genie ZeroOpsは原因を診断し、修正された候補を作成し、実際のトラフィックに適用する前に検証します。パイプラインの修正については、テーブルのシャロークローンに対して検証を行います。モデルについては、修正された特徴量で候補をトレーニングし、一般的なベンチマークではなく、本番モデルに適用されていたものと同じ評価スイートおよび基準で評価します。測定可能なレベルで改善されている場合にのみ候補を提示し、正式に切り替える前に実際のトラフィックで段階的に適用(ランプアップ)することができます。
これらの修正を信頼できるものにしているのは、コンテキストです。ML向けのGenie ZeroOpsは、Genie CodeやGenie Ontologyと同じ基盤の上に構築されており、DatabricksのMLスタック(Feature Store、MLflow、モデルサービング、ノートブック)とネイティブに統合されています。モデルがどの特徴量を使用しているか、チームがそれをどのように評価しているか、そしてビ ジネスにとって何が「適切」であるかを把握しているため、シニアMLエンジニアと同じように推論することができます。
Genie ZeroOpsが監視する資産と、その実行権限を設定できます。すべてがUnity Catalogのガバナンス下で実行されるため、ユーザー自身の資格情報が許可するデータにのみアクセスできます。課題はインボックス形式のUIに重大度順に表示され、それぞれに根本原因分析と提案された修正案が添えられます。ユーザーの承認なしに本番環境に適用されることはありません。
サンドボックスは、技術的な信頼レイヤーです。シャロークローンにより、修正案は実際のデータでテストされますが、本番環境に影響を与えることはありません。スコープ設定された権限とネットワーク隔離により、サンドボックス環境がその境界の外にアクセスすることはありません。テストされた内容がそのまま適用されます。
これがGenie ZeroOpsの価値です。運用を安全にスケールさせることができます。面倒な作業はエージェントが担当し、ユーザーは常に管理権限を維持できます。
Genie ZeroOpsは、今後数週間以内にプライベートプレビューが開始される予定です。まずはジョブ、パイプライン、テーブル、MLワークロードのサポートから開始します。アプリやLakebaseデータベースもロードマップに含まれています。
早期アクセスをご希望の場合は、Databricksのアカウントチームにお問い合わせください。それまでは、Genie OneやGenie Codeなど、Genieファミリーの他の製品をご覧ください。
(このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事
ブログを購読して、最新の投稿を受信トレイにお届けします。