データとインテリジェンスのギャップを埋める
によって Stephen Hage, Keerthi Josyula 、 Michael Zhang による投稿
NVIDIAの「2025 State of AI in Telecommunications」レポートによると、通信事業者の幹部の97%が、顧客体験の向上、ネットワーク運用の改善、コスト削減のためにAIを評価または導入しています。多くの企業がパイロット段階を超え、プラスのROIを生み出しています。しかし、AIの可能性は、その実現を常に上回っています。
ここにパラドックスがあります。通信事業者はかつてないほどのデータを保有しているにもかかわらず、AIイニシアチブは本番環境へのスケールアップ前に一貫して停滞しています。モバイル技術は3Gから4G、5Gへと進化し、さらに進化しています。ブロードバンドのイノベーションは、既存のファイバーからより多くのスループットを引き出します。MVNOは容量を再販し、タワー会社は数千のサイトを調整し、地域キャリアはレガシーインフラストラクチャを近代化します。それらのすべてでデータ量は指数関数的に増加していますが、これら の取り組みは約束を果たせていません。
なぜでしょうか?基盤モデルは Humanity's Last Exam(数学、古代言語、高度に専門化されたサブフィールドにわたる2,500の質問ベンチマーク)に合格したことで注目を集めていますが、あなたのビジネスはチャーン予測、メッセージングのパーソナライズ、ネットワーク障害の原因分析のサポート、そして数千もの他の運用上の課題を解決する必要があります。大学院レベルの物理学を完璧にこなすモデルでも、あなたの運用コンテキストで「サイト」、「タワー」、「CDR」が何を意味するかを理解する上では、劇的に失敗する可能性があります。
ボトルネックは、モデルの品質、チップへのアクセス、または処理能力ではありません。World Economic ForumのAI Governance Allianceのレポートによると、AIを大規模に実装する上での最大の課題は、「クリーンで質の高い、利用可能なデータ」の不足であり、信頼性の低い品質、アクセス可能性、および妥当性によって悪化しています。彼らはこれをデータデットと呼んでいます。これは、技術的負債の目に見えない双子であり、断片化、ガバナンス不足、または意味論的な不透明さのために価値を引き出せない膨大なデータプールを表しています。
ここに不都合な真実があります。あなたの組織が自身のデータランドスケープを効率的にナビゲートできない場合、アナリストが権威あるソースを探したり、矛盾する定義を調和させたりするのに数日を費やす場合、AIエージェントも同様の摩擦を引き継ぐことになります。AIは組織の複雑さを魔法のように回避するのではなく、既存の構造(または構造の欠如)を増幅します。
基盤モデルはあなたのビジネスを差別化しません。チップやツールも同様です。あなたのエンタープライズデータとその周辺のコンテキストが競争優位性を作り出します。プラットフォームは、そのデータを効果的に使用するのに役立ちます。データへの統一されたアクセスとそれを取り巻く意味論が、AI対応へのギャップを埋めます。
今日のほとんどの通信事業者はレイクハウスを導入していますが、ネットワークテレメトリログ、サービスチケット、PDF契約などの非構造化コンテンツの大部分は、まだそこに含まれていない場合があります。それが、部分的なAIの成功と継続的な逆風の両方を説明しています。
CSVファイルをチャットインターフェースにアップロードすると、表面的な質問にどれだけ早く答えられるかがわかります。しかし、複雑な質問をしたり、蓄積された長年の技術的負債をナビゲートしようとすると、その印象は崩壊します。データの上に構築された適切に作成されたセマンティックレイヤーは、「印象的なデモ」と「本番AI」の間のギャップを埋めます。
このセマンティックレイヤーには、3つの主要な統合が必要です。
データは、Amdocs、Oracle、Teradata、Snowflake、Salesforce、ServiceNowなど、数十のシステムに分散しています。それぞれが独自のスキーマ規則、命名パターン、およびビジネスロジックを使用しています。これらのソースをフェデレートおよび調和させるメタレイヤーがな い場合、AIエージェントは、どのシステムの「customer_id」が実際に同じ顧客を表しているかについて推測を行います。これらの推測は、サポートチケットを間違ったアカウントにルーティングしたり、顧客がすでに購入した製品を推奨したりすると、本番環境で失敗します。
通信事業者におけるAIエージェントに関するGoogleの2025年の調査によると、通信事業者の幹部の35%が、LLMプロバイダーを選択する際にデータプライバシーとセキュリティを最優先事項として挙げています。GDPR、CMMC、CUIデータ処理などの規制要件、および通信事業者固有の要件を考慮すると、これは理にかなっています。CPNIルールは、キャリアが通話記録と位置データをどのように保護するかを管理し、CALEAは、キャリアが不正アクセスからネットワークを保護することを要求します。
分析の麻痺の最大の原因は、多くの場合、セキュリティ要件に関する不確実性から生じます。管理記録、契約、顧客データ、許可文書、およびネットワーク構成はそれぞれ、ゼロトラスト認証からドメイン間の分析的透明性まで、異なるコンプライアンス基準を持っています。異なる部門やツールにサイロ化されたガバナンスは、コンプライアンスが破綻し、プロジェクトが停滞するギャップを生み出します。顧客データでトレーニングされたAIエージェントは、5つの異なるバックエンドシステムにクエリを送信する場合でも、サポート担当者に情報を提供する際にCPNIマスキングルールを尊重する必要があります。
World Economic Forumは、「AIモ デルの成功は、複数のソースからデータを取得、相関、分析できる強力なデータ基盤に依存し、多様なユースケースのための統合された分散型アクセスを可能にする」と述べています。この基盤は、メタデータ、リネージ、ビジネス定義、および使用パターンを網羅しています。AIエージェントがデータにクエリを実行するとき、それは「network_performance」という名前の3つのテーブルのうちどれが権威あるかを知っていますか?「FTTH」と「fiber to the home」が同じ概念を表していることを理解していますか?推奨を行う前に、データ品質と鮮度を判断できますか?
これらは仮説的な質問ではありません。これらが、AIプロジェクトが本番環境で失敗する理由を説明しています。
Databricks Unity Catalogは、レイクハウス全体にわたる統一されたガバナンスおよびメタデータレイヤーを提供することで、これらの課題に対処します。しかし、テクノロジーだけでは組織の問題は解決しません。実行には、データ、デプロイメント、およびガバナンスに関する明確なアーキテクチャ標準と、Unity Catalogが組織の信頼できる情報源として機能するという権威ある権限が必要です。
データは、オンプレミスシステム、Snowflakeなどのクラウドプラットフォーム、さまざまなSaaSツール、および複数のDatabricksワークスペースに分散しています。Unity Catalogは、さまざまなシナリオに適した複数の統合パターンを通じてレイクハウスアーキテクチャを可能にします。
Delta Sharingは、組織やプラットフォーム間で安全なゼロコピーデータ共有を可能にすることでデータレプリケーションのコストを排除します。受信者は、クラウドストレージ内の同じ基盤となるデータファイルをクエリします。Salesforce Data CloudおよびSAPとのネイティブ統合により、このパターンがCRMおよびERPデータに拡張されます。
Lakeflow Connectorsは、エンタープライズシステムからのマネージド取り込みを提供し、リネージを維持しながら更新頻度を維持します。このアプローチは、ストレージとアクセスパターンを最適化することで、頻繁にクエリされるデータセットに対して純粋なフェデレーションよりも優れたパフォーマンスを発揮します。
Lakehouse Federationは、接続を使用して、すべてをレプリケートすることなく、外部システムからDatabricksに直接データを読み取り、結合します。AIエージェントは、単一のワークフローでOracleの請求テーブル、Snowflakeの 分析、およびDatabricksのレイクハウスをクエリできます。
このアーキテクチャにより、AIエージェントは適切な集計レベルでデータにアクセスできます。請求異議申し立てエージェントが顧客の苦情を調査するとき、毎秒数百万件のイベントが発生する生のテレメトリログをスキャンするのではなく、検証、重複排除、および顧客コンテキストで強化されたGoldレイヤーの概要をクエリします。これにより、関連性のない詳細でエージェントを圧倒することによるハルシネーションを防ぎます。
歴史的に、Delta LakeとApache Icebergの間の摩擦は組織的な分断を生み出し、異なるチームが異なる形式を標準化していました。これにより、簡単に相互作用できないデータの島が形成されましたが、形式の選択は本当の障害ではありません。何をする必要があるかを理解し、誰が重い作業を行うかを決定することが、はるかに重要です。
Unity Catalogは、DeltaとIcebergの両方の形式をファーストクラスでサポートしています。単一のインターフェースを通じてどちらの形式にも読み書きできます。既存のIcebergテーブルは、同じカタログ内の新しいDeltaテーブルと共存し、同じAIエージェントによってクエリされ、同じポリシーによってガバナンスされます。両方の形式が統一されたガバナンスレイヤーで均等に参加する場合、形式の議論は消えます。
Unity Catalogは、テーブルフォーマットを超えて、包括的なテーブルと列の説明を維持します。非構造化データをVolumesで管理します。PDF、 ログ、テレメトリストリーム、画像、音声ファイルは、構造化テーブルと同じタグ付けとポリシー適用を受けます。これにより、AIエージェントは構造化テーブルと非構造化コンテキストを整合性の取れた方法で取得できます。
Unity Catalogは、レイクハウス全体で統合されたガバナンスを提供します。テーブルと列の説明は、アナリストがデータを検索して理解するのに役立つと同時に、AIシステムに意味のあるコンテキストを提供して適切なテーブルを選択し、列の意味を解釈し、正しい変換を適用するのに役立ちます。リッチな説明がない場合、AIエージェントがシステム間で "cust_id" が "customer_identifier" と一致するかどうかを推測すると、下流で累積する間違いを犯します。
主なガバナンス機能は次のとおりです。
pii=true、region=EU、data_owner=financeなどのタグに基づいて、動的な行と列のフィルタリングを適用する属性ベースのアクセス制御(ABAC)。これらのポリシーは、エージェントのプロンプトをエンコードし、計画の決定を制約する感度と居住性ルールをエンコードします。
ワークスペースバインディングは、環境のセマンティクス(dev/stage/prod)を反映しながらアセットを複製することなく、どのワークスペースが特定のカタログにアクセスできるかを制限します。これにより、エージェントの実行コンテキストが制御され、環境間の漏洩が防 止されます。
動的マスキングは、ユーザーロールに基づいて同じデータの異なるビューを表示します。サポートエージェントは、マスクされた社会保障番号とクレジットカードの詳細を表示し、コンプライアンスチームは完全な値を確認し、AIエージェントはそれらを呼び出したユーザーの権限を継承します。
Information Schemaは、権限を認識したメタデータを提供し、エージェントが実行時に安全に許可されたアセットを列挙し、コンテキストを動的に構築できるようにします。
システムテーブルを介した監査ログは、GDPR、CMMC、CPNI、CALEA規制への準拠のために、すべてのクエリ、すべてのデータアクセス、すべてのモデル推論を追跡します。
ここでUnity CatalogはAIパフォーマンスを変革します。タグ、説明、スキーマ、リネージグラフ、使用パターン、および正規のKPIを定義するMetric Viewsなどの包括的なメタデータを通じて、リッチなセマンティックコンテキストを提供します。
Metric Viewsは特に重要です。NOCがネットワーク可用性を90%と報告し、エグゼクティブデッキが85%を示す場合、取締役会はどちらの数値が正しいかを尋ねます。答えは通常、異なる計算方 法、異なる時間枠、異なる「可用性」の定義、および計画メンテナンスの異なる除外ルールに関係します。Metric Viewsは、ファーストクラスのビジネスメトリック、ディメンション、およびメジャーを宣言します。すべてUnity Catalogによって管理されるため、誰もが同じ計算を参照します。エージェントが「収益」、「ARPU」、「アクティブユーザー」をクエリすると、チーム間で異なる可能性のあるロジックを再導出するのではなく、権威ある定義を取得します。
Genie space、Databricksの自然言語クエリインターフェイスで、「地域ごとの平均FTTH展開コストは?」のような質問をすると、AIは単純なキーワードマッチングを超えて動作します。
NVIDIAの調査によると、通信業界の回答者の39%が、生成AIモデルを推論する際に結果の精度を最も重要な要因として挙げています。Unity Catalogのセマンティックレイヤーは、AIが特定のビジネスドメイン内で正確な回答を提供するために必要なコンテキストを与えることで、これを直接解決します。
これは、質問に答えるだけでなく操作を実行す るエージェントにとって特に重要です。TM Forumのレベル5自律ネットワークを目指す企業にとって、エージェントは信頼できる必要があります。それには、制御、ガードレール、評価、およびSMEの監視が必要です。すべては、エージェントが「どのようなデータが存在するか」だけでなく、「このデータがビジネスコンテキストで何を意味するか」を理解することにかかっています。
AIの導入とは、ビジネス機能を、他のチーム、下流システム、および代わりにアクションを実行する必要があるAIエージェントに伝達できる、機能的で実行可能な言語に翻訳することです。
AIを機能させるために、より強力な基盤モデルは必要ありません。データがAI対応である必要があります。
Unity Catalogは、断片化された不透明なデータをAI対応プラットフォームに変えるメタデータとガバナンスの基盤を提供します。AIを採用しているがデータ品質に苦労している企業が97%を占める通信業界では、勝利戦略は最高のモデルを持つことではありません。それは、最高のデータ基盤とそれを使用するという組織的なコミットメントを持つことです。AI対応データ基盤へのパスを今日定義して、AIロードマップを加速してください:Databricksにエンゲージする。
(このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事
ブログを購読して、最新の投稿を受信トレイにお届けします。