Combler le fossé entre les données et l'intelligence
par Stephen Hage, Keerthi Josyula et Michael Zhang
Selon le rapport 2025 sur l'état de l'IA dans les télécommunications de NVIDIA, 97 % des dirigeants de télécommunications évaluent ou adoptent l'IA pour améliorer l'expérience client, optimiser les opérations réseau et réduire les coûts. Beaucoup ont dépassé le stade des projets pilotes et génèrent un retour sur investissement positif. Mais la promesse de l'IA continue de dépasser sa réalisation.
Voici le paradoxe : les entreprises de télécommunications n'ont jamais eu autant de données, et pourtant leurs initiatives d'IA stagnent systématiquement avant d'atteindre l'échelle de production. La technologie mobile évolue de la 3G à la 4G, puis à la 5G et au-delà. Les innovations à haut débit extraient plus de débit de la fibre existante. Les MVNO revendent de la capacité, les sociétés de tours de téléphonie mobile coordonnent des milliers de sites, et les opérateurs régionaux modernisent leur infrastructure existante. Les volumes de données augmentent de façon exponentielle pour tous, et ces efforts ne tiennent pas leurs promesses.
Pourquoi ? Alors que les modèles fondamentaux font la une pour avoir réussi l'examen final de l'humanité, un test de 2 500 questions couvrant les mathématiques, les langues anciennes et des sous-domaines très spécialisés, votre entreprise doit prédire le désabonnement, personnaliser les messages, aider à l'analyse des causes profondes des pannes réseau et résoudre un millier d'autres défis opérationnels. Un modèle qui excelle en physique de niveau universitaire peut encore échouer lamentablement à comprendre ce que signifient "site", "tour" ou "CDR" dans votre contexte opérationnel.
Le goulot d'étranglement n'est pas la qualité du modèle, l'accès aux puces ou la puissance de traitement. Selon le rapport 2025 de l'Alliance pour la gouvernance de l'IA du Forum économique mondial, le plus grand défi à la mise en œuvre de l'IA à grande échelle est le manque de "données propres, de qualité et utilisables", exacerbé par une qualité, une accessibilité et une validité peu fiables. Ils appellent cela la dette de données : le jumeau invisible de la dette technique, représentant de vastes ensembles de données qui ne peuvent pas générer de valeur car ils sont fragmentés, non gouvernés ou sémantiquement opaques.
Voici la vérité qui dérange : si votre organisation ne peut pas naviguer efficacement dans son propre paysage de données, si les analystes passent des jours à rechercher des sources faisant autorité ou à réconcilier des définitions contradictoires, alors un agent d'IA héritera des mêmes frictions. L'IA ne contourne pas magiquement la complexité organisationnelle ; elle amplifie la structure (ou le manque de structure) qui existe déjà.
Les modèles fondamentaux ne différencient pas votre entreprise. Les puces ou les outils non plus. Vos données d'entreprise et le contexte qui les entoure créent un avantage concurrentiel ; les plateformes existent pour vous aider à utiliser ces données efficacement. L'accès unifié aux données et à la sémantique qui les entoure comble le fossé vers la préparation à l'IA.
La plupart des entreprises de télécommunications ont aujourd'hui déployé un lakehouse, bien qu'il ne contienne pas la grande majorité de leurs données, en particulier le contenu non structuré comme les journaux de télémétrie réseau, les tickets de service ou les contrats PDF. Cela explique à la fois leur succès partiel en IA et leurs difficultés persistantes.
Téléchargez un CSV dans une interface de chat et vous verrez à quelle vitesse elle répond à des questions superficielles. Cette impression s'effondre dès que vous posez une question complexe ou que vous essayez de naviguer dans des années de dette technique accumulée. Une couche sémantique bien conçue au-dessus de vos données comble le fossé entre la "démonstration impressionnante" et l'"IA de production".
Cette couche sémantique nécessite trois unifications clés :
Les données résident dans des dizaines de systèmes : Amdocs, Oracle, Teradata, Snowflake, Salesforce, ServiceNow. Chacun utilise ses propres conventions de schéma, ses modèles de dénomination et sa logique métier. Sans une méta-couche qui fédère et harmonise ces sources, les agents d'IA font des suppositions éclairées sur l'identifiant client ("customer_id") dans quel système représente réellement le même client. Ces suppositions échouent en production lorsqu'elles acheminent un ticket de support vers le mauvais compte ou recommandent un produit que le client a déjà acheté.
Selon la recherche de Google de 2025 sur les agents d'IA dans les télécommunications, 35 % des dirigeants de télécommunications citent la confidentialité et la sécurité des données comme leur principale préoccupation lors du choix d'un fournisseur de LLM. Cela est logique compte tenu des exigences réglementaires telles que le GDPR, le CMMC et la gestion des données CUI, ainsi que des mandats spécifiques aux télécommunications : les règles CPNI régissent la manière dont les opérateurs protègent les enregistrements d'appels et les données de localisation, tandis que le CALEA exige que les opérateurs sécurisent leurs réseaux contre les accès non autorisés.
La plus grande source de paralysie de l'analyse provient souvent de l'incertitude concernant les exigences de sécurité. Les enregistrements administratifs, les contrats, les données clients, les documents de permis et les configurations réseau comportent chacun des critères de conformité différents, de l'autorisation de confiance zéro à la transparence analytique entre les domaines. Une gouvernance cloisonnée entre différents départements et outils crée des lacunes où la conformité échoue et où les projets stagnent. Un agent d'IA entraîné sur vos données clients doit respecter les règles de masquage CPNI lorsqu'il présente des informations à un représentant du support, même s'il interroge cinq systèmes backend différents.
Le Forum économique mondial note que "le succès des modèles d'IA dépend d'une base de données solide capable d'ingérer, de corréler et d'analyser des données provenant de plusieurs sources tout en permettant un accès intégré et décentralisé pour divers cas d'utilisation". Cette base comprend les métadonnées, la lignée, les définitions métier et les modèles d'utilisation. Lorsqu'un agent d'IA interroge vos données, sait-il laquelle des trois tables nommées "network_performance" fait autorité ? Comprend-il que "FTTH" et "fiber to the home" représentent le même concept ? Peut-il déterminer la qualité et la fraîcheur des données avant de faire une recommandation ?
Ce ne sont pas des questions hypothétiques. Elles expliquent pourquoi les projets d'IA échouent en production.
Databricks Unity Catalog répond à ces défis en fournissant une couche de gouvernance et de métadonnées unifiée sur l'ensemble de votre lakehouse. Mais la technologie seule ne résout pas les problèmes organisationnels. L'exécution nécessite des normes architecturales claires autour des données, du déploiement et de la gouvernance, ainsi qu'un mandat faisant autorité selon lequel Unity Catalog sert de source de vérité pour l'organisation.
Vos données sont dispersées sur des systèmes sur site, des plateformes cloud comme Snowflake, divers outils SaaS et plusieurs espaces de travail Databricks. Unity Catalog permet une architecture lakehouse grâce à plusieurs modèles d'intégration, chacun adapté à différents scénarios :
Delta Sharing élimine le coût de la réplication des données en permettant le partage sécurisé de données sans copie entre organisations et plateformes ; les destinataires interrogent les mêmes fichiers de données sous-jacents dans votre stockage cloud. Les intégrations natives avec Salesforce Data Cloud et SAP étendent ce modèle aux données CRM et ERP.
Les connecteurs Lakeflow fournissent une ingestion gérée à partir de systèmes d'entreprise, maintenant la fraîcheur tout en préservant la lignée. Cette approche surpasse la fédération pure pour les jeux de données fréquemment interrogés en optimisant les modèles de stockage et d'accès.
Lakehouse Federation utilise des connexions pour lire et joindre des données de systèmes externes directement dans Databricks sans tout répliquer. Vos agents d'IA peuvent interroger les tables de facturation Oracle, les analyses Snowflake et les lakehouses Databricks dans un seul flux de travail.
Cette architecture garantit que les agents d'IA accèdent aux données au niveau d'agrégation approprié. Lorsqu'un agent de litige de facturation enquête sur une réclamation client, il interroge le résumé de la couche Gold qui a été validé, dédupliqué et enrichi du contexte client, plutôt que de scanner les journaux de télémétrie bruts avec des millions d'événements par seconde. Cela évite les hallucinations causées par la surcharge de l'agent avec des détails non pertinents.
Historiquement, les frictions entre Delta Lake et Apache Iceberg ont créé des divisions organisationnelles, différentes équipes se standardisant sur différents formats. Cela a créé des îles de données qui ne pouvaient pas interagir facilement, mais le choix du format n'est pas le véritable obstacle. Déterminer ce qui doit être fait et qui effectue le travail le plus important est bien plus important.
Unity Catalog offre un support de première classe pour les formats Delta et Iceberg. Vous lisez et écrivez dans l'un ou l'autre format via une interface unique ; vos tables Iceberg existantes coexistent avec de nouvelles tables Delta dans le même catalogue, interrogées par les mêmes agents d'IA, gouvernées par les mêmes politiques. Le débat sur le format s'estompe lorsque les deux formats participent équitablement à une couche de gouvernance unifiée.
Au-delà des formats de table, Unity Catalog conserve des descriptions complètes des tables et des colonnes. Il gouverne les données non structurées dans les Volumes : les PDF, les journaux, les flux de télémétrie, les images et les fichiers audio reçoivent le même marquage et la même application de politiques que les tables structurées. Cela permet aux agents d'IA de récupérer les tables structurées et le contexte non structuré de manière cohérente.
Unity Catalog fournit une gouvernance unifiée sur l'ensemble de votre lakehouse. Les descriptions de tables et de colonnes servent à double fin : elles aident les analystes à trouver et à comprendre les données, et elles fournissent aux systèmes d'IA le contexte sémantique nécessaire pour sélectionner les bonnes tables, interpréter la signification des colonnes et appliquer les transformations correctes. Sans descriptions riches, un agent d'IA qui devine si "cust_id" correspond à "customer_identifier" entre les systèmes commettra des erreurs qui s'accumuleront en aval.
Les principales capacités de gouvernance comprennent :
Le contrôle d'accès basé sur les attributs (ABAC) applique un filtrage dynamique des lignes et des colonnes basé sur des balises telles que pii=true, region=EU, ou data_owner=finance. Ces politiques codent les règles de sensibilité et de résidence qui lient les invites d'agents et contraignent les décisions de planification.
Les liaisons d'espace de travail restreignent les espaces de travail qui peuvent accéder à des catalogues spécifiques, reflétant la sémantique de l'environnement (dev/stage/prod) sans dupliquer les actifs. Cela contrôle les contextes d'exécution des agents et empêche les fuites inter-environnements.
Le masquage dynamique affiche différentes vues des mêmes données en fonction du rôle de l'utilisateur. Les agents de support voient les numéros de sécurité sociale et les détails de carte de crédit masqués ; les équipes de conformité voient les valeurs complètes ; les agents d'IA héritent des autorisations de l'utilisateur qui les a invoqués.
Le schéma d'information fournit des métadonnées conscientes des privilèges, permettant aux agents d'énumérer les actifs autorisés en toute sécurité au moment de l'exécution et de construire le contexte dynamiquement.
La journalisation d'audit via les tables système suit chaque requête, chaque accès aux données, chaque inférence de modèle pour la conformité avec les réglementations GDPR, CMMC, CPNI et CALEA.
C'est là que Unity Catalog transforme les performances de l'IA. Il fournit un contexte sémantique riche grâce à des métadonnées complètes : balises, descriptions, schémas, graphes de lignage, modèles d'utilisation et vues métriques qui définissent les KPI canoniques.
Les vues métriques sont particulièrement importantes. Lorsque le NOC signale une disponibilité réseau de 90 % et que le rapport exécutif indique 85 %, le conseil demande quel chiffre est correct. La réponse implique généralement différentes méthodologies de calcul, différentes fenêtres temporelles, différentes définitions de « disponibilité » et différentes règles d'exclusion pour la maintenance planifiée. Les vues métriques déclarent des métriques métier de première classe, des dimensions et des mesures. Le tout régi par Unity Catalog, afin que chacun référence le même calcul. Les agents interrogeant « Revenu », « ARPU » ou « Utilisateur actif » récupèrent la définition faisant autorité plutôt que de redériver une logique qui peut différer entre les équipes.
Lorsque vous posez une question à un espace Genie, l'interface de requête en langage naturel de Databricks, comme « Quel est le coût moyen de déploiement FTTH par région ? », l'IA va au-delà de la simple correspondance de mots-clés. Elle comprend :
Selon les recherches de NVIDIA, 39 % des répondants du secteur des télécommunications citent l'exactitude des résultats comme le facteur le plus important lors de l'inférence des modèles d'IA générative. La couche sémantique d'Unity Catalog répond directement à cela en donnant à l'IA le contexte dont elle a besoin pour fournir des réponses précises dans votre domaine d'activité spécifique.
Cela s'avère particulièrement critique pour les agents qui effectuent des opérations, pas seulement des réponses. Pour toute entreprise aspirant au niveau 5 de réseau autonome du TM Forum, les agents doivent être fiables. Cela nécessite des contrôles, des garde-fous, des évaluations et une supervision par des experts. Tout cela dépend de la compréhension par l'agent non seulement de « quelles données existent », mais aussi de « ce que ces données signifient dans notre contexte métier ».
Considérez un agent d'optimisation réseau qui recommande de déplacer le trafic pour réduire la congestion. Sans compréhension sémantique, il pourrait proposer une modification de configuration qui améliore le débit mais viole les engagements SLA envers les clients professionnels. Avec les métadonnées d'Unity Catalog, l'agent sait quels circuits ont des SLA premium, quels segments de clientèle tolèrent une dégradation et quels segments réseau alimentent une infrastructure critique.
L'adoption de l'IA signifie traduire vos fonctions métier dans un langage opérationnel et exploitable qui peut être communiqué aux autres équipes, aux systèmes en aval et aux agents d'IA qui doivent agir en votre nom.
Vous n'avez pas besoin de modèles fondamentaux plus puissants pour faire fonctionner l'IA. Vous avez besoin que vos données soient prêtes pour l'IA :
Unity Catalog fournit la base de métadonnées et de gouvernance qui transforme les données fragmentées et opaques en une plateforme prête pour l'IA. Dans les télécommunications, où 97 % adoptent l'IA mais la plupart luttent avec la qualité des données, la stratégie gagnante ne consiste pas à avoir le meilleur modèle. Il s'agit d'avoir la meilleure base de données et l'engagement organisationnel pour l'utiliser. Accélérez votre feuille de route IA en définissant votre chemin vers une base de données prête pour l'IA dès aujourd'hui : Engagez-vous avec Databricks.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.