L'observation selon laquelle "la technologie dévore le monde" a façonné l'industrie technologique moderne. Aujourd'hui, la technologie est omniprésente dans nos vies, des montres que nous portons à nos maisons, nos voitures, nos usines et nos fermes. Chez Databricks, nous pensons que bientôt, l'IA dévorera toutes les solutions. Autrement dit, les solutions développées au cours des dernières décennies deviendront intelligentes en exploitant les données, ce qui les rendra bien plus intelligentes. Les implications sont vastes et variées, touchant tous les domaines, du support client à la santé en passant par l'éducation.
Dans cet article de blog, nous donnons notre point de vue sur la manière dont l'IA va changer les plateformes de données. Nous soutenons que l'impact de l'IA sur les plateformes de données ne sera pas progressif, mais fondamental : elle démocratisera massivement l'accès aux données, automatisera l'administration manuelle et permettra la création clé en main d'applications d'IA personnalisées. Tout cela sera rendu possible par une nouvelle vague de plateformes unifiées qui comprennent en profondeur les données d'une organisation. Nous appelons cette nouvelle génération de systèmes des plateformes d'intelligence des données.
Les plateformes de données jusqu'à présent et leurs défis
Les Data warehouses sont apparus dans les années 1980 comme une solution pour organiser les données structurées des entreprises. Cependant, dès 2010, les organisations ont commencé à accumuler une quantité importante de données non structurées pour prendre en charge des cas d'utilisation plus variés, tels que l'IA. Pour y remédier, les data lakes ont été introduits en tant que système ouvert et évolutif pour tout type de données. Dès 2015, il est devenu courant pour la plupart des organisations d'exploiter à la fois des data warehouses et des data lakes. Cette approche à double plateforme a cependant présenté d'importants défis en matière de gouvernance, de sécurité, de fiabilité et de gestion.
Il y a cinq ans, Databricks a été le pionnier du concept de lakehouse pour combiner et unifier le meilleur des deux mondes. Les lakehouses stockent et gouvernent toutes vos données dans des formats ouverts et prennent en charge en mode natif des workloads allant de la BI à l'IA. Pour la première fois, les lakehouses ont offert un système unifié pour (1) interroger ensemble toutes les sources de données d'une organisation et (2) gouverner de manière unifiée tous les workloads qui utilisent des données (BI, IA, etc.). Le Lakehouse est devenu une catégorie à part entière de plateforme de données et est aujourd'hui largement adopté par les entreprises et intégré dans les stacks de la plupart des fournisseurs.
Malgré les progrès, toutes les plateformes de données actuelles sur le marché sont toujours confrontées à plusieurs défis majeurs :
- Barrière des compétences techniques: l'interrogation des données nécessite des compétences spécialisées en SQL, Python ou BI, ce qui crée une courbe d'apprentissage abrupte.
- Exactitude et curation des données: dans les grandes organisations, trouver des données pertinentes et exactes constitue un défi qui nécessite une curation et une planification approfondies.
- Complexité de la gestion: les coûts des plateformes de données peuvent exploser et leurs performances peuvent être médiocres si elles ne sont pas gérées par un personnel hautement technique
- Gouvernance et confidentialité: les exigences de gouvernance dans le monde entier évoluent rapidement et, avec l'avènement de l'IA, les préoccupations concernant le lignage, la sécurité et la confidentialité sont amplifiées.
- Applications d'IA émergentes: pour permettre aux applications d'IA générative de répondre à des requêtes spécifiques à un domaine, les organisations doivent développer et ajuster des LLM sur des plateformes distinctes de leurs données, et les connecter à leurs données par une Data Engineering manuelle.
Beaucoup de ces problèmes surviennent parce que les plateformes de données ne comprennent pas fondamentalement les données des organisations et la manière dont elles sont utilisées. Heureusement, l'IA générative représente un nouvel outil puissant pour relever précisément ces défis.
L'idée maîtresse derrière les plateformes d'intelligence des données
Les plateformes de Data Intelligence révolutionnent la gestion de données en utilisant des modèles d'IA pour comprendre en profondeur la sémantique des données d'entreprise ; c'est ce que nous appelons la data intelligence. Ils s'appuient sur les fondations du lakehouse – un système unifié pour interroger et gérer toutes les données de l'entreprise – mais analysent automatiquement à la fois les données (contenus et métadonnées) et leur utilisation (requêtes, rapports, lignage, etc.) pour ajouter de nouvelles fonctionnalités. Grâce à cette compréhension approfondie des données, les plateformes de Data Intelligence permettent de :
- Accès en langage naturel: En s'appuyant sur des modèles d'IA, les plateformes DI permettent de travailler avec les données en langage naturel, personnalisé pour le jargon et les acronymes de chaque organisation. La plateforme observe comment les données sont utilisées dans les workloads existants pour apprendre la terminologie de l'organisation et propose une interface en langage naturel personnalisée à tous les utilisateurs, des non-experts aux data engineers.
- Catalogage et découverte sémantiques: L'IA générative peut comprendre le modèle de données, les métriques et les KPI de chaque organisation pour offrir des fonctionnalités de découverte inégalées ou identifier automatiquement les divergences dans la manière dont les données sont utilisées.
- Elle automatise la gestion et l'optimisation des données : les modèles d'intelligence des données peuvent optimiser l'agencement, le partitionnement et l'indexation des données en fonction de leur utilisation, pour minimiser les efforts manuels d'ajustement et de configuration.
- Gouvernance et confidentialité améliorées: les plateformes DI peuvent automatiquement détecter, classifier et empêcher l'utilisation abusive des données sensibles, tout en simplifiant la gestion à l'aide du langage naturel.
- Support de premier ordre pour les workloads d'IA: Les plateformes DI peuvent améliorer n'importe quelle application d'IA d'entreprise en lui permettant de se connecter aux données métier pertinentes et d'exploiter la sémantique apprise par la plateforme DI (métriques, KPI, etc.) pour fournir des résultats précis. Les développeurs d'applications d'IA n'ont plus à "bricoler" l'intelligence au moyen d'un prompt engineering fragile.
Certains pourraient se demander en quoi cela diffère des capacités de Q&R en langage naturel que les outils de BI ont ajoutées ces dernières années. Les outils de BI ne représentent qu'une petite partie (bien qu'importante) de l'ensemble des charges de travail liées aux données et, par conséquent, n'offrent pas de visibilité sur la grande majorité des charges de travail en cours, ni sur le lignage et l'utilisation des données avant qu'elles n'atteignent la couche BI. Sans visibilité sur ces charges de travail, ils ne peuvent pas développer la compréhension sémantique approfondie nécessaire. Par conséquent, ces fonctionnalités de Q&R en langage naturel peinent à être largement adoptées. Grâce aux plateformes d'intelligence des données, les outils de BI pourront tirer parti des modèles d'IA sous-jacents pour des fonctionnalités beaucoup plus riches. Nous pensons donc que cette fonctionnalité essentielle résidera dans les plateformes de données.



