Revenir au contenu principal

Data Intelligence Platform

Notre point de vue sur la manière dont l'IA va changer fondamentalement les plateformes de données et dont les données vont changer l'IA d'entreprise

Data Intelligence Platforms

L'observation selon laquelle "la technologie dévore le monde" a façonné l'industrie technologique moderne. Aujourd'hui, la technologie est omniprésente dans nos vies, des montres que nous portons à nos maisons, nos voitures, nos usines et nos fermes. Chez Databricks, nous pensons que bientôt, l'IA dévorera toutes les solutions. Autrement dit, les solutions développées au cours des dernières décennies deviendront intelligentes en exploitant les données, ce qui les rendra bien plus intelligentes. Les implications sont vastes et variées, touchant tous les domaines, du support client à la santé en passant par l'éducation.

Dans cet article de blog, nous donnons notre point de vue sur la manière dont l'IA va changer les plateformes de données. Nous soutenons que l'impact de l'IA sur les plateformes de données ne sera pas progressif, mais fondamental : elle démocratisera massivement l'accès aux données, automatisera l'administration manuelle et permettra la création clé en main d'applications d'IA personnalisées. Tout cela sera rendu possible par une nouvelle vague de plateformes unifiées qui comprennent en profondeur les données d'une organisation. Nous appelons cette nouvelle génération de systèmes des plateformes d'intelligence des données.

Les plateformes de données jusqu'à présent et leurs défis

Les Data warehouses sont apparus dans les années 1980 comme une solution pour organiser les données structurées des entreprises. Cependant, dès 2010, les organisations ont commencé à accumuler une quantité importante de données non structurées pour prendre en charge des cas d'utilisation plus variés, tels que l'IA. Pour y remédier, les data lakes ont été introduits en tant que système ouvert et évolutif pour tout type de données. Dès 2015, il est devenu courant pour la plupart des organisations d'exploiter à la fois des data warehouses et des data lakes. Cette approche à double plateforme a cependant présenté d'importants défis en matière de gouvernance, de sécurité, de fiabilité et de gestion.

Il y a cinq ans, Databricks a été le pionnier du concept de lakehouse pour combiner et unifier le meilleur des deux mondes. Les lakehouses stockent et gouvernent toutes vos données dans des formats ouverts et prennent en charge en mode natif des workloads allant de la BI à l'IA. Pour la première fois, les lakehouses ont offert un système unifié pour (1) interroger ensemble toutes les sources de données d'une organisation et (2) gouverner de manière unifiée tous les workloads qui utilisent des données (BI, IA, etc.). Le Lakehouse est devenu une catégorie à part entière de plateforme de données et est aujourd'hui largement adopté par les entreprises et intégré dans les stacks de la plupart des fournisseurs.

Malgré les progrès, toutes les plateformes de données actuelles sur le marché sont toujours confrontées à plusieurs défis majeurs :

  • Barrière des compétences techniques: l'interrogation des données nécessite des compétences spécialisées en SQL, Python ou BI, ce qui crée une courbe d'apprentissage abrupte.
  • Exactitude et curation des données: dans les grandes organisations, trouver des données pertinentes et exactes constitue un défi qui nécessite une curation et une planification approfondies.
  • Complexité de la gestion: les coûts des plateformes de données peuvent exploser et leurs performances peuvent être médiocres si elles ne sont pas gérées par un personnel hautement technique
  • Gouvernance et confidentialité: les exigences de gouvernance dans le monde entier évoluent rapidement et, avec l'avènement de l'IA, les préoccupations concernant le lignage, la sécurité et la confidentialité sont amplifiées.
  • Applications d'IA émergentes: pour permettre aux applications d'IA générative de répondre à des requêtes spécifiques à un domaine, les organisations doivent développer et ajuster des LLM sur des plateformes distinctes de leurs données, et les connecter à leurs données par une Data Engineering manuelle.

Beaucoup de ces problèmes surviennent parce que les plateformes de données ne comprennent pas fondamentalement les données des organisations et la manière dont elles sont utilisées. Heureusement, l'IA générative représente un nouvel outil puissant pour relever précisément ces défis.

L'idée maîtresse derrière les plateformes d'intelligence des données

Les plateformes de Data Intelligence révolutionnent la gestion de données en utilisant des modèles d'IA pour comprendre en profondeur la sémantique des données d'entreprise ; c'est ce que nous appelons la data intelligence. Ils s'appuient sur les fondations du lakehouse – un système unifié pour interroger et gérer toutes les données de l'entreprise – mais analysent automatiquement à la fois les données (contenus et métadonnées) et leur utilisation (requêtes, rapports, lignage, etc.) pour ajouter de nouvelles fonctionnalités. Grâce à cette compréhension approfondie des données, les plateformes de Data Intelligence permettent de :

  • Accès en langage naturel: En s'appuyant sur des modèles d'IA, les plateformes DI permettent de travailler avec les données en langage naturel, personnalisé pour le jargon et les acronymes de chaque organisation. La plateforme observe comment les données sont utilisées dans les workloads existants pour apprendre la terminologie de l'organisation et propose une interface en langage naturel personnalisée à tous les utilisateurs, des non-experts aux data engineers.
  • Catalogage et découverte sémantiques: L'IA générative peut comprendre le modèle de données, les métriques et les KPI de chaque organisation pour offrir des fonctionnalités de découverte inégalées ou identifier automatiquement les divergences dans la manière dont les données sont utilisées.
  • Elle automatise la gestion et l'optimisation des données : les modèles d'intelligence des données peuvent optimiser l'agencement, le partitionnement et l'indexation des données en fonction de leur utilisation, pour minimiser les efforts manuels d'ajustement et de configuration.
  • Gouvernance et confidentialité améliorées: les plateformes DI peuvent automatiquement détecter, classifier et empêcher l'utilisation abusive des données sensibles, tout en simplifiant la gestion à l'aide du langage naturel.
  • Support de premier ordre pour les workloads d'IA: Les plateformes DI peuvent améliorer n'importe quelle application d'IA d'entreprise en lui permettant de se connecter aux données métier pertinentes et d'exploiter la sémantique apprise par la plateforme DI (métriques, KPI, etc.) pour fournir des résultats précis. Les développeurs d'applications d'IA n'ont plus à "bricoler" l'intelligence au moyen d'un prompt engineering fragile.

Certains pourraient se demander en quoi cela diffère des capacités de Q&R en langage naturel que les outils de BI ont ajoutées ces dernières années. Les outils de BI ne représentent qu'une petite partie (bien qu'importante) de l'ensemble des charges de travail liées aux données et, par conséquent, n'offrent pas de visibilité sur la grande majorité des charges de travail en cours, ni sur le lignage et l'utilisation des données avant qu'elles n'atteignent la couche BI. Sans visibilité sur ces charges de travail, ils ne peuvent pas développer la compréhension sémantique approfondie nécessaire. Par conséquent, ces fonctionnalités de Q&R en langage naturel peinent à être largement adoptées. Grâce aux plateformes d'intelligence des données, les outils de BI pourront tirer parti des modèles d'IA sous-jacents pour des fonctionnalités beaucoup plus riches. Nous pensons donc que cette fonctionnalité essentielle résidera dans les plateformes de données.

 

Databricks en tant que plateforme de Data Intelligence

Chez Databricks, nous développons une data intelligence platform sur le data lakehouse et sommes de plus en plus enthousiasmés par les possibilités de l'IA dans les plateformes de données, au fur et à mesure que nous ajoutons de nouvelles fonctionnalités. Nous nous appuyons sur les capacités uniques du lakehouse Databricks, seule plateforme de données du secteur à disposer (1) d'une couche de gouvernance unifiée pour les données et l'IA et (2) d'un moteur de requête unifié unique qui couvre l'ETL, le SQL, le machine learning et la BI. De plus, nous avons tiré parti de notre acquisition de MosaicML pour générer des modèles d'IA dans un moteur d'intelligence des données que nous appelons DatabricksIQ, qui alimente toutes les parties de notre plateforme.

DatabricksIQ imprègne déjà de nombreuses couches de notre stack actuel. Il sert à :

  • Ajustez les paramètres sur l'ensemble de la plateforme, y compris l'indexation automatique des colonnes, l'organisation des partitions et le renforcement des fondations du lakehouse. Cela offrira un TCO plus faible et de meilleures performances à nos clients.
  • Améliorer la gouvernance dans Unity Catalog (UC) en insérant automatiquement des descriptions et des balises pour tous les actifs de données dans UC. Ils sont ensuite mis à profit pour que l'ensemble de la plateforme reconnaisse le jargon, les acronymes, les métriques et la sémantique. Cela permet une meilleure recherche sémantique, une meilleure qualité de l'assistant IA et une meilleure gouvernance.
  • Améliorer la génération de Python et de SQL dans notre assistant IA, alimentant à la fois le text-to-SQL et le text-to-Python.
  • Rendre ces requêtes beaucoup plus rapides en intégrant des prédictions sur les données dans la planification des requêtes dans notre moteur de requêtes Photon.
  • Au sein de Delta Live Tables et des Serverless Jobs pour fournir un autoscaling optimal et minimiser les coûts en fonction des prédictions sur la charge de travail.

Enfin, et c'est peut-être le plus important, nous pensons que les plateformes d'intelligence des données simplifieront grandement le développement d'applications d'IA d'entreprise. Nous intégrons DatabricksIQ directement à notre plateforme d'IA, Mosaic AI, pour permettre aux entreprises de créer facilement des applications d'IA qui comprennent leurs données. Mosaic AI propose désormais plusieurs fonctionnalités pour intégrer directement les données d'entreprise dans les systèmes d'IA, notamment :

  • RAG (génération augmentée par récupération) de bout en bout pour créer des agents conversationnels de haute qualité sur vos données personnalisées, en s'appuyant sur Databricks Vector Database comme "mémoire".
  • Entraîner des modèles personnalisés soit à partir de zéro sur les données d'une organisation, soit par le pré-entraînement continu de modèles existants tels que MPT et Llama 2, afin d'améliorer davantage les applications d'IA avec une compréhension approfondie d'un domaine cible.
  • Inférence serverless efficace et sécurisée sur les données de votre entreprise, et connectée aux fonctionnalités de gouvernance et de monitoring de la qualité de Unity Catalog.
  • MLOps de bout en bout basé sur le célèbre projet open source MLflow, avec toutes les données produites automatiquement exploitables, suivies et contrôlables dans le lakehouse.

Résumé

Nous sommes convaincus que l'IA transformera tous les logiciels et que les plateformes de données sont l'un des domaines les plus propices à l'innovation grâce à l'IA. Historiquement, les plateformes de données ont été difficiles d'accès pour les utilisateurs finaux, ainsi qu'à gérer et à gouverner pour les équipes de données. Les plateformes d'intelligence des données sont destinées à transformer ce paysage en s'attaquant directement à ces deux défis – en rendant les données beaucoup plus faciles à query, à gérer et à gouverner. De plus, leur compréhension approfondie des données et de leur utilisation constituera la base des applications d'IA d'entreprise qui opèrent sur ces données. Alors que l'IA remodèle le monde du logiciel, nous sommes convaincus que les leaders de chaque secteur seront ceux qui exploiteront pleinement les données et l'IA pour dynamiser leurs organisations. Les plateformes d'informatique décisionnelle (DI) seront la pierre angulaire de ces organisations, leur permettant de créer la nouvelle génération d'applications de données et d'IA avec qualité, rapidité et agilité.

Databricks founders enjoying Thanksgiving together in 2013

 

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.

Et ensuite ?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks