Un data warehousing plus simple, plus rapide et plus économique
par Gaurav Saraf et Kevin Clugage
Nous sommes ravis de partager les dernières fonctionnalités et améliorations de performance qui rendent Databricks SQL plus simple, plus rapide et plus économique que jamais. Avec plus de 7 000 clients qui utilisent aujourd'hui Databricks SQL comme entrepôt de données, c'est le produit qui connaît la croissance la plus rapide de notre histoire !
Databricks SQL repose sur l' architecture lakehouse. Nous avons été les pionniers de cette approche au début de l'année 2020 et avons lancé Databricks SQL (DBSQL) dans le cadre de la Databricks Data Intelligence Platform. Nous avions prédit que les entrepôts de données autonomes et distincts deviendraient des systèmes obsolètes en raison de leurs coûts élevés et de leur nature propriétaire, et nous en avons aujourd'hui la preuve flagrante : le rapport MIT Technology Insights montre que 74 % des entreprises ont déjà adopté l'architecture lakehouse. Les nombreuses plateformes de données basées sur le lakehouse disponibles pour ces entreprises ont été récemment examinées dans le rapport Forrester Wave for Data Lakehouses, qui a désigné Databricks comme un leader, avec les scores les plus élevés dans les catégories de l'offre actuelle et de la stratégie par rapport à tous les autres !

Dans nos discussions avec les clients, l'avantage du lakehouse repose sur deux éléments : un coût total inférieur et une plateforme unique et unifiée pour l'AI et la BI. Le lakehouse permet d'utiliser une seule copie des données, dans un format ouvert, pour toutes vos charges de travail d'AI et de BI. Cela élimine la duplication et la réplication des données nécessaires pour synchroniser les données entre plusieurs plateformes, ce qui réduit considérablement les coûts et simplifie l'architecture.
L'année dernière, nous avons déclaré que l'approche classique de la performance des systèmes, basée sur des heuristiques et des optimiseurs de coûts, était erronée la plupart du temps ! Bien que ces techniques aient été les meilleures disponibles, l'ère actuelle de l'AI a permis une toute nouvelle approche. Aujourd'hui, nous utilisons une nouvelle génération de systèmes d'AI à tous les niveaux de notre plateforme, ce qui a permis d'améliorer les performances du système à un niveau supérieur. Ces systèmes d'AI analysent vos charges de travail et améliorent l'efficacité et les performances automatiquement.
Ce ne sont là que quelques-uns de nos systèmes d'AI intégrés et le plus beau, c'est que vous n'avez pas besoin de connaître les détails de leur fonctionnement : la magie opère automatiquement. Compte tenu du temps que nous consacrons à ce domaine, on peut dire que nous sommes obsédés par les performances, et au fil du temps, nous pouvons voir la différence que cela a faite. Lorsque nous avons examiné les charges de travail récurrentes de nos clients, les performances pour les mêmes requêtes de BI se sont améliorées de 73 % par rapport à il y a deux ans ! C'est 4 fois plus rapide !

Nous avons également intégré l'AI dans notre expérience utilisateur, rendant Databricks SQL plus facile à utiliser et plus productif pour les analystes SQL. L'assistant AI de Databricks, désormais généralement disponible, est un assistant AI intégré et sensible au contexte qui aide les analystes SQL à créer, modifier et déboguer du code SQL. Cet assistant repose sur le même moteur d'intelligence des données de notre plateforme, de sorte qu'il comprend le contexte unique de votre entreprise. L'assistant a été rapidement adopté chez Databricks en raison de sa capacité à rédiger des requêtes ou à corriger des erreurs pour les analystes SQL, ce qui permet de gagner un temps précieux et de stimuler la productivité.

Avec l'essor des modèles de GenAI et de ML, il n'est pas surprenant que les analystes SQL souhaitent de plus en plus accéder à ces modèles d'AI directement au sein de SQL. C'est précisément pour cette raison que nous avons introduit les fonctions AI (AI functions) dans Databricks SQL l'année dernière, et nous avons constaté une adoption rapide depuis lors. Les fonctions AI sont désormais en version préliminaire publique (public preview) et nous avons également ajouté de nouvelles fonctions telles que la recherche vectorielle (vector search). Les fonctions AI masquent la complexité technique liée à l'utilisation des LLM, permettant aux analystes et aux data scientists d'utiliser ces modèles sans effort, sans avoir à se soucier de l'infrastructure sous-jacente.
La fonction ai_query() vous permet d'interroger n'importe quel modèle d'AI à partir de SQL. Il peut s'agir de modèles de GenAI ou de modèles de ML classiques. Vous pouvez même utiliser des modèles de LLM externes
Fonctions LLM intégrées
Il existe également 9 nouvelles fonctions de GenAI qui vous permettent d'analyser du texte non structuré grâce à la puissance des LLM. Par exemple :
Extraire des informations importantes d'un texte présent dans la colonne d'une table :
Classer les commentaires d'évaluation d'un produit en fonction de leur contenu :
Voir les 9 fonctions ici
AI Search : la nouvelle fonction de recherche vectorielle vous permet d'effectuer des recherches KNN et facilite l'implémentation de la RAG prête à l'emploi ! Elle utilise le produit AI Search de Databricks. En combinant les capacités de recherche vectorielle et les capacités d'AI_query, les analystes SQL peuvent désormais exécuter facilement des analyses complexes. Par exemple, on peut désormais rechercher tous les tweets
AI_Forecast : une nouvelle fonction intégrée de prévision de séries temporelles pour vous permettre de prévoir rapidement des métriques (par exemple, le chiffre d'affaires) via SQL sans avoir à créer de modèle ML personnalisé.
Dans le but de démocratiser réellement l'accès aux insights issus des données, nous avons également présenté Databricks AI/BI, un produit de business intelligence qui exploite l'AI générative pour comprendre en profondeur la sémantique des données et permettre une analyse des données en libre-service pour tous les membres de votre organisation. S'appuyant sur un système d'AI composite, AI/BI exploite les insights de l'ensemble de votre patrimoine de données, y compris les métadonnées de Unity Catalog, les pipelines ETL, les requêtes SQL et bien plus encore. Il comprend deux composants principaux : AI/BI Dashboards, une offre BI low-code pour créer rapidement des visualisations de données et des tableaux de bord, et Genie, une interface conversationnelle pour vos données qui apprend en continu des retours des utilisateurs pour répondre à un large éventail de questions métier concrètes sans hallucinations. Ces innovations améliorent considérablement l'analyse en libre-service au sein de Databricks SQL, ouvrant la voie à un plus large éventail d'utilisateurs non techniques tout en garantissant une gouvernance unifiée, le suivi du lignage, un partage sécurisé et des performances élevées grâce à l'intégration avec votre Data Intelligence Platform.
Outre les nouvelles fonctionnalités d'AI, nous avons également lancé une série de capacités clés pour SQL Warehouse. Des milliers de clients ont migré leurs anciens data warehouses vers DBSQL. Pour rendre ces migrations possibles, nous nous sommes assurés que DBSQL disposait de toutes les fonctionnalités nécessaires pour offrir les mêmes capacités de data warehouse sur le lakehouse :
N'oubliez pas que tout cela fonctionne dans un excellent éditeur SQL propulsé par l'AI et un outil de tableau de bord intégré.
De plus, grâce à nos formidables partenaires, nous disposons également d'un écosystème riche, ouvert et intégré de vos outils de données et d'AI préférés, tels que Power BI, Tableau et dbt. Il est presque certain que les outils que vous utilisez aujourd'hui fonctionnent déjà avec DBSQL.

Pour en savoir plus sur les dernières nouveautés en matière de data warehousing et de Databricks SQL, découvrez la keynote Data Warehouse du Data + AI Summit ainsi que les nombreuses sessions du parcours Data Warehousing, Analytics and BI.
Si vous souhaitez migrer votre entrepôt existant vers un data warehouse serverless haute performance, offrant une excellente expérience utilisateur et un coût total inférieur, alors Databricks SQL est la solution : essayez-le gratuitement.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.