Revenir au contenu principal
Produit

Nouveautés de Databricks SQL

Un data warehousing plus simple, plus rapide et plus économique

par Gaurav Saraf et Kevin Clugage

Nous sommes ravis de partager les dernières fonctionnalités et améliorations de performance qui rendent Databricks SQL plus simple, plus rapide et plus économique que jamais. Avec plus de 7 000 clients qui utilisent aujourd'hui Databricks SQL comme entrepôt de données, c'est le produit qui connaît la croissance la plus rapide de notre histoire !

Le meilleur entrepôt de données est un lakehouse

Databricks SQL repose sur l' architecture lakehouse. Nous avons été les pionniers de cette approche au début de l'année 2020 et avons lancé Databricks SQL (DBSQL) dans le cadre de la Databricks Data Intelligence Platform. Nous avions prédit que les entrepôts de données autonomes et distincts deviendraient des systèmes obsolètes en raison de leurs coûts élevés et de leur nature propriétaire, et nous en avons aujourd'hui la preuve flagrante : le rapport MIT Technology Insights montre que 74 % des entreprises ont déjà adopté l'architecture lakehouse. Les nombreuses plateformes de données basées sur le lakehouse disponibles pour ces entreprises ont été récemment examinées dans le rapport Forrester Wave for Data Lakehouses, qui a désigné Databricks comme un leader, avec les scores les plus élevés dans les catégories de l'offre actuelle et de la stratégie par rapport à tous les autres !

Entrepôt de donn�ées

Dans nos discussions avec les clients, l'avantage du lakehouse repose sur deux éléments : un coût total inférieur et une plateforme unique et unifiée pour l'AI et la BI. Le lakehouse permet d'utiliser une seule copie des données, dans un format ouvert, pour toutes vos charges de travail d'AI et de BI. Cela élimine la duplication et la réplication des données nécessaires pour synchroniser les données entre plusieurs plateformes, ce qui réduit considérablement les coûts et simplifie l'architecture.

Performances optimisées par l'AI : multipliées par 4

L'année dernière, nous avons déclaré que l'approche classique de la performance des systèmes, basée sur des heuristiques et des optimiseurs de coûts, était erronée la plupart du temps ! Bien que ces techniques aient été les meilleures disponibles, l'ère actuelle de l'AI a permis une toute nouvelle approche. Aujourd'hui, nous utilisons une nouvelle génération de systèmes d'AI à tous les niveaux de notre plateforme, ce qui a permis d'améliorer les performances du système à un niveau supérieur. Ces systèmes d'AI analysent vos charges de travail et améliorent l'efficacité et les performances automatiquement.

  • Liquid Clustering, désormais en GA, gère la disposition de vos données, en choisissant automatiquement la clé de clustering et en offrant la flexibilité de redéfinir les clés de clustering sans réécriture de données ! Cela permet à la disposition de vos données d'évoluer au fil du temps en fonction de vos besoins d'analyse et remplace le partitionnement de table et ZORDER, de sorte que vous n'avez plus à ajuster manuellement la disposition de vos données.
  • Predictive I/O, également connu sous le nom d'« indexation sans index » (Indexless Indexing), vous offre les performances des index, mais sans nécessiter leur création ni leur maintenance fastidieuse. Grâce aux progrès des systèmes Databricks, nous sommes désormais en mesure d'exécuter des modèles et d'entrer des vecteurs de caractéristiques (feature vectors) avec des paramètres d'un ordre de grandeur supérieur sans augmentation notable de la latence de prédiction. Cela permet à l'I/O prédictive de prendre en charge un ensemble beaucoup plus large de charges de travail.
  • Intelligent Workload Management utilise des modèles de machine learning pour optimiser les ressources des SQL warehouses serverless afin de prendre en charge au mieux la haute simultanéité. C'est parfait pour les charges de travail de BI à grande échelle lorsque de nombreux analystes et requêtes sollicitent l'entrepôt de données. Intelligent Workload Management garantit que ces charges de travail disposent rapidement de la bonne quantité de ressources.
  • Predictive Optimization, désormais en GA, gère automatiquement les opérations de maintenance typiques des tables qui permettent d'optimiser les performances. Databricks identifiera les tables qui bénéficieraient d'opérations de maintenance, telles que le clustering, l'ajustement de la taille des fichiers et le nettoyage des fichiers (vacuuming), et les exécutera simplement pour vous, sans aucune tâche manuelle requise.

Ce ne sont là que quelques-uns de nos systèmes d'AI intégrés et le plus beau, c'est que vous n'avez pas besoin de connaître les détails de leur fonctionnement : la magie opère automatiquement. Compte tenu du temps que nous consacrons à ce domaine, on peut dire que nous sommes obsédés par les performances, et au fil du temps, nous pouvons voir la différence que cela a faite. Lorsque nous avons examiné les charges de travail récurrentes de nos clients, les performances pour les mêmes requêtes de BI se sont améliorées de 73 % par rapport à il y a deux ans ! C'est 4 fois plus rapide !

Performances optimisées par l'AI

Assistant AI pour les analystes SQL

Nous avons également intégré l'AI dans notre expérience utilisateur, rendant Databricks SQL plus facile à utiliser et plus productif pour les analystes SQL. L'assistant AI de Databricks, désormais généralement disponible, est un assistant AI intégré et sensible au contexte qui aide les analystes SQL à créer, modifier et déboguer du code SQL. Cet assistant repose sur le même moteur d'intelligence des données de notre plateforme, de sorte qu'il comprend le contexte unique de votre entreprise. L'assistant a été rapidement adopté chez Databricks en raison de sa capacité à rédiger des requêtes ou à corriger des erreurs pour les analystes SQL, ce qui permet de gagner un temps précieux et de stimuler la productivité.

Assistant AI pour les analystes SQL

Exploiter les modèles d'AI directement via SQL

Avec l'essor des modèles de GenAI et de ML, il n'est pas surprenant que les analystes SQL souhaitent de plus en plus accéder à ces modèles d'AI directement au sein de SQL. C'est précisément pour cette raison que nous avons introduit les fonctions AI (AI functions) dans Databricks SQL l'année dernière, et nous avons constaté une adoption rapide depuis lors. Les fonctions AI sont désormais en version préliminaire publique (public preview) et nous avons également ajouté de nouvelles fonctions telles que la recherche vectorielle (vector search). Les fonctions AI masquent la complexité technique liée à l'utilisation des LLM, permettant aux analystes et aux data scientists d'utiliser ces modèles sans effort, sans avoir à se soucier de l'infrastructure sous-jacente.

  1. La fonction ai_query() vous permet d'interroger n'importe quel modèle d'AI à partir de SQL. Il peut s'agir de modèles de GenAI ou de modèles de ML classiques. Vous pouvez même utiliser des modèles de LLM externes

  2. Fonctions LLM intégrées
    Il existe également 9 nouvelles fonctions de GenAI qui vous permettent d'analyser du texte non structuré grâce à la puissance des LLM. Par exemple :

    Extraire des informations importantes d'un texte présent dans la colonne d'une table :

    Classer les commentaires d'évaluation d'un produit en fonction de leur contenu :

    Voir les 9 fonctions ici

  3. AI Search : la nouvelle fonction de recherche vectorielle vous permet d'effectuer des recherches KNN et facilite l'implémentation de la RAG prête à l'emploi ! Elle utilise le produit AI Search de Databricks. En combinant les capacités de recherche vectorielle et les capacités d'AI_query, les analystes SQL peuvent désormais exécuter facilement des analyses complexes. Par exemple, on peut désormais rechercher tous les tweets

  4. AI_Forecast : une nouvelle fonction intégrée de prévision de séries temporelles pour vous permettre de prévoir rapidement des métriques (par exemple, le chiffre d'affaires) via SQL sans avoir à créer de modèle ML personnalisé.

AI/BI : un nouveau type de produit de business intelligence (BI)

Dans le but de démocratiser réellement l'accès aux insights issus des données, nous avons également présenté Databricks AI/BI, un produit de business intelligence qui exploite l'AI générative pour comprendre en profondeur la sémantique des données et permettre une analyse des données en libre-service pour tous les membres de votre organisation. S'appuyant sur un système d'AI composite, AI/BI exploite les insights de l'ensemble de votre patrimoine de données, y compris les métadonnées de Unity Catalog, les pipelines ETL, les requêtes SQL et bien plus encore. Il comprend deux composants principaux : AI/BI Dashboards, une offre BI low-code pour créer rapidement des visualisations de données et des tableaux de bord, et Genie, une interface conversationnelle pour vos données qui apprend en continu des retours des utilisateurs pour répondre à un large éventail de questions métier concrètes sans hallucinations. Ces innovations améliorent considérablement l'analyse en libre-service au sein de Databricks SQL, ouvrant la voie à un plus large éventail d'utilisateurs non techniques tout en garantissant une gouvernance unifiée, le suivi du lignage, un partage sécurisé et des performances élevées grâce à l'intégration avec votre Data Intelligence Platform.

Un data warehousing complet et de bout en bout avec Databricks SQL

Outre les nouvelles fonctionnalités d'AI, nous avons également lancé une série de capacités clés pour SQL Warehouse. Des milliers de clients ont migré leurs anciens data warehouses vers DBSQL. Pour rendre ces migrations possibles, nous nous sommes assurés que DBSQL disposait de toutes les fonctionnalités nécessaires pour offrir les mêmes capacités de data warehouse sur le lakehouse :

  1. Vues matérialisées : assurez la fraîcheur des données en utilisant des MV pour alimenter vos tableaux de bord. Les vues matérialisées se mettent à jour automatiquement lorsque les tables sous-jacentes contiennent de nouvelles données, plutôt que lors de leur interrogation.
  2. Utilisez les contraintes PK/FK pour optimiser les performances des requêtes. En utilisant RELY, les requêtes peuvent être accélérées en éliminant automatiquement les jointures redondantes et les agrégations distinctes.
  3. Variant est un nouveau type de données pour le traitement des données semi-structurées, offrant un gain de performance significatif par rapport au stockage des données sous forme de chaînes JSON, tout en offrant la flexibilité nécessaire pour prendre en charge des schémas hautement imbriqués et évolutifs.
  4. Les alias de colonnes latéraux facilitent l'écriture de requêtes SQL en permettant de faire référence à une expression définie plus haut dans la même requête et de la réutiliser. Cela permet de simplifier les requêtes en réduisant les CTE ou sous-requêtes inutiles.
  5. Des fonctionnalités telles que les variables SQL, les arguments nommés et les UDF Python facilitent également la création directe de scripts dans Databricks SQL.

N'oubliez pas que tout cela fonctionne dans un excellent éditeur SQL propulsé par l'AI et un outil de tableau de bord intégré.

De plus, grâce à nos formidables partenaires, nous disposons également d'un écosystème riche, ouvert et intégré de vos outils de données et d'AI préférés, tels que Power BI, Tableau et dbt. Il est presque certain que les outils que vous utilisez aujourd'hui fonctionnent déjà avec DBSQL.

DBSQL

En savoir plus et démarrer avec Databricks SQL

Pour en savoir plus sur les dernières nouveautés en matière de data warehousing et de Databricks SQL, découvrez la keynote Data Warehouse du Data + AI Summit ainsi que les nombreuses sessions du parcours Data Warehousing, Analytics and BI.

Si vous souhaitez migrer votre entrepôt existant vers un data warehouse serverless haute performance, offrant une excellente expérience utilisateur et un coût total inférieur, alors Databricks SQL est la solution : essayez-le gratuitement.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.