Présentation de l'optimisation prédictive : des requêtes plus rapides, un stockage moins cher, sans effort

Predictive Optimization: Faster Queries, Cheaper Storage, No Sweat

Publié: 26 octobre 2023

Solutions5 min de lecture

par Sirui Sun, Vijayan Prabhakaran, Naga Raju Bhanoori, Rajesh Parangi Sharabhalingappa, Jintian Liang, Kam Cheung Ting, Vivek Narasimhan, Sunitha Beeram, Himanshu Raja, Rahul Potharaju, Reynold Xin, Matei Zaharia et Susan Pierce

Nous sommes ravis d'annoncer la préversion publique de Databricks Predictive Optimization. Cette fonctionnalité optimise intelligemment le Layout des données de vos tables pour améliorer les performances et la rentabilité.

L'optimisation prédictive s'appuie sur Unity Catalog et Lakehouse AI pour déterminer les meilleures optimisations à effectuer sur vos données, puis exécute ces opérations sur une infrastructure serverless spécialement conçue. Cela simplifie considérablement votre parcours sur le lakehouse, ce qui vous libère du temps pour vous concentrer sur la création de valeur commerciale à partir de vos données.

Cette fonctionnalité est la dernière d'une longue série de fonctionnalités Databricks qui exploitent l'IA pour effectuer des actions de manière prédictive en fonction de vos données et de leurs modèles d'accès. Précédemment, nous avons publié les I/O prédictives pour les lectures et les mises à jour, qui appliquent ces techniques lors de l'exécution de queries de lecture et de mise à jour.

Défis

Les tables Lakehouse bénéficient grandement des optimisations en arrière-plan qui améliorent le Layout de leurs données. Cela inclut le compactage des fichiers pour garantir des tailles de fichier adéquates, ou le vacuum pour supprimer les fichiers de données inutiles. Une optimisation appropriée améliore considérablement les performances tout en réduisant les coûts.

Cependant, cela représente un défi permanent pour les équipes d'ingénierie des données, qui doivent déterminer :

Quelles optimisations exécuter ?
Quelles tables doivent être optimisées ?
À quelle fréquence faut-il exécuter ces optimisations ?

Alors que les plateformes lakehouse montent en charge et deviennent de plus en plus en libre-service, il est pratiquement impossible pour les équipes de plateforme de répondre efficacement à ces questions. Un sentiment que nos clients nous expriment souvent est qu'ils n'arrivent pas à optimiser le nombre de tables créées pour tous les nouveaux cas d'usage métier.

En outre, même une fois que des réponses ont été apportées à ces questions épineuses, les équipes doivent encore gérer la charge opérationnelle de la planification et de l'exécution de ces optimisations, par exemple la planification des Jobs, le diagnostic des pannes et la gestion de l'infrastructure sous-jacente.

Fonctionnement de l'Optimisation prédictive

Avec l'Optimisation prédictive, Databricks s'attaque pour vous à ces problèmes épineux, vous libérant ainsi un temps précieux pour vous concentrer sur la création de valeur commerciale à partir de vos données. L'Optimisation prédictive peut être activée en un seul clic. À partir de là, il fait tout le gros du travail.

Databricks détermine intelligemment le meilleur calendrier d'optimisations, exécute ces optimisations et consigne leur impact dans une table système pour faciliter l'observabilité.

Tout d'abord, l'Optimisation prédictive détermine intelligemment les optimisations à exécuter et leur fréquence. Notre modèle d'IA prend en compte un large éventail d'entrées, y compris les schémas d'utilisation de vos tables, leur layout de données existantes et leurs caractéristiques de performance. Elle produit ensuite le calendrier d'optimisation idéal, en soupesant les avantages attendus de l'optimisation par rapport aux coûts de compute prévus.

Une fois le programme généré, l'Optimisation prédictive exécute automatiquement ces optimisations sur l'infrastructure serverless spécialement conçue. Il gère automatiquement le lancement du nombre et de la taille corrects des machines, et s'assure que les tâches d'optimisation sont correctement regroupées et planifiées pour une efficacité optimale.

L'ensemble du système fonctionne de bout en bout sans qu'il soit nécessaire de procéder à des ajustements et à des réglages manuels, et il apprend de l'utilisation de votre organisation au fil du temps, optimisant les tables importantes pour votre organisation tout en dépriorisant celles qui ne le sont pas. Seul le compute sans serveur nécessaire pour effectuer les optimisations vous est facturé. Par défaut, toutes les opérations sont consignées dans une table système, afin que vous puissiez facilement auditer et comprendre leur impact et leur coût.

Impact

Au cours des derniers mois, nous avons inscrit un certain nombre de clients au programme d'aperçu privé de Predictive Optimization. Beaucoup ont observé qu'il est capable de trouver le juste milieu entre deux extrêmes courants :

Des images côte à côte montrent les compromis entre les performances des requêtes et le coût, en comparant l'absence totale d'optimisation et des optimisations manuelles quotidiennes.

D'un côté, certaines organisations n'ont pas encore mis en place de pipelines sophistiqués d'optimisation des tables. Avec l'Optimisation prédictive, ils peuvent instantanément start à optimiser leurs tables sans avoir à déterminer le meilleur calendrier d'optimisation ou à gérer l'infrastructure.

À l'autre extrême, certaines organisations surinvestissent peut-être dans l'optimisation. Par exemple, pour une équipe qui automatise ses pipelines d'optimisation, il est tentant d'exécuter des Jobs OPTIMIZE ou VACUUM toutes les heures ou tous les jours. Cependant, celles-ci s'exposent au risque de rendements décroissants. Les mêmes gains de performance pourraient-ils être obtenus avec moins d'opérations d'optimisation ?

L'optimisation prédictive aide à trouver le juste équilibre, en garantissant que les optimisations ne sont exécutées que lorsque le retour sur investissement est élevé :

Des Graphes côte à côte montrent que, tant pour les performances des requêtes que pour le coût, l'optimisation prédictive trouve le juste équilibre et n'exécute que les optimisations à fort retour sur investissement.

À titre d'exemple concret, l'équipe Data Engineering de Anker a activé l'Optimisation prédictive et a rapidement constaté les avantages suivants :

Logo de l'entreprise Anker Requêtes 2x plus rapides

Réduction de 50 % des coûts de stockage annuels

Graphe des coûts de stockage annuels au fil du temps

« Les optimisations prédictives de Databricks ont intelligemment équilibré le stockage de notre Unity Catalog. Cela nous a permis de diviser par deux nos coûts annuels de stockage, tout en doublant, voire plus, la vitesse de nos requêtes. Il a appris à donner la priorité aux tables les plus volumineuses et à celles que nous utilisons le plus souvent. Tout cela automatiquement, ce qui a fait gagner un temps précieux à notre équipe. »
— Shu Li, Data Engineering Lead, Anker

Démarrer

Dès aujourd'hui, l'Optimisation prédictive est disponible en préversion publique. Son activation devrait prendre moins de cinq minutes. En tant qu'administrateur de compte, il vous suffit de vous rendre dans la console du compte > paramètres > tab d'activation des fonctionnalités et d'activer le paramètre Predictive Optimization :

Définissez le champ Optimisation prédictive dans Console de compte > Paramètres > Activation des fonctionnalités

En un seul clic, vous bénéficierez de la puissance des Layouts de données optimisées par l'IA sur vos tables gérées par Unity Catalog, rendant vos données plus rapides et plus rentables. Référez-vous à la documentation pertinente pour en savoir plus.

Et nous ne faisons que commencer. Au cours des prochains mois, nous continuerons d'ajouter de nouvelles optimisations à cette fonctionnalité. Restez à l'écoute pour plus de nouveautés.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Et ensuite ?

Introducing AI/BI: Intelligent Analytics for Real-World Data

12 juin 2024/11 min de lecture

Apresentando o AI/BI: analítica inteligente para dados do mundo real

31 janvier 2025/3 min de lecture

Défis

Fonctionnement de l'Optimisation prédictive

Impact

Gartner® : Databricks, leader des bases de données cloud

Démarrer

Ne manquez jamais un article Databricks

Sign up

Et ensuite ?

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 no Databricks