Depuis que nous avons annoncé la préversion publique de Lakebase cet été, des milliers de clients Databricks ont développé des applications intelligentes basées sur les données sur Lakebase, l'utilisant pour alimenter la diffusion de données d'application, les Magasins de fonctionnalités et la mémoire d'agent, tout en gardant ces données étroitement alignées avec les flux de travail d'analytique et de machine learning.
À l'approche de la fin de l'année, nous sommes ravis de proposer un nouvel ensemble d'améliorations particulièrement intéressantes :
Ces fonctionnalités représentent une étape importante dans la définition de la catégorie lakebase, une architecture de base de données serverless qui sépare le stockage OLTP du compute. Elles sont rendues possibles par la combinaison de la technologie de stockage et de Postgres serverless issue de notre acquisition de Neon avec l'infrastructure multi-cloud de niveau entreprise de Databricks.
Les charges de travail applicatives modernes suivent rarement des schémas de trafic prévisibles. L'activité des utilisateurs fluctue tout au long de la journée, les Jobs en arrière-plan génèrent des pics d'écriture et les systèmes basés sur des agents peuvent créer des pics de simultanéité soudains. Les bases de données opérationnelles traditionnelles exigent que les équipes planifient manuellement les pics d'utilisation et ajustent la capacité, ce qui entraîne souvent un surprovisionnement et une complexité inutile.
Lakebase reposant sur une architecture qui sépare la couche de stockage de la couche de compute et permet une mise à l'échelle indépendante des deux, nous lançons aujourd'hui la fonctionnalité de mise à l'échelle automatique du compute qui peut ajuster dynamiquement le compute en fonction de la demande de la charge de travail active. Lorsque le trafic augmente, la capacité de calcul est mise à l'échelle pour maintenir les performances. Lorsque l'activité ralentit, compute diminue. Les bases de données inactives sont suspendues après une courte période d'inactivité et redémarrent rapidement à l'arrivée de nouvelles requêtes. Compute s'ajuste dynamiquement pour correspondre à la demande de la charge de travail, aussi bien dans les environnements de production que de développement.

Résultat : moins de temps passé à gérer la capacité et plus de temps consacré au comportement des applications.
La création d'une nouvelle base de données ou la reprise d'une base de données inactive ne devrait pas ralentir le développement. Avec cette mise à jour, les nouvelles bases de données Lakebase sont provisionnées en quelques secondes, et les instances suspendues reprennent rapidement lorsque le trafic revient. Cela permet de lancer plus facilement des environnements à la demande, d'itérer pendant le développement et de prendre en charge des workflows où les bases de données sont fréquemment créées et supprimées.
Pour les équipes qui créent et testent des applications, un startup plus rapide réduit les frictions et maintient des cycles d'itération courts, surtout lorsqu'il est associé à la création de branches et à la mise à l'échelle automatique.
Développer et faire évoluer des applications en production implique un changement constant. Les équipes valident les mises à jour de schémas, déboguent les problèmes complexes et exécutent des pipelines CI qui dépendent de vues cohérentes des données. Le clonage de bases de données traditionnel peine à suivre le rythme, car les copies complètes sont lentes, gourmandes en stockage et risquées sur le plan opérationnel.
Le service de stockage Lakebase implémente la création de branches « copy-on-write », et nous proposons désormais cette fonctionnalité à nos clients sous forme de création de branches de base de données. Les branches sont des environnements instantanés de type copy-on-write qui restent isolés tout en partageant le stockage sous-jacent. Cela permet de créer facilement des environnements de développement, de test et de préproduction en quelques secondes et d'itérer sur la logique applicative sans toucher aux systèmes de production.

En pratique, l'utilisation des branches réduit les frictions dans le cycle de développement et aide les équipes à avancer plus rapidement et en toute confiance. (Mais les tests en production restent déconseillés !)
Un problème de données n'est pas forcément une panne. Parfois, le problème est plus subtil : un bug qui écrit discrètement des données incorrectes au fil du temps, une modification du schéma qui se comporte différemment que prévu ou un script de backfill qui affecte plus de lignes que prévu. Ces problèmes passent souvent inaperçus jusqu'à ce que les équipes aient besoin de s'appuyer sur des données historiques pour l'analyse, le reporting ou le comportement des applications en aval.
Dans les environnements traditionnels, la restauration après de tels scénarios peut être pénible. Les équipes sont obligées de reconstituer l'historique manuellement, de réexécuter les logs ou de mettre en place des systèmes temporaires simplement pour récupérer une version fiable connue de leurs données. Ce processus est chronophage, sujet aux erreurs et requiert souvent une expertise approfondie des bases de données.
Lakebase permet désormais de gérer ces situations beaucoup plus facilement. Grâce aux sauvegardes automatiques et à la restauration à un instant donné, les équipes peuvent restaurer une base de données à un moment précis en quelques secondes. Cela permet aux équipes chargées des applications de se remettre rapidement des problèmes de données causés par des bogues applicatifs ou des erreurs opérationnelles, sans avoir besoin de réexécutions manuelles ou de workflows de récupération complexes.

Au-delà de la restauration, les systèmes de production doivent également pouvoir évoluer à mesure que les volumes de données augmentent. Avec cette mise à jour, Lakebase augmente sa capacité de stockage prise en charge jusqu'à 8 To, soit une multiplication par quatre par rapport aux limites précédentes, ce qui le rend adapté aux charges de travail applicatives plus importantes et plus exigeantes.
Lakebase prend désormais également en charge Postgres 17, en plus de la prise en charge continue de Postgres 16. Cela permet aux équipes d'accéder aux dernières améliorations de Postgres tout en maintenant la compatibilité avec les applications existantes.
Ensemble, ces mises à jour font de Lakebase une base plus solide pour exécuter des charges de travail opérationnelles de production sur Databricks.
Lakebase inclut désormais une nouvelle interface utilisateur actualisée, conçue pour simplifier les workflows quotidiens. La création de bases de données, la gestion des branches et la compréhension du comportement de la capacité sont plus simples, avec de meilleures valeurs par défaut et un provisionnement plus rapide. Cette nouvelle UI est accessible via l'icône du lanceur d'applications pour la nouvelle offre de mise à l'échelle automatique de Lakebase. L'offre de provisionnement précédente de Lakebase apparaîtra dans l'UI dans les semaines à venir.

Comme indiqué précédemment, des milliers de clients Databricks ont développé des applications sur Lakebase. Parce que Lakebase est entièrement intégré à la Databricks Data Intelligence Platform, les données opérationnelles résident dans la même fondation qui prend en charge l'analytique, l'IA, les applications et les flux de travail d'agents. Unity Catalog fournit une gouvernance, un contrôle d'accès, un audit et un lignage cohérents. Les Databricks Apps et les frameworks d'agents peuvent utiliser Lakebase pour intégrer l'état en temps réel au contexte historique, éliminant ainsi le besoin d'ETL ou de réplication.
Pour les praticiens, cela crée un environnement unifié où les données opérationnelles et analytiques restent alignées, sans avoir à jongler entre plusieurs systèmes pour maintenir les applications connectées à l'intelligence.
Citations de deux premiers utilisateurs :
« Lakebase permet à une équipe agentique d'accéder rapidement et en libre-service aux données dont elle a besoin pour ses modèles, qu'il s'agisse de sinistres historiques ou de transactions en temps réel, et c'est vraiment très puissant. » — Dragon Sky, architecte en chef, Ensemble Health
« Lakebase nous offre un stockage durable et à faible latence pour l'état de l'application, afin que nos applications de données se chargent rapidement, s'actualisent de manière fluide et prennent même en charge le partage de liens de page entre les utilisateurs. » — Bobby Muldoon, Vice-président de l'ingénierie des données, YipitData
Ces nouvelles fonctionnalités sont disponibles dès aujourd'hui dans les régions AWS us-east-1, us-west-2, eu-west-1 et seront progressivement déployées dans d'autres régions au cours des prochaines semaines. Consultez la documentation du produit pour en savoir plus et essayer les dernières fonctionnalités.
Cette mise à jour représente une avancée significative pour Lakebase. Mais nous ne nous arrêtons pas là. Attendez-vous à de nombreuses mises à jour passionnantes après les fêtes de fin d'année prochaine !
Bonnes fêtes de la part de l'équipe Lakebase !
Produto
June 12, 2024/11 min de leitura

