Revenir au contenu principal

Annonce de la préversion publique de Lakebase

Postgres entièrement géré pour les applications de données et les agents d’IA

Databricks Lakebase: Postgres for data apps and AI agents

Publié: 11 juin 2025

Annonces10 min de lecture

Summary

  • Les bases de données traditionnelles sont lentes et coûteuses à provisionner, ne s’adaptent pas bien, sont cloisonnées des plateformes d’analyse et ne s’intègrent pas dans un flux de travail de développeur moderne.
  • Lakebase est une base de données Postgres entièrement gérée, intégrée au lakehouse et conçue pour l’IA.
  • Les entreprises utilisent Lakebase pour diffuser des données et des fonctionnalités à partir du lakehouse, alimenter des applications intelligentes autonomes et analyser les données opérationnelles dans le lakehouse.

Lors du Data and AI Summit, nous avons présenté une nouvelle catégorie de bases de données opérationnelles appelées lakebases pour la création d’applications intelligentes. Aujourd’hui, nous sommes ravis d’annoncer la préversion publique de Databricks Lakebase, la première base de données Postgres entièrement gérée, conçue pour les applications de données et l’IA. 

Les clients combinent leurs données opérationnelles et analytiques pour créer des applications intelligentes : diffusion de fonctionnalités et de modèles, création d’applications autonomes ou analyse des données opérationnelles dans un lakehouse. Toutefois, ils continuent de rencontrer des difficultés en matière d’approvisionnement, de mise à l’échelle et d’absence d’expérience de développement moderne pour les données, car les bases de données n’ont pas connu beaucoup d’innovations au cours des dernières décennies. 

Les lakebases fournissent une solution pour l’ère de l’IA. Dans ce blog, nous allons présenter les principales fonctionnalités et les principaux avantages de Databricks Lakebase, et expliquer comment les clients utilisent déjà Lakebase aujourd’hui.

Présentation de Lakebase

Les bases de données OLTP n’ont pas fondamentalement changé depuis les années 90. Même lorsqu’elles sont déployées sur le cloud, ces bases de données héritées sont lentes et coûteuses à approvisionner et à gérer. Les bases de données opérationnelles sont généralement déployées dans une pile distincte de la plateforme d’analytique, ce qui crée des silos entre les données transactionnelles et analytiques. De plus, ces bases de données ne s’intègrent pas non plus dans un workflow de développement moderne nécessaire au développement de l’IA. L’architecture traditionnelle implique généralement des bases de données distinctes pour les environnements de développement, de test, de préproduction et de production, chacun étant approvisionné, rempli et géré séparément.

Databricks Lakebase est une base de données unique en son genre, basée sur des normes open source, avec une architecture hautement scalable, basée sur la séparation du calcul et du stockage, et spécialement conçue pour le développement d’applications modernes. Lakebase est profondément intégré au lakehouse pour faciliter la combinaison des piles opérationnelles, analytiques et d’IA.

Basé sur Postgres open source 

Au cours des 7 dernières années, Postgres est devenue la base de données la plus populaire dans la communauté des développeurs et est le choix de base de facto pour les applications modernes. Elle est open source, possède un écosystème d’extensions dynamique et est prise en charge par une communauté robuste de bibliothèques, d’outils et de frameworks. Les ingénieurs savent déjà comment travailler avec elle, et tous les modèles fondamentaux sont entraînés sur de grandes quantités de données disponibles pour l’écosystème Postgres, ce qui la rend très accessible aux applications et aux agents intelligents.

Avec la prise en charge des extensions populaires telles que PostGIS et pgvector, et un vaste écosystème de pilotes et d’outils, Lakebase offre un ensemble complet de fonctionnalités qui seront familières aux équipes de développement. 

Séparation du calcul et du stockage

Lakebase exploite une architecture qui sépare le calcul et le stockage, ce qui permet une mise à l’échelle indépendante tout en prenant en charge une faible latence (<10 ms) et des transactions à haute concurrence (>10 k qps).

Lakebase est entièrement géré par Databricks, ce qui signifie qu’il n’y a aucune infrastructure à approvisionner ou à gérer. Le résultat est un service de base de données qui supprime les frictions des processus d’infrastructure et de développement, ce qui permet aux équipes d’avancer plus rapidement sans compromettre le contrôle ou la fiabilité.

  • Haute disponibilité avec des secondaires lisibles : la haute disponibilité multizone protège contre les défaillances zonales en approvisionnant des ressources de calcul secondaires dans les zones. Les secondaires peuvent éventuellement être lisibles pour fournir un isolement et une mise à l’échelle horizontale des charges de travail de lecture.
  • Stockage et récupération des données : toutes les transactions sont conservées dans un stockage chiffré qui est durable au niveau régional et donc protégé contre toute défaillance de zone unique. La récupération à un point dans le temps est disponible via une fenêtre de protection des données qui offre jusqu’à 35 jours de temps de récupération.
  • Branchement pour un environnement de test isolé ou une récupération à un point dans le temps : Lakebase utilise le branchement copy-on-write pour créer un clone instantané sans copie de la base de données, ainsi qu’un calcul dédié pour fonctionner sur cette branche. La branche enfant est gérée indépendamment de la branche parente principale et peut être créée en fonction des données du parent au point dans le temps actuel, ou à un point dans le temps précédent ou au numéro de séquence de journal (LSN). Cela peut être utilisé pour créer un environnement de test isolé avec des données de production ou pour des opérations de récupération à un point dans le temps.

DevEx moderne, conçu pour l’IA

Lakebase est basé sur la technologie Neon, qui fournit un branchement copy-on-write et un calcul serverless à mise à l’échelle automatique. Le branchement copy-on-write permet de créer instantanément une nouvelle base de données avec les mêmes données et le même schéma qu’une base de données existante, sans affecter l’original. Cette nouvelle base de données est économique, car elle ne duplique pas les données sous-jacentes.  La mise à l’échelle automatique du calcul serverless permet des temps de démarrage inférieurs à la seconde et s’adapte en fonction de la demande, avec une mise à l’échelle à zéro permettant une utilisation rentable du calcul.

Combinées, la mise à l’échelle automatique serverless du calcul et les fonctionnalités de branchement modifient complètement le paradigme de développement des applications. Les développeurs peuvent instantanément créer une branche de base de données pour qu’elle corresponde à chaque branche git et n’ont pas à se soucier de la mise en place de nouvelles instances de base de données, de l’échantillonnage des données pour les environnements de développement ou de test, ou de l’hydratation de plusieurs bases de données.

Pour les développeurs et les agents, cela signifie que les environnements de base de données éphémères peuvent être rapidement créés, utilisés et mis hors service à un coût quasi nul, avec pratiquement aucun effort.

L’expérience complète du développeur Neon dans Lakebase et de nombreuses autres fonctionnalités intéressantes seront bientôt disponibles.

Intégré au lakehouse

Lakebase intègre une couche de base de données transactionnelle au lakehouse et hérite de la maturité opérationnelle de la plateforme Databricks, y compris l’observabilité, la sécurité et les contrôles d’accès. Lakebase se synchronise avec les tables gérées par Unity Catalog, ce qui permet de combiner rapidement et facilement les charges de travail opérationnelles, analytiques et d’IA sans pipelines ETL personnalisés. Par conséquent, vous pouvez créer des applications intelligentes qui consomment des fonctionnalités ou des prédictions générées dans le lakehouse et mettre à jour la couche analytique avec des données opérationnelles récentes, le tout au sein d’une plateforme unifiée.

  • Synchronisation des données entièrement gérée : les pipelines de synchronisation des données faciles à configurer offrent un moyen simple et scalable de gérer les données entre les tables gérées par Unity Catalog et Lakebase. Les options de fréquence de synchronisation des données incluent Snapshot unique, Déclenché ou Continu.
  • Diffusion de fonctionnalités et de modèles : diffusez des fonctionnalités et des modèles de machine learning pour les applications avec Lakebase comme magasin de fonctionnalités en ligne et le lakehouse comme magasin hors ligne pour l’entraînement et l’analyse.
  • Gouvernance unifiée : tirez parti de l’intégration native avec Unity Catalog et l’identité Databricks pour simplifier le contrôle d’accès sur l’ensemble de la plateforme. Tirez parti de Databricks Identity et OAuth pour maintenir une identité cohérente entre vos utilisateurs opérationnels et analytiques. Enregistrez une base de données Postgres dans Unity Catalog pour fournir une gouvernance unifiée et un contrôle d’accès pour les utilisateurs d’analytique.
  • Intégration des applications Databricks : créez et déployez des applications full-stack sur Databricks avec Lakebase alimentant les interactions transactionnelles. Les applications Databricks prennent en charge Lakebase en tant que type de ressource natif.
  • Environnement de développement unifié : utilisez l’éditeur SQL Databricks pour interroger directement Lakebase et parcourir les données.
  • Surveillance intégrée : fournit des métriques de base de données clés telles que les transactions par seconde, le nombre de connexions ouvertes et l’utilisation des ressources.
  • Sécurité réseau : Lakebase est intégré aux fonctionnalités de sécurité réseau d’entreprise de Databricks, y compris PrivateLink et les listes de contrôle d’accès IP, pour fournir une sécurité réseau cohérente
  • Multicloud : Lakebase est disponible sur tous les fournisseurs de cloud sans replatforming. Lors de la préversion publique, Lakebase est disponible sur Azure et AWS, avec la prise en charge de Google Cloud Platform à ajouter à l’avenir.

Les clients utilisent Lakebase

Avec des centaines de clients dans le programme de préversion privée, il a été passionnant de voir la variété des cas d’utilisation, notamment :

  • Diffusion de données et/ou de fonctionnalités à partir du lakehouse pour des applications telles que les recommandations personnalisées ou la segmentation de la clientèle,
  • Création d’applications et d’agents pour le traitement des commandes, la signature interactive du workflow et les chatbots.
  • Analyse des données opérationnelles dans le lakehouse en synchronisant les données avec le lakehouse pour l’analyse historique des commandes ou l’historique des chatbots pour les données d’entraînement.
Chez Heineken, notre objectif est de devenir le brasseur le mieux connecté. Pour ce faire, nous avions besoin d’un moyen d’unifier tous nos ensembles de données afin d’accélérer le passage des données à la valeur. Databricks est depuis longtemps notre base pour l’analytique, créant des informations telles que des recommandations de produits et des améliorations de la chaîne d’approvisionnement. Notre plateforme de données analytiques évolue désormais pour devenir une plateforme de données d’IA opérationnelle et doit fournir ces informations aux applications à faible latence. —Jelle Van Etten, responsable de la plateforme de données mondiale, Heineken
Chez Tibber, permettre aux clients de prendre le contrôle de leur consommation d’énergie nécessite une infrastructure de données flexible. L’intégration de Lakebase avec Databricks facilite la diffusion de données analytiques et transactionnelles, ce qui nous aide à fournir des informations en temps réel à nos clients. — Niklas Nordansjö, responsable de la plateforme de données, Tibber AS

Un réseau de partenaires solide aide les clients de Lakebase à travailler avec leurs partenaires technologiques et intégrateurs de systèmes existants pour l’intégration des données, la business intelligence et la gouvernance. Nous sommes ravis d’avoir un groupe incroyable de partenaires de lancement de l’industrie pour Lakebase.

Lakebase launch partners

 

Chez dbt Labs, nous changeons la façon dont l’ingénierie des données est effectuée. Avec le nouveau Lakebase de Databricks, nos clients communs pourront désormais combiner des données transactionnelles à faible latence et des données analytiques en une seule plateforme sur Databricks. Cela nous aidera tous les deux à fournir une IA à l’échelle de l’entreprise à nos clients. Nous sommes impatients d’inaugurer la nouvelle ère de l’analytique avec Databricks. — Ryan Segar, directeur des produits, dbt Labs

Résumé

Lakebase combine la familiarité et l’extensibilité de Postgres, la scalabilité d’une architecture serverless moderne, une expérience de développement moderne, avec l’expérience de données unifiée du lakehouse et la maturité opérationnelle de la plateforme Databricks Data Intelligence. En combinant ces éléments en une seule offre entièrement gérée, Lakebase permet aux équipes de créer des applications intelligentes axées sur les données sans la complexité opérationnelle traditionnellement associée aux systèmes transactionnels.

Lakebase est disponible en préversion publique avec la tarification disponible ici. Si vous cherchez à créer des applications qui intègrent l’analytique et l’IA, c’est la pièce manquante de votre pile, prête à accélérer le développement et à simplifier les opérations. Si vous êtes un administrateur d’espace de travail ou de compte, vous pouvez l’activer directement à partir de votre espace de travail Databricks. Essayez-le dès aujourd’hui !

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.