30 mars 2026

Comment le développement logiciel agentique va changer les bases de données

Ce dont les agents ont réellement besoin de l'infrastructure de base de données, et ce que nous avons appris en construisant Lakebase

par Ippokratis Pandis, Nikita Shamgunov et Reynold Xin

Dans notre article de blog précédent, nous avons présenté Lakebase, l'architecture de base de données de troisième génération qui sépare fondamentalement le stockage et le calcul. Dans cet article, nous explorons une conséquence critique de ce changement : comment les agents IA transforment-ils le cycle de vie du développement logiciel, et de quel type de bases de données les agents IA ont-ils réellement besoin ?

Le cycle de vie du développement logiciel connaît une transformation radicale. Les LLM ont permis une nouvelle génération de frameworks agiles qui peuvent analyser les exigences, écrire du code, exécuter des tests, déployer des services et affiner itérativement les applications, le tout à une vitesse record. En conséquence, le coût marginal de la création et du déploiement d'applications chute considérablement.

Même si nous n'en sommes encore qu'aux premières étapes du développement logiciel agile, nous avons constamment observé, tant au sein de Databricks que chez nos clients, que le rythme d'expérimentation s'accélère et que le volume d'applications créées explose. Alors que le monde passe du logiciel artisanal au développement logiciel agile, nous identifions trois tendances émergentes qui redéfiniront conjointement les exigences des systèmes de bases de données modernes :

Le développement logiciel passera d'un processus conventionnel lent et linéaire à un processus évolutif rapide.
Les logiciels deviendront globalement plus précieux, mais la valeur de chaque application individuelle chutera à mesure que le coût marginal de développement logiciel diminuera. Cela signifie que nous avons besoin d'une infrastructure capable de prendre en charge le développement logiciel à un coût marginal minimal. De manière cruciale, l'architecture doit également tenir compte du fait que l'une de ces bases de données petites et éphémères peut devenir un système de production avec un trafic important, rendant la capacité à prendre en charge une croissance transparente et élastique une exigence architecturale fondamentale.
Les écosystèmes ouverts deviendront une exigence opérationnelle stricte, pas seulement une préférence.

Voici un aperçu plus approfondi de chacune de ces tendances et de la manière dont Lakebase est architecturé de manière unique pour les prendre en charge.

Développement logiciel évolutif rapide

Étant donné qu'une grande partie du cycle de vie du développement logiciel était historiquement très coûteuse (écriture de code, tests, opérations), la création et l'exploitation d'une nouvelle application nécessitaient un investissement d'ingénierie important. Par conséquent, le développement logiciel traditionnel était optimisé pour une planification minutieuse et un processus relativement linéaire.

Les agents changent cette dynamique. Les applications peuvent désormais être générées, modifiées et redéployées en quelques minutes. Au lieu de construire un système soigneusement conçu, les développeurs et les agents explorent de plus en plus de vastes espaces d'implémentations possibles. Le développement commence à ressembler à un algorithme évolutif :

Générer une version initiale d'une application.
Créer rapidement des variantes avec différents schémas, invites ou logiques.
Évaluer les résultats.
Poursuivre le développement à partir des versions les plus réussies.

Selon la complexité, chaque itération évolutive peut durer de quelques secondes à quelques heures, ce qui est 100 à 1000 fois plus rapide que les cycles de développement pré-LLM. En fait, notre télémétrie des environnements de production Lakebase montre qu'en moyenne, chaque projet de base de données comporte environ 10 branches et certaines bases de données avec des branches imbriquées atteignant des profondeurs de plus de 500 itérations (c'est-à-dire 500 itérations dans l'évolution).

L'infrastructure de code telle que Git prend déjà très bien en charge ce flux de travail. Les développeurs ou les agents peuvent créer une branche de la base de code avec git checkout -b instantanément. Cependant, l'infrastructure de base de données héritée n'offre aucun moyen rapide et rentable de créer une branche de l'état de la base de données.

Lakebase est conçu pour prendre en charge nativement ce flux de travail évolutif agile. Les agents peuvent créer une branche d'une base de données de production ou de test instantanément et à un coût quasi nul. Étant donné que Lakebase utilise un mécanisme de branchement O(1) de copie sur écriture de métadonnées au niveau de la couche de stockage, aucune copie physique coûteuse des données n'est requise. Vous branchez simplement les données avec le code et ne payez pour le calcul de la base de données que pendant la durée de l'expérience.

Sensibilité au coût

Comme mentionné précédemment, bien que les logiciels deviennent globalement plus précieux, la valeur de chaque application individuelle chutera à mesure que le coût marginal de développement logiciel diminuera. De nombreux services générés par des agents sont de petits outils internes, des prototypes ou des flux de travail ciblés. Ils peuvent s'exécuter occasionnellement ou servir des charges de travail très ponctuelles et pilotées par des événements.

Dans ce monde, nous avons besoin d'une infrastructure capable de prendre en charge le nouveau développement logiciel à un coût marginal/incrémental minimal. Toute base de données qui impose des centaines de dollars par mois comme prix plancher de base est impossible à justifier si l'application elle-même offre une valeur limitée ou expérimentale. Nos données montrent que pour environ la moitié de ces applications agiles, la durée de vie du calcul de la base de données est inférieure à 10 secondes.

Les bases de données traditionnelles ont été conçues comme des composants d'infrastructure toujours actifs avec des frais généraux de provisionnement et d'exploitation fixes. Ce modèle convient aux applications volumineuses et stables, mais échoue économiquement lorsque les applications sont nombreuses, éphémères et de courte durée.

La nature sans serveur et élastique de Lakebase répond directement à cet impératif de coût. En dissociant complètement les instances de calcul de la couche de stockage, Lakebase peut adapter automatiquement le calcul de la base de données en fonction de la charge en moins d'une seconde. De manière cruciale, il réduit également le calcul de la base de données à zéro lorsqu'il n'est pas utilisé, éliminant complètement le plancher de coût et atteignant des coûts de ralenti quasi nuls.

Croissance de petit à grand

La nature du développement piloté par les agents signifie qu'un volume énorme de bases de données petites et éphémères est constamment créé pour les tests, le prototypage et les flux de travail ciblés. Le défi architectural crucial est que les développeurs, et les agents eux-mêmes, ne peuvent pas prédire quelles de ces applications naissantes décolleront soudainement et nécessiteront une échelle de production massive.

L'architecture de la base de données doit donc intrinsèquement prendre en charge une croissance transparente et élastique, d'une petite instance à faible coût à un système de production à grande échelle avec un trafic important. Cette transition doit s'effectuer sans nécessiter de re-plateforme, de provisionnement ou d'étapes de migration complexes de la part de l'utilisateur. L'architecture seule doit gérer l'évolution, faisant de la capacité à passer instantanément d'une capacité quasi nulle à une capacité massive une exigence fondamentale pour un monde où l'exploration agile est le modèle de développement par défaut.

Écosystèmes open source

Les systèmes agiles tirent leurs capacités des LLM entraînés sur de vastes corpus de code source et de documentation technique publiquement disponibles. Ce biais d'entraînement leur donne une familiarité opérationnelle approfondie avec les écosystèmes open source, les API et la sémantique des erreurs.

Les bases de données telles que Postgres sont profondément intégrées dans le monde de l'open source. Leurs interfaces, leurs comportements et leurs codes d'erreur apparaissent dans les données d'entraînement sur lesquelles les modèles modernes apprennent. Par conséquent, les agents peuvent générer des requêtes, des schémas et des intégrations pour eux de manière beaucoup plus fiable. Les bases de données propriétaires font face à un désavantage inhérent car les agents manquent simplement de contexte suffisant pour les exploiter efficacement.

Pour le développement piloté par les agents, l'ouverture n'est plus seulement une préférence philosophique, c'est une exigence pratique pour une automatisation fiable. Mais cette exigence doit s'étendre au-delà de l'interface de requête ; elle doit atteindre la couche de stockage elle-même. Alors que les bases de données cloud de deuxième génération peuvent utiliser des moteurs d'exécution open source, elles enferment toujours vos données dans des formats de stockage propriétaires et internes.

Lakebase est construit sur Postgres, mais pousse l'ouverture encore plus loin. Il stocke les données dans des formats de pages Postgres standard et ouverts directement dans le stockage objet du cloud (le data lake). Cela permet aux agents, aux moteurs d'analyse externes et aux nouveaux outils d'interagir nativement avec les données, sans jamais être limités par un seul moteur de calcul propriétaire.

Des bases de données pour l'ère agile

Le changement n'est pas hypothétique, il est déjà en cours. Dans le service Lakebase de Databricks, les agents IA créent actuellement environ 4 fois plus de bases de données que les utilisateurs humains.

Ce point de données capture les tendances décrites ci-dessus dans un seul graphique. Les agents sont des créateurs prolifiques d'environnements de bases de données — ils créent des instances pour des expériences, créent des branches pour des tests et les suppriment une fois terminés. L'infrastructure qui dessert ces charges de travail doit supporter ce modèle de manière économique et opérationnelle.

Des propriétés telles que l'efficacité des coûts, l'agilité et l'ouverture ont toujours été souhaitables. Mais l'essor du développement de logiciels par agents les a transformées de simples commodités en exigences fondamentales. Les bases de données qui imposent des coûts de base élevés, manquent de primitives de branchement ou verrouillent les données dans des formats propriétaires seront de plus en plus en décalage avec la façon dont les logiciels sont construits.

C'est précisément l'espace de conception de Lakebase. Il a été conçu pour les réalités économiques et techniques spécifiques que crée le développement piloté par l'IA : branchement évolutif à coût zéro, véritable élasticité de la mise à l'échelle à zéro, stockage Postgres ouvert sur le lac et opérations d'auto-gestion. Alors que les agents participent de plus en plus à la construction et à l'évolution des logiciels, les bases de données les mieux adaptées à ce nouveau monde sont celles conçues dès le départ pour l'expérimentation, l'ouverture et l'élasticité.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs