Depuis des décennies, les bases de données sont l'épine dorsale des logiciels : alimentant discrètement tout, des flux de paiement du commerce électronique à la planification des ressources d'entreprise. Chaque élément de logiciel dans le monde, chaque application, chaque flux de travail, chaque ligne de code générée par l'IA dépend en fin de compte d'une base de données sous-jacente. Au fil du temps, nous avons complètement réinventé la façon dont les applications sont construites, mais les bases de données sous-jacentes ont très peu changé depuis les années 1980. Elles reposent en grande partie sur des architectures antérieures au cloud moderne et souffrent des problèmes suivants :
Il est temps que les bases de données évoluent.
De nouveaux systèmes commencent à émerger qui répondent aux limitations des bases de données traditionnelles. Une Lakebase est une nouvelle architecture ouverte qui combine les meilleurs éléments des bases de données transactionnelles avec la flexibilité et l'économie du lac de données. Les Lakebases sont rendues possibles par une conception fondamentalement nouvelle : la séparation du calcul du stockage et le placement des données de la base de données directement dans le stockage cloud à faible coût (« lac ») dans des formats ouverts, tout en permettant à la couche de calcul transactionnel de fonctionner indépendamment au-dessus.
Cette séparation est la percée essentielle. Les bases de données traditionnelles regroupent le CPU et le stockage dans un seul système monolithique qui doit être provisionné, géré et payé comme une seule grande machine. Lakebase divise ces couches. Les données vivent ouvertement dans le lac, tandis que le moteur de base de données devient une couche de calcul serverless entièrement gérée (par exemple, Postgres) qui peut évoluer instantanément. Cette architecture élimine une grande partie des coûts, de la complexité et du verrouillage qui ont défini les bases de données pendant des décennies, et elle est particulièrement puissante pour les charges de travail modernes basées sur l'IA et les agents, où les développeurs veulent lancer de nombreuses instances, expérimenter librement et ne payer que ce qu'ils utilisent.
Une Lakebase possède les caractéristiques clés suivantes :
Le stockage est séparé du calcul : Les données sont stockées à moindre coût dans des magasins d'objets cloud (« lac »), tandis que le calcul s'exécute indépendamment et de manière élastique. Cela permet une mise à l'échelle massive, une concurrence élevée et la possibilité de réduire l'échelle jusqu'à zéro en moins d'une seconde (ce qui n'est pas possible dans les systèmes de base de données hérités), éliminant ainsi le besoin de maintenir des machines de base de données coûteuses en fonctionnement au ralenti.
Stockage illimité, à faible coût et durable : Avec les données vivant dans le lac, le stockage devient essentiellement infini et considérablement moins cher que les systèmes de base de données traditionnels qui nécessitent une infrastructure à capacité fixe. Et son stockage est soutenu par la durabilité du stockage d'objets cloud (par exemple, S3), offrant une durabilité de 99,999999999 % par défaut. Ceci est de loin supérieur à la configuration de base de données traditionnelle consistant à avoir des répliques pour la redondance du stockage (le plus souvent mises à jour de manière asynchrone, ce qui signifie qu'il existe un risque de perte de données dans de nombreuses configurations en cas de double panne).
Calcul Postgres élastique et serverless : Lakebase fournit Postgres entièrement géré et serverless qui évolue instantanément avec la demande et diminue en cas d'inactivité. Les coûts s'alignent directement sur l'utilisation, ce qui le rend idéal pour les charges de travail en rafale, les environnements de développement et les agents d'IA créant des instances temporaires.
Branchement, clonage et récupération instantanés : Les bases de données peuvent être branchées et clonées de la même manière que les développeurs branchent le code. Même les bases de données à l'échelle du pétaoctet peuvent être copiées en quelques secondes, ce qui permet une expérimentation rapide, des restaurations sûres et une restauration instantanée sans surcharge opérationnelle.
Charges de travail transactionnelles et analytiques unifiées : Lakebase s'intègre de manière transparente à Lakehouse, partageant la même couche de stockage entre OLTP et OLAP. Cela permet d'exécuter des analyses en temps réel, de l'apprentissage automatique et une optimisation basée sur l'IA directement sur les données transactionnelles sans les déplacer ni les dupliquer.
Ouvert et multicloud par conception : Les données stockées dans des formats ouverts évitent le verrouillage propriétaire et permettent une véritable portabilité sur AWS, Azure et au-delà. La flexibilité multicloud intégrée prend en charge la reprise après sinistre, la liberté à long terme et une économie plus forte au fil du temps.
Ce sont les principaux attributs de Lakebase. Les systèmes transactionnels de qualité entreprise nécessitent des capacités supplémentaires telles que la sécurité, la gouvernance, l'audit et la haute disponibilité, mais avec une Lakebase, ces fonctionnalités ne doivent être mises en œuvre et gérées qu'une seule fois, sur une seule base ouverte. Lakebase représente la prochaine évolution des bases de données : des systèmes transactionnels reconstruits pour le cloud, pour les développeurs et pour l'ère de l'IA.
Pour comprendre pourquoi une nouvelle ère est nécessaire, il est utile d'examiner comment l'architecture de la base de données a évolué au cours des cinquante dernières années. Nous considérons cette évolution en trois générations distinctes :

Exemples : MySQL, Postgres, Oracle classique
Les systèmes de base de données ont commencé comme des monolithes absolus. À l'ère pré-cloud, le réseau était la partie la plus lente de tout système. La seule façon de concevoir une base de données haute performance était de lier étroitement le calcul (CPU/RAM) et le stockage (disque) à l'intérieur d'une seule machine physique. Bien que cela ait du sens pour les limitations matérielles des années 1980, cela a créé une cage rigide où les données étaient piégées dans des formats propriétaires et la mise à l'échelle signifiait l'achat d'une boîte plus grande.
Exemples : Aurora, Oracle Exadata
À mesure que l'infrastructure cloud s'améliorait, les fournisseurs ont physiquement séparé le stockage du calcul, déplaçant le stockage dans des niveaux backend propriétaires. Ces systèmes étaient des merveilles d'ingénierie qui repoussaient les limites du débit. Cependant, ils ne sont pas allés assez loin. La séparation était purement une optimisation interne. Étant donné que les données restent enfermées dans un format propriétaire accessible uniquement par un seul moteur, les systèmes de génération 2 souffrent d'impasses structurelles :
Nous pensons que ces systèmes sont dans un état de transition vers la 3e génération ultime.
Une Lakebase pousse l'architecture découplée à sa conclusion logique ultime. Comme la génération 2, elle sépare le calcul du stockage, mais avec une différence essentielle : l'infrastructure de stockage et les formats de données sont complètement ouverts.
S'appuyant sur cette architecture, elle peut résoudre les 3 défis susmentionnés :
À bien des égards, une Lakebase est ce que vous construiriez si vous deviez repenser les bases de données OLTP aujourd'hui, maintenant que le stockage d'objets fiable et bon marché et l'élasticité du cloud sont disponibles. À mesure que les organisations évoluent plus rapidement en adoptant le cloud et l'IA, nous nous attendons à ce que ce modèle devienne une base standard pour la construction de systèmes transactionnels.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
