Ouvrir la base de données OLTP à d'autres moteurs
par Pranav Aurora, Cheng Chen et Hristo Stoyanov
Le déplacement des données de votre base de données opérationnelle impliquait traditionnellement la configuration et la surveillance d'un pipeline pour chaque source vers chaque destination. Pour la plupart des équipes, cela représente un effort humain fragile, non géré et en O(n).
Aujourd'hui, nous changeons cette approche. Disponible dès maintenant en aperçu public, Lakebase propose un flux de données de modification (CDF) qui est stocké et géré dans les Tables gérées Unity Catalog. Activez le flux une fois et laissez tous les moteurs, modèles et agents en lire directement.

Bien que Lakeflow Connect ait rendu l'ingestion de données dans le Lakehouse triviale, l'extraction des données de la base de données OLTP reste un processus manuel et à forte friction. L'extraction de la capture des données de modification (CDC) oblige les équipes à configurer des connecteurs de base de données, à surveiller les états de réplication, à atténuer les impacts sur les performances et à suivre les erreurs à l'aide d'outils déconnectés. Ce modèle échoue dans le développement basé sur les agents qui repose sur la branche de données rapide. La maintenance de pipelines d'extraction complexes et non gérés pour chaque nouvelle branche vers chaque destination n'est pas durable.
Le Lakehouse a éliminé les pipelines d'extraction pour l'analytique en stockant les données une fois dans des formats ouverts (Apache Iceberg™, Delta Lake). Il a établi le flux de données de modification (CDF) comme norme pour la réplication en aval, alimentant les flux ETL, de streaming et les journaux d'audit.

Vous pouvez maintenant configurer ce CDF nativement sur Lakebase. L'activation prend moins d'une minute et s'applique à toutes les tables d'un projet. À partir de ce flux unique, vous pouvez créer des pipelines de streaming avec SDP, générer des vues matérialisées avec DBSQL ou calculer et stocker des embeddings avec Agent Bricks. Chaque consommateur en aval s'abonne au même flux exact, complètement isolé de votre charge de travail opérationnelle principale.
Avec Lakebase, vos données opérationnelles ne sont plus isolées du Lakehouse. Lakebase propose déjà des Tables synchronisées, établissant le modèle de service des jeux de données Gold directement aux applications. Lakebase CDF complète l'architecture. Votre base de données opérationnelle est maintenant votre couche Bronze native, éliminant le besoin de pipelines séparés ou de travaux d'extraction pour intégrer les données dans le Lakehouse. Au lieu de cela, vous bénéficiez d'une gouvernance et d'une lignée complètes sur le cycle de vie des données via Unity Catalog.
Ce n'est que le début. Nous apportons l'ouverture que vous aimez du Lakehouse directement à Lakebase. Restez à l'écoute pour le Data and AI Summit, et rejoignez notre session de présentation sur cette architecture.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.