Revenir au contenu principal

Bases de données opérationnelles : comment elles fonctionnent et quand les utiliser

par Équipe Databricks

  • Les bases de données opérationnelles sont conçues pour la vitesse et la précision — optimisées pour le traitement en temps réel, elles gèrent les transactions simultanées lorsque les utilisateurs interagissent avec une application plutôt que des requêtes analytiques à grande échelle.
  • Les bases de données opérationnelles peinent à répondre aux exigences modernes. Les architectures héritées n’ont pas été conçues pour les données non structurées et les charges de travail d’IA, forçant les données à passer par des pipelines ETL lents pour les déplacer entre l’endroit où elles se trouvent et où elles doivent aller.
  • Un nouveau type de base de données émerge. Une Lakehouse est une nouvelle architecture ouverte qui combine les meilleurs éléments des bases de données transactionnelles avec la flexibilité et l’économie du data lake.

Les bases de données opérationnelles — également appelées bases de données de traitement transactionnel en ligne (OLTP) — sont conçues pour traiter des transactions en temps réel qui alimentent les opérations commerciales quotidiennes. Les bases de données opérationnelles sont conçues pour stocker et récupérer des données rapidement, en traitant le flux constant de créations, lectures, mises à jour et suppressions qui maintiennent les applications en fonctionnement et garantissent que les transactions se terminent avec précision et fiabilité.

Ce guide explique le fonctionnement des bases de données opérationnelles, en quoi elles diffèrent des systèmes analytiques et ce qu'il faut pour les concevoir pour des charges de travail à haut débit et à faible latence dans les environnements cloud et distribués modernes.

Caractéristiques principales d'une base de données opérationnelle

Les bases de données opérationnelles sont conçues pour stocker et mettre à jour efficacement et de manière fiable les données transactionnelles en temps réel pour les opérations en direct. Les caractéristiques principales qui définissent les bases de données opérationnelles comprennent :

  • Traitement en temps réel : Les données sont écrites et disponibles immédiatement, sans traitement par lots. Les transactions sont validées en quelques millisecondes, garantissant que les applications reflètent toujours le dernier état de l'entreprise.
  • Opérations CRUD : Quatre opérations fondamentales — Créer, Lire, Mettre à jour, Supprimer — alimentent les applications transactionnelles. Chaque interaction utilisateur, de la soumission d'un formulaire à l'achèvement d'un paiement, déclenche une ou plusieurs de ces opérations.
  • Actualité des données : Les bases de données stockent des données dans leur état actuel. Dans les opérations d'inventaire, par exemple, les données reflètent le compte d'inventaire actuel, et non ce qu'il était au trimestre précédent. Ceci est essentiel pour la prise de décision opérationnelle et les systèmes orientés client.
  • Haute concurrence : Les mécanismes de contrôle de concurrence garantissent que les transactions qui se chevauchent ne corrompent pas les données partagées. Des milliers d'utilisateurs peuvent lire et écrire simultanément sans conflits ni erreurs.
  • Garanties ACID : Les bases de données appliquent les propriétés ACID (atomicité, cohérence, isolation, durabilité) pour garantir que seules les transactions valides et complètes sont stockées, en maintenant l'intégrité des données. Chaque transaction se termine correctement ou pas du tout.

Bases de données opérationnelles vs. entrepôts de données

Une base de données opérationnelle est conçue pour stocker et gérer des données en temps réel afin de soutenir les opérations en cours d'une organisation. En revanche, un entrepôt de données est un référentiel structuré qui fournit des données pour la business intelligence et l'analyse. Les données sont nettoyées, transformées et intégrées dans un schéma optimisé pour l'interrogation et l'analyse.

Bien que les bases de données opérationnelles et les entrepôts de données stockent des données d'entreprise, ils fonctionnent différemment et servent des objectifs distincts.

DimensionBase de données opérationnelleEntrepôt de données
Objectif principalTraitement des transactions en temps réelAnalyse historique et reporting
Actualité des donnéesDonnées actuelles, mises à jour en continuDonnées historiques, chargées périodiquement
Modèle d'interrogationSimple, haute fréquence (une ligne à la fois)Complexe, basse fréquence (agrégations sur des millions de lignes)
Conception du schémaNormalisé (minimiser la redondance)Dénormalisé/schéma en étoile (optimiser la vitesse de lecture)
ConcurrenceMilliers d'utilisateurs simultanésDizaines à centaines d'analystes simultanés
LatenceMillisecondesSecondes à minutes
OptimisationIntensif en écriture, insertions/mises à jour à faible latenceIntensif en lecture, agrégation et récupération rapides
Exemples de systèmesPostgreSQL, MySQL, MongoDB, DynamoDBSnowflake, BigQuery, Redshift, Databricks SQL

Pour la plupart des organisations, il ne s'agit pas d'un choix entre l'un ou l'autre : elles ont besoin des deux types de systèmes de données. Les bases de données opérationnelles facilitent les transactions critiques et capturent les données de ces transactions, qui sont souvent alimentées dans des entrepôts de données pour permettre des analyses et des insights supplémentaires. De plus en plus, la frontière entre les bases de données opérationnelles et les entrepôts de données s'estompe à mesure que les architectures lakehouse unifient les charges de travail opérationnelles et analytiques sur une seule plateforme. Cette convergence permet aux organisations de passer du reporting par lots à l'analyse quasi en temps réel, réduisant ainsi le temps entre la transaction et l'insight.

Rapport

Le guide pratique de l'IA agentique pour l'entreprise

OLTP vs. OLAP : Comprendre les modèles de traitement

Les modèles OLTP et de traitement analytique en ligne (OLAP) sont tous deux essentiels pour gérer et analyser de grands volumes de données, mais ils sont conçus pour des tâches différentes et servent des objectifs distincts. Alors que l'OLTP se concentre sur le stockage et la mise à jour efficaces et fiables des données transactionnelles en temps réel pour les opérations en direct, l'OLAP est conçu pour la business intelligence, l'exploration de données et le reporting analytique.

Les systèmes OLTP gèrent des transactions courtes et effectuent des opérations au niveau des lignes pour traiter efficacement les activités commerciales quotidiennes. Ils sont optimisés pour les charges de travail intensives en écriture, se concentrant sur la gestion d'un volume élevé de transactions petites et concurrentes tout en maintenant la vitesse et l'intégrité des données. Généralement, ils utilisent des schémas normalisés pour maintenir l'intégrité des données et réduire la redondance.

Les systèmes OLAP, en revanche, excellent dans l'exécution de requêtes complexes et l'exécution d'analyses au niveau des colonnes pour analyser de grands volumes de données. Ils sont optimisés pour les opérations intensives en lecture telles que l'agrégation et l'analyse, et utilisent couramment des schémas dénormalisés pour améliorer les performances des requêtes.

Les organisations utilisent souvent le traitement de données OLTP et OLAP pour une business intelligence complète. Le pipeline OLTP vers OLAP déplace les données transactionnelles générées par les bases de données opérationnelles via des processus d'extraction, transformation, chargement (ETL) ou de capture de données modifiées (CDC) vers un entrepôt de données ou un lakehouse, où les analystes les interrogent pour soutenir la prise de décision. Un magasin de données opérationnel (ODS) — un autre composant architectural — peut se situer entre les systèmes OLTP et OLAP pour intégrer des données quasi en temps réel provenant de plusieurs sources pour le reporting opérationnel sans la latence d'un chargement complet de l'entrepôt.

Pourquoi les bases de données OLTP traditionnelles sont insuffisantes pour les charges de travail modernes

Les systèmes OLTP ont été conçus pour le traitement transactionnel rapide et fiable, plutôt que pour les charges de travail analytiques ou pilotées par l'IA. Cependant, les applications modernes exigent une analyse en temps réel, un accès flexible aux données et une intégration avec les systèmes d'IA, créant un fossé entre les forces des architectures OLTP traditionnelles et les besoins des systèmes modernes. Les solutions hybrides peuvent aider à combler ce fossé.

Limites des bases de données OLTP pour les applications d'IA et intelligentes

Les bases de données OLTP traditionnelles manquent des capacités nécessaires pour prendre entièrement en charge les applications d'IA et intelligentes modernes. Elles sont souvent isolées des charges de travail analytiques et d'IA, nécessitant que les données soient déplacées via des pipelines ETL lents avant de pouvoir être utilisées. Elles sont conçues pour les données structurées, sans prise en charge native des formats non structurés, des embeddings ou de la recherche vectorielle — des capacités fondamentales pour les systèmes d'IA modernes. Les schémas rigides rendent difficile l'itération rapide, ce qui est essentiel pour les applications d'agents et d'IA en évolution rapide. Du point de vue de la scalabilité, la mise à l'échelle verticale atteint rapidement des limites pratiques, tandis que la mise à l'échelle horizontale via le partitionnement ajoute une complexité opérationnelle. Les systèmes OLTP traditionnels manquent également souvent des capacités cruciales de gouvernance des données requises pour le déploiement responsable de l'IA, telles que les contrôles d'accès granulaires, le suivi de la lignée et les fonctionnalités de conformité.

Exigences des applications de données modernes

Les applications de données modernes exigent des plateformes capables d'unifier les charges de travail opérationnelles et analytiques sans retards de pipeline par lots, permettant un accès en temps réel aux données fraîches. Elles doivent prendre en charge une large gamme de types de données — y compris les données structurées, semi-structurées, non structurées et vectorielles — au sein d'un seul système pour permettre divers cas d'utilisation. La gouvernance, la sécurité et la lignée doivent être intégrées, pas ajoutées. Ces applications exigent également une scalabilité élastique et sans serveur pour gérer efficacement les charges de travail imprévisibles et une intégration à faible latence avec les pipelines d'IA/ML, les magasins de fonctionnalités et les contextes pilotés par des agents pour prendre en charge des systèmes intelligents et réactifs qui fonctionnent sur des données en évolution continue.

Comment Databricks Lakebase comble le fossé

Une lakebase résout les limitations des systèmes OLTP traditionnels. Les caractéristiques clés d'une lakebase comprennent :

  • Stockage et calcul séparés : Les données sont stockées à moindre coût dans des stockages d'objets cloud, tandis que le calcul s'exécute indépendamment et élastiquement. Cela permet une échelle massive, une haute concurrence et la possibilité de réduire à zéro en moins d'une seconde.
  • Stockage illimité, peu coûteux et durable : Avec les données résidant dans le lac, les coûts de stockage sont considérablement inférieurs à ceux des systèmes de bases de données traditionnels qui nécessitent une infrastructure à capacité fixe. Et son stockage est soutenu par la durabilité du stockage d'objets cloud.
  • Calcul Postgres élastique et sans serveur : Fournit un Postgres entièrement géré et sans serveur qui s'adapte instantanément à la demande et se réduit lorsqu'il est inactif.
  • Branchement, clonage et récupération instantanés : Les bases de données peuvent être branchées et clonées comme les développeurs brancher le code.
  • Charges de travail transactionnelles et analytiques unifiées : Lakebase s'intègre de manière transparente au Lakehouse, partageant la même couche de stockage entre OLTP et OLAP.
  • Ouvert et multicloud par conception : Les données stockées dans des formats ouverts évitent le verrouillage propriétaire et permettent une véritable portabilité entre les clouds.

Des données opérationnelles aux applications intelligentes

Les données opérationnelles sont précieuses car elles alimentent les agents d'IA, les décisions en temps réel et les applications intelligentes. Les bases de données opérationnelles traditionnelles peuvent stocker et traiter efficacement les données en temps réel, mais elles ne sont pas conçues pour les exigences actuelles. Databricks Lakebase aide les organisations à exploiter pleinement la valeur des données opérationnelles pour les applications basées sur l'IA.

Les données opérationnelles comme fondement de l'IA

Chaque transaction au sein d'une organisation génère des données qui peuvent alimenter les modèles d'IA, les décisions des agents et l'analyse prédictive. Databricks Lakebase rend les données opérationnelles disponibles pour l'IA en quasi temps réel en éliminant le délai causé par le déplacement des données des systèmes opérationnels vers l'entrepôt. Par conséquent, les organisations peuvent réaliser des cas d'utilisation tels que des agents d'IA agissant sur des inventaires en direct, des systèmes de détection de fraude qui évaluent les transactions au fur et à mesure qu'elles se produisent, et des copilotes fonctionnant sur des données de compte à jour.

Construire sur la plateforme Databricks

Lakebase est construit sur la plateforme Databricks, qui rassemble les données, l'analytique et l'IA sur une seule plateforme.

  • Delta Lake fournit une base fiable avec des transactions ACID, le voyage dans le temps et l'application de schéma à l'échelle du lakehouse pour des données opérationnelles fiables et flexibles
  • Mosaic AI connecte les données opérationnelles directement à l'entraînement de modèles, au réglage fin, aux agents et au RAG, permettant un développement d'IA transparent sur des données en direct
  • Unity Catalog offre une couche de gouvernance unique et cohérente avec des autorisations unifiées et une lignée de bout en bout sur toutes les données
  • SQL Serverless et le streaming intégré prennent en charge les requêtes en temps réel et l'ingestion continue sans avoir besoin de gérer l'infrastructure

Démarrer avec Databricks Lakebase

Pour commencer avec Databricks Lakebase, connectez vos systèmes OLTP existants via des pipelines CDC ou de streaming dans Delta Lake, éliminant ainsi le besoin de mouvement de données par lots. Une fois ingérées, les données opérationnelles deviennent immédiatement disponibles sur la plateforme, permettant à l'analytique SQL, aux tableaux de bord BI, aux flux de travail ML et aux agents d'IA de fonctionner sur des données fraîches et continuellement mises à jour. Cette approche rationalisée permet aux équipes de passer rapidement de l'ingestion à l'information et à l'action sans les retards ou la complexité traditionnels des systèmes distincts.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.