Passa al contenuto principale

Database operative: come funzionano e quando usarle

di Staff di Databricks

  • I database operazionali sono progettati per velocità e precisione, ottimizzati per l'elaborazione in tempo reale. Gestiscono transazioni concorrenti mentre gli utenti interagiscono con un'applicazione, piuttosto che query analitiche su larga scala.
  • I database operazionali faticano a soddisfare le esigenze moderne. Le architetture legacy non sono state progettate per dati non strutturati e carichi di lavoro di AI, costringendo i dati a passare attraverso lenti pipeline ETL per spostarli da dove si trovano a dove devono andare.
  • Sta emergendo un nuovo tipo di database. Un Lakehouse è una nuova architettura aperta che combina i migliori elementi dei database transazionali con la flessibilità e l'economicità del data lake.

I database operazionali — noti anche come database per l'elaborazione transazionale online (OLTP) — sono progettati per elaborare transazioni in tempo reale che supportano le operazioni quotidiane di un'azienda. I database operazionali sono concepiti per archiviare e recuperare dati rapidamente, gestendo il flusso costante di creazioni, letture, aggiornamenti ed eliminazioni che mantengono le applicazioni in funzione e garantendo che le transazioni vengano completate in modo accurato e affidabile.

Questa guida illustra il funzionamento dei database operazionali, le loro differenze rispetto ai sistemi analitici e cosa è necessario per progettarli per carichi di lavoro ad alta produttività e bassa latenza negli ambienti cloud e distribuiti moderni.

Caratteristiche principali di un database operazionale

I database operazionali sono progettati per archiviare e aggiornare in modo efficiente e affidabile i dati transazionali in tempo reale per le operazioni live. Le caratteristiche principali che definiscono i database operazionali includono:

  • Elaborazione in tempo reale: I dati vengono scritti e resi disponibili immediatamente, non in batch. Le transazioni vengono confermate in millisecondi, garantendo che le applicazioni riflettano sempre lo stato più recente dell'azienda.
  • Operazioni CRUD: Quattro operazioni fondamentali — Create (Creazione), Read (Lettura), Update (Aggiornamento), Delete (Eliminazione) — supportano le applicazioni transazionali. Ogni interazione dell'utente, dall'invio di un modulo al completamento di un pagamento, attiva una o più di queste operazioni.
  • Attualità dei dati: I database archiviano dati sullo stato corrente. Nelle operazioni di inventario, ad esempio, i dati riflettono il conteggio attuale delle scorte, non quello del trimestre precedente. Questo è fondamentale per il processo decisionale operativo e per i sistemi rivolti ai clienti.
  • Elevata concorrenza: I meccanismi di controllo della concorrenza assicurano che le transazioni sovrapposte non corrompano i dati condivisi. Migliaia di utenti possono leggere e scrivere contemporaneamente senza conflitti o errori.
  • Garanzie ACID: I database applicano le proprietà ACID (Atomicità, Coerenza, Isolamento, Durabilità) per garantire che vengano archiviate solo transazioni valide e complete, mantenendo l'integrità dei dati. Ogni transazione viene completata correttamente o non viene eseguita affatto.

Database operazionali vs. data warehouse

Un database operazionale è progettato per archiviare e gestire dati in tempo reale a supporto delle operazioni correnti di un'organizzazione. Al contrario, un data warehouse è un repository strutturato che fornisce dati per la business intelligence e l'analisi. I dati vengono puliti, trasformati e integrati in uno schema ottimizzato per l'interrogazione e l'analisi.

Sebbene sia i database operazionali che i data warehouse archivino dati aziendali, operano in modo diverso e servono scopi distinti.

DimensioneDatabase operazionaleData warehouse
Scopo principaleElaborazione transazionale in tempo realeAnalisi storica e reporting
Attualità dei datiDati correnti, aggiornati continuamenteDati storici, caricati periodicamente
Modello di interrogazioneSemplice, ad alta frequenza (una riga alla volta)Complesso, a bassa frequenza (aggregazioni su milioni di righe)
Progettazione dello schemaNormalizzato (riduce al minimo la ridondanza)Denormalizzato/schema a stella (ottimizza la velocità di lettura)
ConcorrenzaMigliaia di utenti concorrentiDa decine a centinaia di analisti concorrenti
LatenzaMillisecondiSecondi o minuti
OttimizzazioneIntensivo in scrittura, inserimenti/aggiornamenti a bassa latenzaIntensivo in lettura, aggregazione e recupero rapidi
Sistemi di esempioPostgreSQL, MySQL, MongoDB, DynamoDBSnowflake, BigQuery, Redshift, Databricks SQL

Per la maggior parte delle organizzazioni, non si tratta di una scelta tra l'uno o l'altro: sono necessari entrambi i tipi di sistemi di dati. I database operazionali facilitano le transazioni mission-critical e acquisiscono i dati da tali transazioni, che vengono spesso immessi nei data warehouse per alimentare ulteriori analisi e insight. Sempre più spesso, il confine tra database operazionali e data warehouse si sta sfumando poiché le architetture lakehouse unificano i carichi di lavoro operazionali e analitici su un'unica piattaforma. Questa convergenza consente alle organizzazioni di passare dal reporting batch all'analisi quasi in tempo reale, riducendo il tempo tra la transazione e l'insight.

Report

Il playbook sull'AI agentiva per l'enterprise

OLTP vs. OLAP: Comprensione dei modelli di elaborazione

Sia i modelli OLTP che quelli di elaborazione analitica online (OLAP) sono essenziali per la gestione e l'analisi di grandi volumi di dati, ma sono progettati per compiti diversi e servono scopi distinti. Mentre l'OLTP si concentra sull'archiviazione e l'aggiornamento efficiente e affidabile dei dati transazionali in tempo reale per le operazioni live, l'OLAP è progettato per la business intelligence, il data mining e il reporting analitico.

I sistemi OLTP gestiscono transazioni brevi ed eseguono operazioni a livello di riga per elaborare in modo efficiente le attività aziendali quotidiane. Sono ottimizzati per carichi di lavoro intensivi in scrittura, concentrandosi sulla gestione di un elevato volume di transazioni piccole e concorrenti, mantenendo velocità e integrità dei dati. Tipicamente, utilizzano schemi normalizzati per mantenere l'integrità dei dati e ridurre la ridondanza.

I sistemi OLAP, d'altra parte, eccellono nell'esecuzione di query complesse ed eseguono scansioni a livello di colonna per analizzare grandi volumi di dati. Sono ottimizzati per operazioni intensive in lettura come aggregazione e analisi, e utilizzano comunemente schemi denormalizzati per migliorare le prestazioni delle query.

Le organizzazioni utilizzano spesso sia l'elaborazione dati OLTP che OLAP per una business intelligence completa. La pipeline da OLTP a OLAP sposta i dati transazionali generati dai database operazionali attraverso processi di extract, transform, load (ETL) o change data capture (CDC) in un data warehouse o lakehouse, dove gli analisti li interrogano per supportare il processo decisionale. Un operational data store (ODS) — un altro componente architetturale — può trovarsi tra i sistemi OLTP e OLAP per integrare dati quasi in tempo reale da più origini per il reporting operativo senza la latenza di un caricamento completo del warehouse.

Perché i tradizionali database OLTP non sono sufficienti per i carichi di lavoro moderni

I sistemi OLTP sono stati progettati per l'elaborazione transazionale rapida e affidabile, piuttosto che per carichi di lavoro analitici o basati sull'IA. Tuttavia, le applicazioni moderne richiedono analisi in tempo reale, accesso flessibile ai dati e integrazione con sistemi di IA, creando un divario tra i punti di forza delle architetture OLTP tradizionali e le esigenze dei sistemi moderni. Le soluzioni ibride possono aiutare a colmare questo divario.

Limitazioni dei database OLTP per applicazioni AI e intelligenti

I database OLTP tradizionali mancano delle capacità per supportare pienamente le moderne applicazioni AI e intelligenti. Sono spesso isolati dai carichi di lavoro analitici e AI, richiedendo che i dati vengano spostati attraverso lente pipeline ETL prima di poter essere utilizzati. Sono progettati per dati strutturati, senza supporto nativo per formati non strutturati, embedding o ricerca vettoriale — capacità fondamentali per i moderni sistemi AI. Schemi rigidi rendono difficile iterare rapidamente, il che è fondamentale per applicazioni agenti e AI in rapida evoluzione. Dal punto di vista della scalabilità, la scalabilità verticale raggiunge rapidamente limiti pratici, mentre la scalabilità orizzontale tramite sharding aggiunge complessità operativa. I sistemi OLTP tradizionali spesso mancano anche di cruciali capacità di governance dei dati richieste per un'implementazione responsabile dell'IA, come controlli di accesso granulari, tracciamento della lineage e funzionalità di conformità.

Requisiti delle moderne applicazioni dati

Le moderne applicazioni dati richiedono piattaforme in grado di unificare i carichi di lavoro operazionali e analitici senza ritardi nelle pipeline batch, consentendo l'accesso in tempo reale a dati freschi. Devono supportare un'ampia gamma di tipi di dati — inclusi dati strutturati, semi-strutturati, non strutturati e vettoriali — all'interno di un unico sistema per abilitare diversi casi d'uso. Governance, sicurezza e lineage devono essere integrati, non aggiunti in seguito. Queste applicazioni richiedono anche scalabilità elastica e serverless per gestire in modo efficiente carichi di lavoro imprevedibili e integrazione a bassa latenza con pipeline AI/ML, feature store e contesti basati su agenti per supportare sistemi intelligenti e reattivi che operano su dati in continua evoluzione.

Come Databricks Lakebase colma il divario

Un lakebase risolve le limitazioni dei sistemi OLTP tradizionali. Le caratteristiche chiave di un lakebase includono:

  • Archiviazione e calcolo separati: I dati vengono archiviati a basso costo negli object store cloud, mentre il calcolo viene eseguito in modo indipendente ed elastico. Ciò consente una scalabilità massiccia, un'elevata concorrenza e la possibilità di scalare fino a zero in meno di un secondo.
  • Archiviazione illimitata, a basso costo e durevole: Con i dati che risiedono nel lake, i costi di archiviazione sono notevolmente inferiori rispetto ai sistemi di database tradizionali che richiedono infrastrutture a capacità fissa. E la sua archiviazione è supportata dalla durabilità dell'archiviazione di oggetti cloud.
  • Calcolo Postgres elastico e serverless: Fornisce un servizio Postgres completamente gestito e serverless che scala istantaneamente con la domanda e si riduce quando è inattivo.
  • Branching, clonazione e ripristino istantanei: I database possono essere sottoposti a branching e clonazione nel modo in cui gli sviluppatori eseguono il branching del codice.
  • Carichi di lavoro transazionali e analitici unificati: Lakebase si integra perfettamente con il Lakehouse, condividendo lo stesso livello di archiviazione tra OLTP e OLAP.
  • Aperto e multicloud per progettazione: I dati archiviati in formati aperti evitano il lock-in proprietario e consentono una vera portabilità tra i cloud.

Dai dati operazionali alle applicazioni intelligenti

I dati operativi sono preziosi perché alimentano gli agenti AI, le decisioni in tempo reale e le applicazioni intelligenti. I database operativi tradizionali possono archiviare ed elaborare in modo efficiente i dati in tempo reale, ma non sono progettati per le esigenze odierne. Databricks Lakebase aiuta le organizzazioni a sbloccare il pieno valore dei dati operativi per le applicazioni basate sull'AI.

I dati operativi come fondamento per l'AI

Ogni transazione all'interno di un'organizzazione genera dati che possono alimentare modelli AI, decisioni degli agenti e analisi predittive. Databricks Lakebase rende i dati operativi disponibili per l'AI quasi in tempo reale eliminando il ritardo causato dallo spostamento dei dati dai sistemi operativi al data warehouse. Di conseguenza, le organizzazioni possono realizzare casi d'uso come agenti AI che agiscono su inventario live, sistemi di rilevamento frodi che valutano le transazioni al momento della loro occorrenza e copiloti che operano su dati di account aggiornati.

Costruire sulla Databricks Platform

Lakebase è costruito sulla Databricks Platform, che riunisce dati, analytics e AI in un'unica piattaforma.

  • Delta Lake fornisce una base affidabile con transazioni ACID, time travel e applicazione dello schema su scala lakehouse per dati operativi affidabili e flessibili
  • Mosaic AI collega i dati operativi direttamente all'addestramento dei modelli, al fine-tuning, agli agenti e al RAG, consentendo uno sviluppo AI senza interruzioni su dati live
  • Unity Catalog offre un livello di governance unico e coerente con permessi unificati e lineage end-to-end su tutti i dati
  • Serverless SQL e lo streaming integrato supportano query in tempo reale e ingestion continua senza la necessità di gestire l'infrastruttura

Iniziare con Databricks Lakebase

Per iniziare con Databricks Lakebase, collega i tuoi sistemi OLTP esistenti tramite pipeline CDC o di streaming in Delta Lake, eliminando la necessità di spostamento dati orientato al batch. Una volta ingeriti, i dati operativi diventano immediatamente disponibili sulla piattaforma, consentendo ad analytics SQL, dashboard BI, flussi di lavoro ML e agenti AI di operare su dati freschi e continuamente aggiornati. Questo approccio semplificato consente ai team di passare rapidamente dall'ingestion all'insight e all'azione senza i tradizionali ritardi o la complessità di sistemi separati.

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.