Passa al contenuto principale

Data Warehousing intelligente su Databricks - Clonato

Questa architettura di riferimento mostra come la Databricks Data Intelligence Platform consenta data warehousing moderno e BI combinando ingestione batch e streaming, storage governato, analisi SQL scalabili e AI integrata su un lakehouse unificato.

Image of a data warehousing session at the Data + AI Summit 2025, featuring Databricks' Lakehouse architecture.

Riepilogo dell'architettura

L'architettura supporta la reportistica tradizionale, dashboard in tempo reale, la modellazione predittiva e l'analisi self-service, il tutto nel rispetto degli standard aziendali di sicurezza, governance e prestazioni.

Questa soluzione dimostra come Databricks Data Intelligence Platform, basata su Databricks Lakehouse, aiuti le organizzazioni a modernizzare la propria strategia di data warehousing, soddisfacendo al contempo le esigenze sia dei team di dati che degli stakeholder aziendali.

L'architettura inizia con un lakehouse aperto e governato, gestito da Unity Catalog. I dati vengono acquisiti da una serie di sistemi, tra cui database operativi, app SaaS, flussi di eventi e file system, e arrivano in un livello di archiviazione centrale. La data intelligence della piattaforma gestisce qualsiasi attività, dall'ETL e l'analisi SQL alle dashboard e ai casi d'uso di AI. Supportando l'accesso flessibile tramite SQL, strumenti di BI e query in linguaggio naturale, la piattaforma accelera la distribuzione dei prodotti di dati e rende gli insight accessibili in tutta l'organizzazione.

Casi d'uso

Casi d'uso tecnici

  • Acquisizione di dati strutturati, non strutturati, batch e in streaming da diverse sorgenti
  • Creazione di pipeline ETL dichiarative e robuste
  • Modellazione di fatti, dimensioni e data mart utilizzando un'architettura medallion
  • Esecuzione di query SQL ad alta concorrenza per reportistica e creazione di dashboard
  • Integrazione dei risultati di ML direttamente nel data warehouse per l'uso a valle

Casi d'uso aziendali

  • Fornitura di dashboard in tempo reale su vendite, operazioni o metriche dei clienti
  • Abilitazione dell'esplorazione ad hoc tramite interfacce in linguaggio naturale come Genie
  • Supporto a casi d'uso predittivi come la previsione della domanda e la modellazione del churn
  • Condivisione di prodotti di dati governati tra reparti o con partner
  • Fornitura di insight rapidi e affidabili per i team finanziari, di marketing e di prodotto

Funzionalità chiave con la Data Intelligence

La componente di data intelligence di questa architettura rende la piattaforma più intelligente, adattiva e facile da usare per diversi profili e carichi di lavoro. Applica l'AI e la consapevolezza dei metadati in tutto il sistema per semplificare le esperienze e automatizzare i processi decisionali:

  • Interfaccia in linguaggio naturale (Genie): Comprende il contesto aziendale e consente agli utenti di porre domande sui dati in un linguaggio semplice
  • Consapevolezza semantica: Riconosce le relazioni tra tabelle, colonne e pattern di utilizzo per suggerire join, filtri o calcoli
  • Ottimizzazione predittiva: Ottimizza continuamente le prestazioni delle query e l'allocazione delle risorse di calcolo in base ai carichi di lavoro storici
  • Governance unificata: Etichetta, classifica e traccia l'utilizzo degli asset di dati, rendendo l'esplorazione più intuitiva e sicura
  • Funzionalità chiave: Una piattaforma auto-ottimizzante che si adatta ai tuoi dati e ai tuoi utenti
  • Elemento di differenziazione: La data intelligence è integrata nell'acquisizione, nelle query, nella governance e nella visualizzazione, non aggiunta a posteriori

Flusso di dati con funzionalità chiave ed elementi di differenziazione

  1. Sorgenti di dati: I dati sono archiviati in un'ampia varietà di sistemi, tra cui app aziendali (ad es. SAP, Salesforce), database, dispositivi IoT, log delle applicazioni e API esterne. Queste sorgenti possono produrre dati strutturati, semistrutturati o non strutturati.
  2. Acquisizione dei dati: Consente di importare dati tramite processi batch, change data capture (CDC) o streaming. Queste pipeline alimentano l'architettura lakehouse quasi in tempo reale o a intervalli pianificati, a seconda del sistema di origine e del caso d'uso.
    • Principale elemento di differenziazione: Acquisizione unificata per tutte le modalità (batch, streaming e CDC) senza la necessità di infrastrutture o pipeline separate
  3. Trasformazione dei dati, ETL, pipeline dichiarative: Una volta acquisiti, i dati vengono trasformati attraverso l'architettura medallion e progressivamente perfezionati da dati grezzi a dati curati.
    • Dalla zona Raw alla zona Bronze: Dati acquisiti da sistemi sorgente esterni in cui le strutture in questo livello corrispondono alle strutture delle tabelle del sistema sorgente "così come sono", senza alcuna trasformazione o aggiornamento dei dati
    • Dalla zona Bronze alla zona Silver: Standardizzazione e pulizia dei dati in entrata
    • Dalla zona Silver alla zona Gold: Applicazione della logica aziendale per creare modelli riutilizzabili
    • Fatti e dimensioni data mart: Aggregazione e cura dei dati per l'analisi a valle
    • Principale elemento di differenziazione: Pipeline dichiarative di livello di produzione con lineage, osservabilità ed evoluzione dello schema integrate
  4. Dati curati per casi d'uso di AI: I dati curati provenienti dai data mart possono essere utilizzati per addestrare o applicare modelli di machine learning. Questi modelli supportano casi d'uso come la previsione della domanda, il rilevamento delle anomalie e lo scoring dei clienti.
    • I risultati dei modelli sono archiviati insieme ai dati tradizionali del data warehouse per un facile accesso tramite SQL o dashboard
    • I risultati possono essere aggiornati in base a una pianificazione o valutati in tempo reale, a seconda dei requisiti
    • Principale elemento di differenziazione: Co-allocazione di carichi di lavoro di analisi e AI sulla stessa piattaforma, senza necessità di spostamento dei dati. I risultati dei modelli sono trattati come asset nativi, interrogabili e governati.
  • Strumenti di reporting BI alimentati da query: Databricks Lakehouse supporta query ad alta concorrenza e bassa latenza tramite elaborazione serverless e si connette facilmente ai più diffusi strumenti di BI.
    • Editor di query integrato e cronologia delle query
    • Le query restituiscono risultati governati e aggiornati da data mart o output di modelli arricchiti
    • Elemento distintivo chiave: Databricks Lakehouse consente agli strumenti di BI di interrogare direttamente i dati — senza replicazione — riducendo la complessità, evitando costi di licenza aggiuntivi e abbassando il TCO complessivo. Combinato con l'elaborazione serverless e l'ottimizzazione intelligente, offre prestazioni di livello data warehouse con un tuning minimo.
  • Dashboard: Possono essere create direttamente in Databricks o in strumenti di BI esterni come Power BI o Tableau. Gli utenti possono descrivere gli elementi visivi in linguaggio naturale e Databricks Assistant genererà i grafici corrispondenti, che potranno poi essere perfezionati utilizzando un'interfaccia point-and-click.
    • Crea visualizzazioni utilizzando l'input in linguaggio naturale
    • Modifica ed esplora le dashboard in modo interattivo con filtri e drill-down
    • Pubblica e condividi in modo sicuro le dashboard all'interno dell'organizzazione, anche con utenti esterni al workspace Databricks
    • Elemento distintivo chiave: Offre un'esperienza low-code e assistita dall'AI per la creazione e l'esplorazione di dashboard su dati governati in tempo reale
  • Distribuzione di dati curati: Una volta perfezionati, i dati possono essere distribuiti oltre le dashboard:
    • Condivisi con applicazioni a valle o database operativi per decisioni transazionali
    • Utilizzati in notebook collaborativi per l'analisi
    • Distribuiti tramite Delta Sharing a partner, team o consumatori esterni con una governance unificata
  • Query in linguaggio naturale (NLQ): Gli utenti aziendali possono accedere ai dati governati utilizzando il linguaggio naturale. Questa esperienza conversazionale, basata sull'AI generativa, consente ai team di andare oltre le dashboard statiche e ottenere insight in tempo reale in modalità self-service. La NLQ traduce l'intento dell'utente in SQL sfruttando la semantica dell'organizzazione e i metadati di Unity Catalog.
    • Supporta domande ad hoc, interattive e in tempo reale che non sono predefinite nelle dashboard
    • Si adatta in modo intelligente all'evoluzione della terminologia e del contesto aziendale nel tempo
    • Sfrutta la governance dei dati e i controlli di accesso esistenti tramite Unity Catalog
    • Fornisce verificabilità e tracciabilità delle query in linguaggio naturale per conformità e trasparenza
    • Elemento distintivo chiave: Si adatta continuamente all'evoluzione dei concetti aziendali, fornendo risposte accurate e sensibili al contesto senza richiedere competenze SQL
  • Funzionalità della piattaforma: governance, prestazioni, orchestrazione e storage aperto: L'architettura è supportata da un insieme di funzionalità native della piattaforma che garantiscono sicurezza, ottimizzazione, automazione e interoperabilità lungo l'intero ciclo di vita dei dati. Funzionalità chiave:
    • Governance: Unity Catalog fornisce controllo degli accessi centralizzato, lineage, auditing e classificazione dei dati per tutti i carichi di lavoro
    • Prestazioni: Il motore Photon, la memorizzazione nella cache intelligente e l'ottimizzazione basata sul carico di lavoro offrono query rapide senza tuning manuale
    • Orchestrazione: L'orchestrazione integrata gestisce le pipeline di dati, i flussi di lavoro AI e i processi pianificati per carichi di lavoro batch e in streaming, con supporto nativo per la gestione delle dipendenze e la gestione degli errori
    • Storage aperto: I dati sono memorizzati in formati aperti (Delta Lake, Parquet, Iceberg), consentendo l'interoperabilità tra gli strumenti, la portabilità tra le piattaforme e la durabilità a lungo termine senza vendor lock-in
    • Monitoraggio e verificabilità: Visibilità end-to-end sulle prestazioni delle query, sull'esecuzione delle pipeline e sull'accesso degli utenti per un migliore controllo e gestione dei costi
    • Elemento distintivo chiave: I servizi a livello di piattaforma sono integrati — non sovrapposti — garantendo che governance, automazione e prestazioni siano coerenti in tutti i flussi di lavoro dei dati, cloud e team
  • Consigliato

    Architettura end-to-end di Data Intelligence con Azure Databricks

    Architettura di riferimento

    Architettura end-to-end di Data Intelligence con Azure Databricks
    Architettura di riferimento per l'ingestione dei dati

    Architettura di riferimento

    Architettura di riferimento per l'ingestione dei dati
    Architettura di riferimento per la previsione delle perdite di credito

    Architettura di settore

    Architettura di riferimento per la previsione delle perdite di credito
    Architettura di riferimento per la previsione delle perdite su crediti - Copia

    Architettura di settore

    Architettura di riferimento per la previsione delle perdite su crediti - Copia