Passa al contenuto principale

Blog: Introducing Materialized Views and Streaming Tables for Databricks SQL

Dai agli analisti di dati la possibilità di acquisire, trasformare e distribuire dati aggiornati interamente in SQL

m

Siamo entusiasti di annunciare che le viste materializzate e le tabelle di streaming sono ora disponibili pubblicamente in Databricks SQL su AWS e Azure. Le tabelle di streaming forniscono l'ingestione incrementale dallo spazio di archiviazione cloud e dalle code di messaggi. Le viste materializzate vengono aggiornate automaticamente e in modo incrementale man mano che arrivano nuovi dati. Insieme, queste due funzionalità consentono di creare pipeline di dati senza infrastruttura, semplici da configurare e in grado di fornire dati aggiornati all'azienda. In questo post su un blog, esploreremo come queste nuove funzionalità consentono ad analisti e analytics engineer di fornire applicazioni di dati e di analitiche in modo più efficace nel data warehouse.

Sfondo

Il data warehousing e l'ingegneria dei dati sono fondamentali per qualsiasi organizzazione basata sui dati. I data warehouse fungono da posizione principale per le analitiche e il reporting, mentre l'ingegneria dei dati comporta la creazione di pipeline di dati per acquisire e trasformare i dati.

Tuttavia, i data warehouse tradizionali non sono progettati per l'acquisizione e la trasformazione in streaming. L'acquisizione di grandi volumi di dati a bassa latenza in un data warehouse tradizionale è costosa e complessa perché i data warehouse legacy erano progettati per l'elaborazione batch. Di conseguenza, i team hanno dovuto implementare soluzioni macchinose che richiedevano configurazioni esterne al warehouse e l'utilizzo dello storage cloud come posizione di staging intermedia. La gestione di questi sistemi è costosa, soggetta a errori e di complessa manutenzione.

La Databricks Lakehouse Platform stravolge questo paradigma tradizionale fornendo una soluzione unificata. Delta Live Tables (DLT) è lo strumento migliore per la data ingegneria e lo streaming, e Databricks SQL offre un rapporto prezzo/prestazioni fino a 12 volte migliore per i carichi di lavoro analitiche sui data lake esistenti.

Inoltre, ora partner come dbt possono integrarsi con queste funzionalità native, che descriveremo più in dettaglio nel corso di questo annuncio.

Sfide comuni affrontate dagli utenti di data warehouse

I data warehouse fungono da posizione principale per le analitiche e la distribuzione dei dati per la reportistica interna tramite applicazioni di Business Intelligence (BI). Le organizzazioni affrontano diverse sfide nell'adozione dei data warehouse:

  • Self-service: gli analisti SQL spesso affrontano la sfida di dover dipendere da altre risorse e strumenti per risolvere i problemi dei dati, rallentando il ritmo con cui è possibile rispondere alle esigenze aziendali.
  • Dashboard di BI lente: le dashboard di BI create con grandi volumi di dati tendono a restituire i risultati lentamente, ostacolando l'interattività e l'usabilità quando si risponde a varie domande.
  • Dati non aggiornati: le dashboard di BI spesso presentano dati non aggiornati, come quelli del giorno precedente, a causa dei Job ETL eseguiti solo di notte.

Utilizza SQL per acquisire e trasformare i dati senza strumenti di terze parti

Le tabelle di streaming e le viste materializzate forniscono agli analisti SQL le best practice di data engineering. Consideriamo un esempio di acquisizione continua di file appena arrivati da una posizione S3 e di preparazione di una semplice tabella di reporting. Con Databricks SQL, l'analista può individuare e visualizzare rapidamente in anteprima i file in S3 e configurare una semplice pipeline ETL in pochi minuti, utilizzando solo poche righe di codice come nell'esempio seguente:

1- Scopri e visualizza in anteprima i dati in S3

2- Ingestire i dati in modalità streaming

3- Aggregare i dati in modo incrementale utilizzando una vista materializzata

Cosa sono le viste materializzate?

Le viste materializzate riducono i costi e migliorano la latenza delle query pre-calcolando le query lente e i calcoli utilizzati di frequente. In un contesto di data ingegneria, vengono utilizzate per la trasformazione dei dati. Ma sono preziose anche per i team di analisti in un contesto di data warehousing, perché possono essere utilizzate per (1) accelerare le query degli utenti finali e le dashboard di BI e (2) condividere i dati in modo sicuro. Basate su Delta Live Tables, le MV riducono la latenza delle query pre-calcolando query altrimenti lente e calcoli utilizzati di frequente.

Blog: Introducing Materialized Views and Streaming Tables for Databricks SQL

Vantaggi delle viste materializzate:

  • Accelera le dashboard di BI. Poiché le MV precalcolano i dati, le query degli utenti finali sono molto più veloci perché non devono rielaborare i dati interrogando direttamente le tabelle di base.
  • Riduci i costi di elaborazione dei dati. I risultati delle viste materializzate vengono aggiornati in modo incrementale, evitando la necessità di ricreare completamente la vista all'arrivo di nuovi dati.
  • Migliora il controllo dell'accesso ai dati per una condivisione sicura. Gestisci in modo più rigoroso quali dati possono essere visualizzati dai consumatori controllando l'accesso alle tabelle di base.

Cosa sono le tabelle di streaming?

L'acquisizione in DBSQL viene eseguita con tabelle di streaming (ST). Puoi considerare le ST come ideali per portare i dati nelle tabelle "bronze". Le ST abilitano l'acquisizione continua e scalabile da qualsiasi sorgente di dati, inclusi archivi cloud, bus di messaggi (EventHub, Apache Kafka) e altro ancora.

Blog: Introducing Materialized Views and Streaming Tables for Databricks SQL

Vantaggi delle tabelle di streaming:

  • Sfrutta i casi d'uso in tempo reale. Supporto per analitiche/BI in tempo reale, machine learning e casi d'uso operativi con dati di streaming.
  • Aumenta la scalabilità. Gestisci in modo più efficiente grandi volumi di dati tramite l'elaborazione incrementale rispetto a batch di grandi dimensioni.
  • Abilita più professionisti. La semplice sintassi SQL rende lo streaming dei dati accessibile a tutti i data engineer e gli analisti.

Storia del cliente: come Adobe e Danske Spil accelerano le query delle dashboard con le viste materializzate

Blog: Introducing Materialized Views and Streaming Tables for Databricks SQL

Databricks SQL consente agli analisti di dati e SQL di acquisire, pulire e arricchire i dati per soddisfare le esigenze aziendali senza dipendere da strumenti di terze parti. Tutto può essere fatto interamente in SQL, semplificando il flusso di lavoro.

Sfruttando le viste materializzate e le tabelle di streaming, puoi:

  • Dai più potere ai tuoi analisti: gli analisti SQL e di dati possono facilmente acquisire, pulire e arricchire i dati per soddisfare rapidamente le esigenze della tua azienda. Poiché tutto può essere fatto interamente in SQL, non sono necessari strumenti di terze parti.
  • Accelerare le dashboard di BI: creare MV per accelerare le analitiche SQL e i report di BI pre-calcolando i risultati in anticipo.
  • Passa all'analitiche in tempo reale: combina le viste materializzate con le tabelle di streaming per creare pipeline di dati incrementali per i casi d'uso in tempo reale. Puoi configurare pipeline di dati in streaming per l'ingestion e la trasformazione direttamente nel Databricks SQL warehouse.

Adobe ha un approccio avanzato all'AI, con la missione di rendere il mondo più creativo, produttivo e personalizzato grazie all'intelligenza artificiale come co-pilota che amplifica l'ingegno umano. In qualità di cliente di punta della preview delle Viste Materializzate su Databricks SQL, ha riscontrato enormi vantaggi tecnici e di business che la aiutano a realizzare questa missione:

“La conversione in viste materializzate ha comportato un drastico miglioramento delle prestazioni delle query, con un tempo di esecuzione che è passato da 8 minuti a soli 3 secondi. Questo permette al nostro team di lavorare in modo più efficiente e di prendere decisioni più rapide sulla base delle informazioni dettagliate ottenute dai dati. Inoltre, i risparmi aggiuntivi sui costi sono stati davvero d'aiuto.” — Karthik Venkatesan, Security Software Engineering Sr. Manager, Adobe

Fondata nel 1948, Danske Spil, la lotteria nazionale danese, è stata uno dei nostri primi clienti ad accedere in anteprima alle viste materializzate di DB SQL. Søren Klein, Data Ingegneria Team Lead, condivide la sua prospettiva su ciò che rende le Materialized View così preziose per l'organizzazione:

“In Danske Spil usiamo le Viste Materializzate per accelerare le prestazioni dei nostri dati di tracciamento del sito web. Con questa funzionalità evitiamo la creazione di tabelle non necessarie e una maggiore complessità, ottenendo al contempo la velocità di una vista persistente che accelera la soluzione di reporting per l'utente finale.” — Søren Klein, Responsabile del team di Data ingegneria, Danske Spil

Semplice ingestione e trasformazione in streaming con dbt

Databricks e dbt Labs collaborano per semplificare l'ingegneria dell'analisi in tempo reale sull'architettura lakehouse. La combinazione del popolare framework di ingegneria delle analitiche di dbt con la Databricks Lakehouse Platform fornisce potenti funzionalità:

  • dbt + Streaming Tables: l'ingestion in streaming da qualsiasi origine è ora integrata nei progetti dbt. Utilizzando SQL, gli analytics engineer possono definire ed eseguire l'ingestion di dati cloud/in streaming direttamente all'interno delle loro pipeline dbt.
  • dbt e viste materializzate: la creazione di pipeline efficienti diventa più semplice con dbt, sfruttando le potenti funzionalità di aggiornamento incrementale di Databricks. Gli utenti possono utilizzare dbt per creare ed eseguire pipeline basate su viste materializzate, riducendo i costi dell'infrastruttura con un calcolo efficiente e incrementale.

Punti chiave

Il data warehousing e l'ingegneria dei dati sono componenti fondamentali di qualsiasi azienda basata sui dati. Tuttavia, la gestione di soluzioni separate per ogni aspetto è costosa, soggetta a errori e di difficile manutenzione. La Databricks Lakehouse Platform porta le migliori funzionalità di ingegneria dei dati in modo nativo in Databricks SQL, offrendo agli utenti SQL una soluzione unificata. Inoltre, la nostra integrazione con partner come dbt consente ai nostri clienti comuni di sfruttare queste funzionalità uniche per fornire insight più rapidi, analisi in tempo reale e flussi di lavoro di data engineering semplificati.

Puoi iniziare oggi stesso con Databricks e Databricks SQL, oppure consultare la documentazione per le viste materializzate e le tabelle di streaming.

 

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Non perdere mai un post di Databricks

Iscriviti al nostro blog e ricevi gli ultimi post direttamente nella tua casella di posta elettronica.

Cosa succederà adesso?

Data Warehousing

June 28, 2023/6 min de leitura

Novidade no Unity Catalog: Lakehouse Federation

Social Card

Plataforma > Produtos > Anúncios

April 24, 2024/3 min de leitura

Anunciando a disponibilidade geral de notebooks Databricks em SQL Warehouses