Passa al contenuto principale

Concetti di data warehousing: esplorare i processi comuni

Il data warehousing, ovvero l'insieme di sistemi, strutture e processi che le aziende utilizzano per la gestione e l'archiviazione dei dati, è fondamentale per le organizzazioni moderne. I dati sono più importanti che mai, soprattutto nell'era del machine learning e dell'AI. Un data warehousing efficace consente alle aziende di sfruttare appieno il valore dei propri dati, una capacità fondamentale per rimanere competitivi e costruire un futuro di successo. Questa pagina esplora i concetti chiave del data warehousing in termini dei processi più comuni utilizzati.

Ecco altre informazioni utili

Qual è lo scopo di un data warehouse?

Un data warehouse (DWH) è un sistema di gestione dei dati. Archivia e organizza dati attuali e storici provenienti da più fonti in una modalità facilmente fruibile e adatta alle esigenze di business. I data warehouse possono gestire grandi volumi di dati e sono progettati per consentire alle aziende di analizzare le tendenze nel tempo. Lo scopo principale di un data warehouse è facilitare l'archiviazione dei dati, consolidare i dati provenienti da più fonti e fornire una base per l'analisi e la generazione di report.

Quali esigenze aziendali supportano i data warehouse?

I data warehouse sono solitamente utilizzati per la business intelligence (BI), le analitiche, la reportistica, le applicazioni di dati e la preparazione dei dati per il machine learning (ML) e l'analisi.

I data warehouse:

  • Consentono di analizzare in modo rapido e semplice dati aziendali provenienti da sistemi operazionali quali i sistemi POS, i sistemi di gestione dell'inventario o i database di marketing o vendita.
  • Integrano dati provenienti da più fonti per mostrare i trend nel tempo
  • Migliorano il processo decisionale supportando funzionalità avanzate di analisi e reportistica e fornendo accesso in tempo reale a set di dati unificati
  • Forniscono una singola fonte di verità per aumentare la fiducia nei risultati delle analisi
  • Separazione dell'elaborazione analitica dai database transazionali, migliorando le prestazioni di entrambi i sistemi.
  • Garantiscono qualità e accuratezza dei dati attraverso la loro pulizia e consolidamento
  • Promuovono la congruenza utilizzando un set di semantiche standard per i dati, tra cui coerenza nelle convenzioni di denominazione, codici per i vari tipi di prodotto, lingue, valute e così via
  • Facilitano la conformità normativa fornendo un'archiviazione e una gestione sicure e verificabili dei dati sensibili

Concetti fondamentali del data warehouse

Il data warehousing si articola in diversi passaggi, strumenti e processi che preparano i dati aziendali e li rendono disponibili per l'estrazione di informazioni e il supporto ai processi decisionali. I processi più comuni includono:

Archiviazione dei dati

L'archiviazione dei dati è un elemento essenziale del data warehousing. I dati devono essere conservati in modo tale da consentire l'analisi e la generazione di report. Oltre ai data warehouse, le soluzioni di archiviazione dei dati possono includere:

Database: un database è una raccolta di dati strutturati, che include testi e numeri ma anche immagini, video e altro. Un data warehouse, invece, è un repository strutturato che fornisce dati per la business intelligence e l'analisi.

Data lake: un data lake è un archivio centrale che contiene grandi quantità di dati nel loro formato nativo e grezzo. A differenza della maggior parte dei database e dei data warehouse, i data lake possono elaborare tutti i tipi di dati, compresi dati non strutturati e semi-strutturati come immagini, video, audio e documenti, che sono fondamentali per casi d'uso di ML e analisi avanzata.

Data lakehouse: un data lakehouse è un'architettura di gestione dei dati aperta che combina le caratteristiche migliori dei data lake e dei data warehouse, consentendo di svolgere attività di BI e ML su tutti i dati. I lakehouse utilizzano strutture e funzionalità di gestione dei dati simili a quelle di un data warehouse, ma le eseguono direttamente su data lake nel cloud. In definitiva, un lakehouse consente ad analisi tradizionali, data science e ML di coesistere nello stesso sistema, il tutto in un formato aperto.

La federazione è un concetto importante per l'archiviazione dei dati. Questa strategia di gestione migliora l'accessibilità e la qualità dei dati interrogando fonti diverse in un unico formato virtuale. Un modello di questo tipo elimina la necessità di enormi sistemi di archiviazione e potenzia l'analisi e l'integrazione dei dati.

Integrazione e acquisizione dei dati

L'integrazione e acquisizione dei dati è il processo che consiste nel prelevare i dati da più fonti e caricarli in un data warehouse. All'interno di questo processo, i dati vengono memorizzati in un formato uniforme, garantendone coerenza e qualità e semplificandone l'utilizzo. Le aziende possono utilizzare la federazione, la tecnica di integrazione dei dati sopra menzionata, per fornire una visione unificata dei dati provenienti da più fonti senza doverli consolidare fisicamente.

Tradizionalmente, questo è reso possibile dal processo noto come ETL, acronimo di extract, transform and load. Questo processo consente ai data engineer di estrarre dati da diverse fonti, trasformarli in risorse fruibili e affidabili e caricare i dati in sistemi accessibili agli utenti finali, che li potranno utilizzare a valle per risolvere problemi operativi. 

L'ELT, o extract, load and trasform, invece, è un'opzione di elaborazione più recente che sfrutta le moderne capacità di archiviazione dei dati. Nell'ELT, i dati vengono caricati subito dopo l'estrazione, senza essere prima trasformati. Vengono poi trasformati in un formato utilizzabile nel momento in cui se ne ha necessità, direttamente dal repository. L'ELT funziona bene con le architetture di data lake moderne, come l'architettura a medaglione, che permettono l'archiviazione sia di dati strutturati che non strutturati. Con l’ELT, gli analisti possono sfruttare una gamma più ampia di tipologie di dati, ottenendo potenzialmente insight di maggior valore.

Trasformazione dei dati

La trasformazione dei dati è il processo che consiste nel convertire i dati in un formato che possa essere caricato in un data warehouse. In genere, i dati provengono da fonti eterogenee che utilizzano formati differenti. Con la trasformazione, i dati vengono puliti e standardizzati per facilitarne l'uso in azienda.

Le fasi di trasformazione possono includere:

  • Pulizia e filtraggio dei dati: identificazione di incongruenze, errori, valori mancanti e dati duplicati
  • Validazione dei dati: verifica di tipi di dati, formati, accuratezza, coerenza e unicità per garantire la correttezza dei dati ed evitare risultati errati
  • Conversione dei formati: modifica del formato dei dati per creare compatibilità e facilitare un'elaborazione fluida

Serving dei dati

Il serving dei dati è il processo di distribuzione dei dati agli utenti a supporto di analisi, generazione di report e processi decisionali. I processi di serving dei dati includono l'interrogazione, la fornitura e il recupero dei dati dai sistemi di archiviazione. L'obiettivo è garantire una distribuzione rapida ed efficiente a utenti, applicazioni e sistemi ottimizzando le strategie di archiviazione e indicizzazione dei dati. La distribuzione deve inoltre avvenire in modo sicuro, quindi controlli di accesso, autenticazione e autorizzazioni sono elementi fondamentali.

Interrogazione dei dati

L'interrogazione è il processo di richiesta di accesso a dati specifici all'interno di un database al fine di estrarli o manipolarli, utilizzando un linguaggio di query strutturato come SQL. L'interrogazione è fondamentale nel data warehousing in quanto rappresenta il metodo con cui gli utenti accedono, estraggono e analizzano informazioni significative dai grandi volumi di dati memorizzati in un data warehouse. Le aziende utilizzano l'interrogazione per generare report, dashboard e visualizzazioni al fine di individuare opportunità, monitorare le prestazioni e prendere decisioni basate sui dati. I data warehouse sono progettati per eseguire in modo efficiente query complesse su set di dati di grandi dimensioni.

Visualizzazione dei dati

La visualizzazione dei dati è il processo di rappresentazione dei dati di un data warehouse in forme visive, come grafici, diagrammi, mappe, infografiche, data story, report e dashboard. Il cervello umano elabora le immagini molto più rapidamente rispetto a una serie di numeri, quindi la visualizzazione aiuta gli utenti a comprendere i dati più facilmente rispetto, ad esempio, a un foglio di calcolo. Questo consente agli utenti aziendali di confrontare set di dati e individuare pattern, tendenze, anomalie e valori anomali nei dati. Gli strumenti di visualizzazione dei dati consentono di creare visualizzazioni, ricavare informazioni e condividere le proprie conclusioni.

Ottimizzazione delle prestazioni di un data warehouse

L'ottimizzazione è il processo volto a migliorare le prestazioni delle query, l'elaborazione e il recupero dei dati all'interno di un data warehouse. Si avvale di tecniche specifiche per supportare query complesse, mantenere elevate prestazioni e generare informazioni tempestive. L'ottimizzazione dei dati è particolarmente importante nella gestione di set di dati di grandi dimensioni.

Le tecniche di ottimizzazione di un data warehouse includono:

  • Ottimizzazione di hardware e storage tramite storage ad alte prestazioni, compressione efficiente dei dati e infrastrutture scalabili
  • Strategie di indicizzazione per velocizzare il recupero dei dati
  • Viste materializzate per un'esecuzione più rapida delle query
  • Partizionamento per suddividere i dati in segmenti più piccoli così da migliorare l'accesso ai dati e le prestazioni delle query
  • Scrittura di query SQL efficienti per potenziare le prestazioni

Il data warehouse intelligente, evoluzione del data warehouse tradizionale, porta l'ottimizzazione a un livello superiore. Il data warehouse moderno sfrutta l'architettura aperta del data lakehouse al posto di quella tradizionale e dispone di una piattaforma intelligente in grado di ottimizzarsi automaticamente. L'ottimizzazione alimentata dall'AI elimina l'onere della gestione manuale e garantisce processi di data warehouse ottimali.

Integrazioni di AI e ML

I data warehouse tradizionali sono progettati per i carichi di lavoro tipici di un data warehouse, come reportistica storica, BI e interrogazioni. Non sono mai stati pensati o progettati per supportare i carichi di lavoro dell'AI o del machine learning. Tuttavia, i recenti progressi rendono possibile integrare AI e ML nei data warehouse. Un data warehouse intelligente non solo fornisce l'accesso ai modelli di AI e ML, ma utilizza l'AI anche per facilitare le query, creare dashboard e ottimizzare le prestazioni e le dimensioni.

Governance dei dati

La governance dei dati comprende i principi, le pratiche e gli strumenti utilizzati per gestire le risorse di dati di un'organizzazione in linea con la sua strategia aziendale. La governance dei dati è fondamentale per il data warehousing perché garantisce visibilità, qualità, sicurezza e conformità dei dati a livello dell'intera organizzazione. L'implementazione di un'efficace strategia di governance dei dati consente alle aziende di renderli facilmente disponibili per il processo decisionale data-driven, salvaguardando al contempo i dati da accessi non autorizzati e garantendo la conformità ai requisiti normativi.

Sicurezza dei dati

I dati sono un bene prezioso per le organizzazioni, ma possono anche essere molto personali e sensibili. Le aziende devono quindi adottare misure di protezione per salvaguardare i propri dati e quelli dei clienti dal rischio che finiscano nelle mani sbagliate. Le misure di sicurezza di un data warehouse includono:

  • Controlli e autorizzazioni di accesso, tra cui il controllo degli accessi basato sui ruoli e l'autenticazione multifattore, per garantire che solo le persone autorizzate possano accedere ai dati nel warehouse
  • Crittografia, che aggiunge un livello di protezione in caso di violazione dei dati ed è spesso richiesta come parte della conformità normativa
  • Prevenzione della perdita di dati, che monitora i dati e riduce il rischio di errori
  • Audit di sicurezza periodici per testare i sistemi di protezione

Gestione dei metadati

I metadati sono dati sui dati, essenziali per la governance e la gestione. Forniscono contesto e dettagli sui dati, come origini, trasformazioni, struttura, relazioni, utilizzo e altri elementi importanti che sono fondamentali per garantire coerenza, qualità e affidabilità dei dati.

La gestione dei metadati è l'insieme di strumenti e processi che aiutano le organizzazioni ad acquisire, catalogare e governare i metadati. Un sistema di gestione dei metadati efficace contribuisce a garantire la qualità dei dati e consente agli utenti di trovare, estrarre e comprendere facilmente i dati di cui hanno bisogno per generare informazioni. È inoltre cruciale per la sicurezza, poiché fornisce informazioni sulla provenienza dei dati (ovvero la tracciabilità del percorso compiuto dai dati nel loro ciclo di vita) e su chi vi ha avuto accesso.

Come i concetti di data warehousing supportano la business intelligence

Lo scopo principale di un data warehouse è quello di archiviare i dati in modo tale da permettere alle organizzazioni di sfruttarne appieno il valore. La business intelligence, ossia il processo di formulare domande cruciali sul business e di trovare le risposte nei dati aziendali, rappresenta uno dei principali strumenti attraverso cui le organizzazioni estraggono valore dai propri dati. Ogni concetto fondamentale del data warehousing supporta la capacità dell'azienda di svolgere attività di data intelligence. Questi concetti di data warehousing operano insieme per garantire che i dati vengano archiviati in modo sicuro e che gli utenti aziendali possano accedervi e analizzarli con facilità. In un quadro più ampio, questi processi e sistemi favoriscono insight e decisioni basate sui dati che alimentano l'innovazione, il progresso e il successo dell'impresa.

Data warehousing moderno su Databricks

Databricks offre un data warehouse intelligente, Databricks SQL. Integrato con il Data Intelligence Engine, il motore di data intelligence che comprende la specificità dei tuoi dati, Databricks SQL democratizza l'analisi, rendendola accessibile anche agli utenti commerciali e non solo a quelli tecnici. Le aziende sono in grado di innovare più velocemente con una piattaforma intelligente e auto-ottimizzante che offre il miglior rapporto prezzo/prestazioni sul mercato. Come parte della Databricks Data Intelligence Platform, Databricks SQL beneficia inoltre della semplicità, della governance unificata e dell'apertura dell'architettura lakehouse.