Un data vault è uno schema di modellazione dei dati utilizzato per costruire un data warehouse per analisi su scala aziendale. Un data vault consiste di tre componenti: hub, collegamenti e satelliti.
Gli hub rappresentano concetti aziendali chiave, i collegamenti rappresentano le relazioni tra gli hub e i satelliti contengono informazioni sugli hub e sulle relazioni tra di essi.
Il data vault è un modello di dati che ben si adatta alle organizzazioni che adottano il paradigma lakehouse.
Altri aspetti da tenere a mente:
I data vault si basano su metodologie e tecniche agili che consentono loro di adattarsi a esigenze aziendali in rapida evoluzione. Uno dei principali vantaggi dell'utilizzo della metodologia data vault è che i processi ETL richiedono meno refactoring quando il modello cambia.
Tenendo a mente questi concetti, vediamo ora come il data vault si inserisce nei nostri livelli di dati Bronze, Silver e Gold, nei quali i dati passano da uno stato grezzo a uno raffinato e pronto per l'analisi. In questa architettura multi-hop, i dati grezzi vengono memorizzati in un livello Bronze con trasformazioni minime e con una struttura dei dati il più vicina possibile al sistema di origine. La metodologia data vault può essere applicata al livello Silver, dove i dati vengono trasformati in hub, collegamenti e satelliti.
Nel livello Gold si possono costruire più data mart/data warehouse secondo la metodologia di modellazione dimensionale Kimball. Come discusso in precedenza, il livello Gold è destinato alla reportistica e usa più modelli di dati denormalizzati e ottimizzati in lettura con meno join. Le tabelle nel livello Gold talvolta possono essere completamente denormalizzate, di solito se i data scientist vogliono utilizzarle per alimentare i propri algoritmi per l'ingegneria delle caratteristiche.
Utilizzare un modello di data vault nel livello Silver semplifica e riduce in maniera significativa le modifiche necessarie per eseguire il processo ETL in data mart e data warehouse, poiché gli hub facilitano la gestione delle chiavi (chiavi surrogate/chiavi naturali). I satelliti facilitano il caricamento delle dimensioni, perché contengono tutti gli attributi, e i collegamenti facilitano il caricamento delle tabelle dei fatti, perché contengono tutte le relazioni.
