Passa al contenuto principale

Che cosa è un Data Mart?

Un sottoinsieme mirato di un data warehouse con dati aggregati e filtrati per reparti o gruppi di utenti specifici, che consente analisi mirate

4 Personas Analytics AIBI

Summary

  • Creati tramite processi ETL che estraggono sottoinsiemi rilevanti dal warehouse aziendale, applicando trasformazioni, aggregazioni e denormalizzazioni specifiche per reparto, ottimizzate per flussi di lavoro analitici e requisiti di reporting specifici.
  • I vantaggi includono set di dati mirati che riducono la complessità e migliorano le prestazioni delle query, autonomia di reparto su modelli di dati e pianificazioni di aggiornamento e sicurezza semplificata con controlli di accesso personalizzati per specifiche comunità di utenti.
  • Gli svantaggi includono ridondanza dei dati su più mart, potenziali incongruenze dovute a logiche di trasformazione divergenti, maggiori costi di manutenzione e il rischio di creare silos di dati che ostacolano l'analisi a livello aziendale.

Che cos'è un data mart?

Un data mart è un database curato che include una serie di tabelle progettate per soddisfare le esigenze specifiche di un singolo team di dati, di una community o di una particolare unità aziendale, come il reparto marketing o quello di ingegneria. Di solito è più piccolo e mirato di un data warehouse ed è un sottoinsieme del più ampio data warehouse aziendale di un'organizzazione. I data mart sono comunemente utilizzati per analisi, business intelligence e reportistica e sono stati il primo passo evolutivo nella realtà fisica dei data warehouse centrali e dei data lake. All'inizio degli anni '70, ACNielsen ha offerto ai propri clienti il primo data mart per consentire loro di archiviare le informazioni in formato digitale e di incrementare le vendite.

Caratteristiche dei data mart

  • I data mart sono in genere costruiti e gestiti dal team dati dell'azienda, anche se gli stessi compiti possono essere svolti dagli esperti delle diverse unità aziendali.
  • I data steward dei gruppi aziendali si occupano della manutenzione del data mart, mentre gli utenti finali hanno un accesso di sola lettura: possono interrogare e visualizzare le tabelle, ma non modificarle, onde evitare che gli utenti meno esperti cancellino o modifichino accidentalmente dati aziendali critici.
  • Utilizza in genere un modello dimensionale e uno schema a stella.
  • Contiene un sottoinsieme curato di dati provenienti dal più ampio data warehouse. I dati sono altamente strutturati e sono stati ripuliti e resi conformi dal team dati dell'azienda per renderli facili da comprendere e da interrogare.
  • È progettato in base alle esigenze specifiche di una particolare unità aziendale o di un particolare caso d'uso.
  • Gli utenti solitamente interrogano i dati utilizzando comandi SQL.

Tipi di data mart: data mart indipendenti, dipendenti e ibridi

Oggi esistono tre tipi principali di data mart:

  • I data mart indipendenti non fanno parte di un data warehouse e sono molto simili al data mart originale offerto da ACNielsen. In genere si concentrano su un settore di attività o su un'area tematica e le sorgenti di dati possono includere sia fonti esterne che interne. I dati vengono tradotti, elaborati e caricati nel data mart, dove vengono conservati fino al momento del bisogno.
  • I data mart dipendenti sono integrati in un data warehouse esistente. Viene utilizzato un approccio dall'alto verso il basso, che supporta l'archiviazione di tutti i dati in un'unica posizione centrale, poi una sezione di dati ben definita viene selezionata per finalità di ricerca.
  • I data mart ibridi combinano i dati presi da un data warehouse con dati provenienti da altre fonti. Ciò può essere utile in diverse situazioni, ad esempio per l'integrazione ad hoc con un nuovo gruppo o prodotto aggiunto a un'organizzazione. I data mart ibridi si adattano bene a più ambienti di database e garantiscono tempi di implementazione rapidi, facilitano la pulizia dei dati e funzionano bene con le piccole applicazioni incentrate sui dati.

Vantaggi dei data mart

  • Un'unica fonte di verità. Il data mart può fungere da unica fonte di verità per una particolare linea di business, in modo che tutti lavorino sulla base degli stessi fatti e dati.
  • Semplicità. Gli utenti aziendali alla ricerca di dati possono visitare il data mart curato per accedere facilmente ai dati di loro interesse, invece di dover esplorare l'intero data warehouse aziendale e unire tabelle per ottenere i dati di cui hanno bisogno.
LEADER PER LA 5ª VOLTA

Gartner®: Databricks leader dei database cloud

Limiti dei data mart

I data warehouse aziendali vengono creati con le migliori intenzioni per soddisfare tutte le esigenze di gestione dei dati di un'azienda. Ma inevitabilmente ogni unità aziendale ha esigenze e obiettivi diversi in materia di dati e non è possibile accontentare tutti. Così i reparti copiano e creano i propri data mart (a volte con l'aiuto dell'IT aziendale) con l'obiettivo di accrescere l'area tematica di un particolare data warehouse, per soddisfare esigenze di analisi self-service e di reporting dipartimentale. Di conseguenza, con il passare del tempo, i data mart possono diventare, da una prospettiva aziendale, dei silos e delle copie shadow di dati, pur rispondendo in maniera adeguata alle esigenze del reparto. Se molti reparti adottano questa strategia, non esiste più un'unica fonte di verità.

Come Lakehouse risolve i problemi dei data mart

Lakehouse risolve i problemi sopra menzionati mettendo tutti i data warehouse e i data mart aziendali su un'unica piattaforma, con sicurezza e governance unificate, ma lasciando ai diversi team la flessibilità di avere i propri ambienti di prova. Poiché ogni data mart o "copia aumentata" è realizzata sulla stessa piattaforma Lakehouse di tutte le altre, il catalogo di dati di Lakehouse la rileva e, date le regole di governance dei dati, come il tagging e l'uso di un dizionario dei dati, si assicura che la copia aumentata sia visibile a tutti, evitando il rischio di ulteriori duplicazioni.

Costruisci il tuo prossimo data mart su Databricks SQL

Prova Databricks SQL gratuitamente

Risorse

Non perdere mai un post di Databricks

Iscriviti al nostro blog e ricevi gli ultimi post direttamente nella tua casella di posta elettronica.