Passa al contenuto principale

Governance dei dati

Prova Databricks gratis

Che cos'è la governance dei dati?

La governance dei dati è la supervisione necessaria per garantire che i dati apportino valore e supportino la strategia aziendale. La governance dei dati è più di un semplice strumento o processo. Uniforma i requisiti relativi ai dati alla strategia aziendale, utilizzando un quadro di riferimento che abbraccia persone, processi, tecnologia e dati, concentrandosi sulla cultura dell'azienda per supportarne obiettivi e traguardi.

Quali sono i vantaggi della governance dei dati per l'azienda?

Con l'aumento della quantità e della complessità dei dati, un numero sempre maggiore di organizzazioni si rivolge alla governance dei dati per garantire i seguenti risultati fondamentali:

  • Qualità dei dati costante ed elevata come base per le analisi e il machine learning.
  • Riduzione dei tempi di recupero delle informazioni.
  • Supporto per la gestione del rischio e della conformità alle normative di settore come HIPPA, FedRAMP, GDPR o CCPA.
  • Democratizzazione dei dati, ovvero possibilità per tutti i membri di un'organizzazione di prendere decisioni basate sui dati.
  • Ottimizzazione dei costi, ad esempio impedendo agli utenti di avviare cluster e creando barriere per l'uso di istanze GPU costose.

Quali requisiti deve avere una buona soluzione di governance dei dati?

Solitamente le aziende data-driven costruiscono le loro architetture di dati per le analisi su lakehouse. Un data lakehouse è un'architettura che consente di utilizzare in modo efficiente e sicuro strumenti di data engineering, machine learning, data warehousing e Business Intelligence direttamente sulle grandi quantità di dati che sono memorizzati nei data lake. La governance dei dati per un data lakehouse fornisce una serie di funzionalità chiave:

  • Catalogo unificato. Un catalogo unificato conserva tutti i dati, i modelli ML e gli artefatti analitici, nonché i metadati per ogni oggetto di dati. Il catalogo unificato integra anche i dati provenienti da altri cataloghi, come ad esempio un metastore Hive esistente.
  • Controlli di accesso ai dati unificati. Un singolo modello di autorizzazione unificato per tutti gli asset e tutti i cloud di dati, incluso il controllo dell'accesso basato su attributi (ABAC) per le informazioni di identificazione personale (PII).
  • Audit dei dati. L'accesso ai dati è controllato a livello centrale con avvisi e funzionalità di monitoraggio per promuovere la responsabilizzazione.
  • Gestione della qualità dei dati. Robusta gestione della qualità dei dati con funzioni integrate di controllo della qualità, test, monitoraggio e verifica per garantire dati accurati e utili per i carichi di lavoro di BI, le analisi e il machine learning a valle.
  • Provenienza dei dati. Tracciatura della provenienza dei dati per ottenere visibilità end-to-end su come i dati fluiscono nel lakehouse, dalla fonte all'utente finale.
  • Individuazione dei dati. Facile individuazione dei dati per consentire a data scientist, analisti di dati e data engineer di scoprire e consultare rapidamente i dati rilevanti e accelerare il time to value.
  • Condivisione dei dati. I dati possono essere condivisi tra cloud e piattaforme.

Qual è la differenza tra gestione dei dati e governance dei dati?

La gestione dei dati si concentra sulle attività in conformità alle politiche, i principi e gli standard di governance dei dati per fornire dati affidabili. Tali attività sono di solito incentrate su un singolo progetto e di breve durata. La governance dei dati viene trattata come un programma per ottenere benefici a lungo termine. Uno strumento centralizzato svolge un ruolo fondamentale nell'implementazione della governance.

Ottieni maggiori informazioni sulla governance e sulla condivisione dei dati su Databricks

    Torna al Glossario