Passa al contenuto principale

Che cos'è l'osservabilità dei dati?

L'osservabilità dei dati è la pratica e l'insieme dei processi che comportano il monitoraggio continuo di integrità, qualità, affidabilità e prestazioni dei sistemi di dati, dalle pipeline di ingestione ai livelli di archiviazione fino alle analitiche a valle, consentendo alle organizzazioni di rilevare, diagnosticare e prevenire i problemi relativi ai dati prima che abbiano un impatto sul business. Si concentra sulla comprensione dello stato dei dati durante il loro intero ciclo di vita attraverso attività come il monitoraggio automatizzato, il rilevamento di anomalie, l'analisi delle cause principali e il tracciamento della provenienza dei dati. Queste attività aiutano le organizzazioni a prevenire il downtime dei dati e a garantire dati accurati, affidabili e di alta qualità.

Ecco altre informazioni utili

Il grande libro dell'ingegneria dei dati

La tua guida essenziale alle best practice del data engineering.

Leggi

Impara a costruire pipeline ETL con SQL

Gestisci le trasformazioni dei dati senza il supporto del data engineering.

Leggi

Impara subito l'ingegneria dei dati

Aumenta le tue competenze e ottieni un certificato di completamento.

Comincia subito

Perché l'osservabilità dei dati è importante

L'osservabilità dei dati aiuta a creare pipeline di dati affidabili. È importante per le odierne organizzazioni basate sui dati a causa della crescente complessità delle loro pipeline di dati, che si basano su sorgenti di dati distribuite interne ed esterne. Gli odierni ambienti dati possono utilizzare più strumenti di ingestion in più team e archiviare i dati in data lake, data warehouse e data lakehouse. L'osservabilità dei dati ha un impatto notevole sulla qualità dei dati, aiutando a rilevare precocemente problemi come dati obsoleti, record mancanti, modifiche allo schema, aumenti di volume imprevisti e trasformazioni errate.

Il rilevamento precoce dei problemi dei dati e la visibilità del lignaggio end-to-end possono migliorare le analitiche a valle, le attività operative e il processo decisionale, oltre a evitare problemi di fiducia nei dati prima che raggiungano utenti o consumatori. L'osservabilità non solo aiuta a garantire che i dati rimangano affidabili, ma può anche aumentare le entrate, migliorare l'esperienza del cliente e accelerare l'innovazione.

I cinque pilastri dell'osservabilità dei dati

Il settore industriale descrive spesso l'osservabilità utilizzando cinque pilastri:

  • Aggiornamento: i dati sono aggiornati? Le pipeline vengono eseguite come previsto? L'osservabilità è in grado di rilevare se le tabelle non sono aggiornate, se ci sono job non riusciti o se l'ingestione è in ritardo.
  • Volume: i dati rientrano nei limiti di dimensione previsti? L'osservabilità può rilevare anomalie come record mancanti, dati duplicati e picchi o cali di volume imprevisti.
  • Distribuzione: È possibile identificare variazioni nelle proprietà statistiche? I valori sembrano normali? L'osservabilità può rilevare outlier, variazioni del tasso di valori nulli, drift e qualsiasi anomalia nelle metriche di business.
  • Schema: Ci sono modifiche strutturali impreviste? L'osservabilità è in grado di rilevare aggiunte o rimozioni di colonne, modifiche del tipo e modifiche che interessano le tabelle o le dashboard a valle.
  • Lignaggio: in che modo i dati fluiscono attraverso e tra i sistemi? L'osservabilità può aiutare a comprendere le dipendenze a monte e a valle, quali dashboard o modelli di machine learning si danneggeranno e le cause principali dei fallimenti dei dati.

Come funziona l'osservabilità dei dati

L'osservabilità dei dati funziona tramite il monitoraggio continuo dei sistemi di dati utilizzando controlli statistici automatizzati, analisi dei metadati e mappatura del lignaggio per rilevare e diagnosticare problemi relativi ai dati in tempo reale. Raccoglie segnali e dati di telemetria utilizzati per monitorare le cinque dimensioni chiave della salute dei dati (aggiornamento, volume, schema, distribuzione, lignaggio). Raccoglie e analizza segnali quali aggiornamenti delle tabelle, logs delle query, stato dei job, avvisi, metadati dello schema, conteggi delle righe e informazioni sul Graph delle dipendenze.

Esegue controlli automatici sulla qualità dei dati utilizzando pattern storici, modelli statistici, machine learning e algoritmi di rilevamento per una visibilità end-to-end su pipeline, warehouse e applicazioni. Quando si verificano anomalie nei dati, gli strumenti di osservabilità possono analizzare guasti delle pipeline, modifiche dello schema, cali di volume, deployment del codice e interruzioni a monte, facendo emergere automaticamente la causa più probabile e inviando avvisi.

Le dashboard e il monitoraggio continuo possono consentire di definire e rispettare gli accordi sul livello di servizio per i dati e di mantenere la fiducia nei dati all'interno dell'organizzazione.

Osservabilità dei dati vs. monitoraggio dei dati vs. qualità dei dati

L'osservabilità e il monitoraggio tradizionale sono correlati, ma gli strumenti di monitoraggio tradizionali si concentrano su errori noti, mentre l'osservabilità fornisce visibilità sul comportamento del sistema per aiutare a identificare e diagnosticare nuovi tipi di errori e consentire l'analisi delle cause principali. In altre parole, il monitoraggio rileva i sintomi e l'osservabilità fornisce un approfondimento più approfondito per dare un contesto, non solo segnali grezzi per mostrare perché le cose non funzionano.

Il monitoraggio tradizionale è reattivo, tiene traccia di metriche note e fornisce controlli basati su regole. In quanto tale, funziona al meglio quando il sistema è prevedibile. L'osservabilità dei dati esegue query di profilazione, rilevamento di anomalie e invio di avvisi (PPA) su tre dimensioni principali:

  • Portata – L'ampiezza con cui il sistema di osservabilità è in grado di comprendere i problemi relativi ai dati nell'intero ecosistema di dati.
  • Profondità – La profondità con cui il sistema analizza dati, metadati e il comportamento della pipeline.
  • Automazione: la quantità di lavoro che il sistema esegue automaticamente senza la necessità di scrivere regole manualmente o di intervenire.

L'osservabilità dei dati è proattiva e si estende oltre i test o le regole sulla qualità dei dati, con la profilazione statistica e il rilevamento basato sul machine learning (ML) per fornire automaticamente informazioni dettagliate e avvisi in tempo reale prima che gli utenti finali riscontrino problemi.

Gli strumenti di osservabilità, monitoraggio e qualità dei dati hanno scopi diversi, ma collaborano in modo olistico per garantire dati affidabili, attendibili e di alta qualità. Il monitoraggio è necessario per rilevare i problemi noti. Gli strumenti per la qualità dei dati convalidano il contenuto dei dati utilizzando regole per garantire che siano corretti, completi, precisi e validi. L'osservabilità dei dati può rilevare problemi sconosciuti e diagnosticare le cause principali. Quindi, il monitoraggio rileva i problemi, l'osservabilità fornisce una visibilità più approfondita e la qualità dei dati garantisce la correttezza rispetto alle regole di business.

Componenti principali di un sistema di osservabilità dei dati

Un sistema di osservabilità dei dati combina monitoraggio dei metadati, analisi statistica, rilevamento di anomalie, lineage, avvisi, analisi della causa radice e integrazione del flusso di lavoro per garantire una visibilità continua sullo stato di salute e sull'affidabilità dei dati nell'intero ecosistema. I componenti principali del sistema includono:

  • Raccolta di metadati per raccogliere segnali da tutti i sistemi di dati.
  • Profilazione e linee di base per comprendere il comportamento normale dei dati.
  • rilevamento di anomalie per identificare automaticamente problemi imprevisti.
  • Monitoraggio delle modifiche dello schema per rilevare il drift prima che interrompa le pipeline.
  • Tracciamento del lignaggio per comprendere le dipendenze e diagnosticare i problemi.
  • Avvisi e notifiche per segnalare i problemi alle persone giuste.
  • Analisi della causa radice per determinare perché si sono verificati i problemi.
  • Analisi dell'impatto per identificare gli asset downstream interessati.
  • Gestione degli incidenti per supportare la risposta, gli SLA e i flussi di lavoro.
  • Qualità dei dati per combinare le regole con i controlli statistici.
  • Dashboard e visualizzazione per monitorare lo stato di salute generale dei dati.
  • Integrazione della governance per migliorare proprietà, documentazione e conformità.
  • Riparazione automatizzata per ridurre i tempi di inattività con l'autoriparazione.

Problemi comuni dei dati che l'osservabilità aiuta a identificare

L'osservabilità dei dati aiuta a identificare una vasta gamma di problemi relativi ai dati che possono passare inosservati nel monitoraggio tradizionale. È in grado di rilevare problemi previsti e imprevisti in pipeline, sistemi di archiviazione, trasformazioni e analitiche downstream.

Può rivelare problemi di aggiornamento dei dati quando questi non arrivano quando dovrebbero a causa di errori della pipeline, Job interrotti e flussi di lavoro ritardati.

L'osservabilità rileva problemi di volume come dati mancanti o incompleti, un calo improvviso nel conteggio delle righe, partizioni o file mancanti e righe duplicate.

Il drift dello schema e le modifiche impreviste dei campi sono una delle cause principali dell'interruzione delle pipeline, con un impatto sui job a valle.

Outlier, spostamenti della distribuzione e record imprecisi che creano anomalie statistiche possono verificarsi quando il contenuto dei dati si discosta dai pattern storici.

L'osservabilità può individuare fonti a monte inaffidabili o incoerenti e guasti operativi della pipeline che compromettono l'affidabilità dell'intera pipeline di dati.

Casi d'uso reali per l'osservabilità dei dati

Le organizzazioni utilizzano l'osservabilità dei dati per prevenire il downtime dei dati, migliorare l'affidabilità delle analitiche, proteggere le pipeline critiche e ridurre i costi e l'impegno per la risoluzione dei problemi. Di seguito sono riportati alcuni esempi reali:

  • Garantire analitiche e reporting affidabili – Quando i team creano le proprie dashboard, le nuove dashboard possono interrompere le dipendenze, le query ripetute possono rallentare le pipeline e gli utenti possono estrarre dati obsoleti o errati. L'osservabilità fornisce visibilità a valle, monitora lo stato di integrità dei set di dati condivisi e può garantire l'affidabilità delle origini dati di terze parti. È in grado di rilevare immediatamente problemi di aggiornamento dei dati e Jobs upstream non riusciti e di inviare avvisi prima che gli utenti se ne accorgano.
  • Rilevamento e prevenzione degli incidenti relativi alla qualità dei dati – Quando dashboard e report mostrano improvvisamente anomalie, l'osservabilità dei dati può aiutare a identificare drift, picchi di valori null, problemi di integrità e a individuare guasti a monte. In alcuni casi, le pipeline possono essere eseguite correttamente ma produrre un output errato. L'osservabilità può monitorare il volume delle righe, tenere traccia di join e relazioni e inviare avvisi in caso di anomalie nella distribuzione.
  • Migliorare la fiducia nei modelli di ML e nei sistemi di IA – I modelli di ML e IA sono estremamente sensibili al data drift e alle feature mancanti, il che porta a decisioni errate. L'osservabilità consente di monitorare lo stato delle feature, rilevare la drift e identificare i problemi a monte causati da dati mancanti o in ritardo e categorie inattese.
  • Supporto alle iniziative di governance dei dati – La fiducia nei dati è essenziale per i settori regolamentati come quello sanitario e finanziario. L'osservabilità migliora la fiducia monitorando gli SLA dei dati, fornendo la tracciabilità, mostrando la cronologia dello stato di salute dei dati, documentando la proprietà e facendo emergere le anomalie prima che gli utenti finali possano vederle.
  • Riduzione dei tempi di inattività e dei costi operativi: l'osservabilità dei dati può svolgere un ruolo chiave nel rilevare precocemente i problemi, riducendo i tempi di risoluzione e impedendo la diffusione di dati errati, tutti fattori che possono contribuire a tempi di inattività in tutta l'organizzazione e ad aumenti dei costi.

Strumenti e piattaforme di osservabilità dei dati

Gli strumenti e le piattaforme di osservabilità dei dati possono essere raggruppati in diverse categorie in base al loro focus, alle loro funzionalità e alla loro posizione nel data stack. Inoltre, esistono opzioni commerciali, open-source e nativo per il cloud che si differenziano per funzionalità, costo, implementazione, scalabilità, facilità d'uso e casi d'uso ideali.

  • Le piattaforme di osservabilità dei dati end-to-end forniscono un'osservabilità completa del sistema. Le funzionalità comuni tra le piattaforme leader includono il monitoraggio dell'aggiornamento dei dati, il lineage automatizzato, metriche, dashboard, monitoraggio dei metadati, lineage automatizzato upstream e downstream, avvisi sugli incidenti, approfondimenti sull'affidabilità dello stack e analisi delle cause principali per l'intero ciclo di vita dei dati. Sono soluzioni sviluppate da fornitori con funzionalità complete, supporto e automazione; si tratta delle piattaforme di osservabilità più complete, in grado di coprire tutti e cinque i pilastri dell'osservabilità. In quanto Software as a Service (SaaS) completamente gestito, non è richiesta alcuna infrastruttura, il che porta a un deployment e a un onboarding più rapidi.
  • Strumenti per la qualità dei dati e l'osservabilità: uniscono la qualità dei dati tradizionale basata su regole con le moderne funzionalità di osservabilità, fornendo test dei dati personalizzati, rilevamento automatico di anomalie, profilazione e convalida, monitoraggio basato sui metadati e orchestrazione dei test. Queste piattaforme vengono utilizzate quando le organizzazioni desiderano una combinazione di regole di qualità manuali e di osservabilità automatizzata.
  • Gli strumenti di osservabilità dell'orchestrazione delle pipeline si concentrano sul monitoraggio del livello di compute, delle prestazioni della pipeline e dell'affidabilità dei job. Le funzionalità principali includono il rilevamento degli errori a livello di attività, il monitoraggio della latenza, l'analisi dei tentativi, il tracciamento delle dipendenze e l'integrazione con gli strumenti di orchestrazione. Questi strumenti sono efficaci per lo stato di salute della pipeline, ma potrebbero non fornire informazioni dettagliate a livello di dati.
  • Gli strumenti incentrati sul lineage mappano il flusso di dati end-to-end, consentendo l'analisi della causa radice e dell'impatto. Possono eccellere nel lineage, spesso incorporando segnali di osservabilità nel flusso.
  • I framework di osservabilità open-source offrono flessibilità per il self-hosting e la personalizzazione e consentono l'estensibilità e l'integrazione in data stack personalizzati. Questi framework community-driven sono gratuiti, ma devono essere gestiti autonomamente e spesso richiedono integrazione, configurazione manuale e creazione di regole, il che richiede risorse di ingegneria e un maggiore overhead operativo.
  • Gli strumenti di monitoraggio nativi per il cloud con estensioni di osservabilità dei dati vengono talvolta utilizzati quando i team desiderano l'osservabilità sia sull'infrastruttura che sui dati. Non è richiesta alcuna implementazione e hanno l'impronta operativa più semplice perché le funzionalità sono incluse nella piattaforma dati, generalmente incentrate sull'osservabilità specifica di warehouse e data lake. Generalmente, il costo è basato sull'utilizzo e supportato dal fornitore di servizi cloud, ed è la soluzione migliore per i team con budget ridotti e per coloro che hanno già acquistato un warehouse.

Implementazione dell'osservabilità dei dati

L'implementazione di processi, strumenti, architettura e cultura necessari per l'osservabilità dei dati implica strategia, best practice e selezione degli strumenti. Di seguito sono riportati alcuni passaggi fondamentali per le organizzazioni che adottano pratiche di osservabilità:

  • Allineati sugli obiettivi per l'implementazione dell'osservabilità e definisci le priorità.
  • Identificare gli asset di dati critici, a partire da tabelle e pipeline ad alto impatto/rischio.
  • Scegli il tuo modello (open-source, nativo per il cloud o commerciale).
  • Integrare le fonti di metadati (tutti i segnali, incluse pipeline, data warehouse e data lake, orchestrazione, framework di trasformazione, strumenti di BI e sistemi di streaming)
  • Implementare il monitoraggio continuo sui cinque pilastri dell'osservabilità (attualità, volume, schema, distribuzione, lineage).
  • Implementare il rilevamento automatico di anomalie utilizzando modelli statistici e di ML.
  • Creare una cultura DataOps incentrata sull'osservabilità per pratiche sostenibili.
  • Le metriche chiave e gli indicatori di stato solitamente monitorati includono metriche per i cinque pilastri, oltre a metriche di integrità dei dati, metriche operative delle pipeline, metriche di qualità dei dati, metriche di costo e utilizzo delle risorse e lo stato di salute di feature e modelli di ML.

Sfide e considerazioni

Le principali sfide e considerazioni tecniche, culturali e operative che i team dovrebbero comprendere prima e durante l'adozione dell'osservabilità dei dati includono:

  • La complessità e la proliferazione degli ecosistemi di dati su larga scala rendono più difficile ottenere un'osservabilità completa. Stack di dati diversi spesso richiedono approcci di integrazione diversi. Concentrati prima sulle pipeline a più alto impatto. Investi nella provenienza dei dati per comprendere le dipendenze e stabilire la proprietà tra i domini.
  • Gestire le dipendenze e gli impatti a monte e a valle può essere una sfida. Anche piccole modifiche in una parte della pipeline possono creare errori a cascata in dashboard, modelli di ML e sistemi operativi. Quando le organizzazioni non dispongono di una mappa completa della provenienza dei dati e della proprietà dei dati, le dipendenze sono spesso conoscenza tribale.
  • Il costo del monitoraggio di grandi volumi di dati può aumentare quando si monitorano grandi warehouse e lake. I metadati possono aumentare, incrementando i costi di archiviazione per metadati e log. Inoltre, ogni tabella aggiuntiva comporta un costo di monitoraggio incrementale. Classificare gli asset in base alla criticità e applicare un monitoraggio più approfondito a quelli business-critical.
  • Trovare un equilibrio tra la granularità e l'overhead operativo è essenziale per ridurre i costi. Non tutti i dati necessitano di un'osservabilità approfondita. Il monitoraggio ad alta frequenza di asset a basso valore può portare a costi di compute elevati. Una singola piattaforma con più funzionalità spesso costa meno di 3-4 strumenti più piccoli con funzionalità ridondanti.

Riepilogo

I dati sono diventati un asset di importanza critica e i sistemi di dati diventano sempre più complessi, distribuiti e in rapida evoluzione. Le organizzazioni non possono più permettersi pipeline inaffidabili, dashboard non funzionanti, metriche imprecise o modelli di ML soggetti a drift. L'osservabilità dei dati — la pratica e i processi coinvolti nel monitoraggio continuo di stato, qualità, affidabilità e prestazioni dei dati all'interno dei sistemi, dalle pipeline di ingestione ai livelli di archiviazione fino alle analitiche downstream — è essenziale affinché le organizzazioni possano rilevare, diagnosticare e prevenire problemi con i dati nell'intero ecosistema prima che questi abbiano un impatto sul business.

L'osservabilità dei dati può aiutare a rilevare tempestivamente i problemi per migliorare le analitiche a valle, le attività operative e il processo decisionale ed evitare problemi di fiducia nei dati prima che raggiungano gli utenti o i consumatori. L'osservabilità non solo aiuta a garantire che i dati rimangano affidabili, ma può anche aumentare le entrate, migliorare l'esperienza del cliente e accelerare l'innovazione.

    Torna al Glossario