• La qualità dei dati manuale e basata su regole non è scalabile con la crescita dei data estate per le analitiche e l'IA.
• Il monitoraggio della qualità dei dati agentivo apprende i modelli di dati previsti e rileva problemi nei set di dati critici.
• I segnali nativi della piattaforma come il lignaggio di Unity Catalog aiutano i team a risolvere i problemi più velocemente su scala aziendale.
Man mano che le organizzazioni creano più prodotti di dati e IA, mantenere la qualità dei dati diventa più difficile. I dati sono alla base di tutto: dalle dashboard per i dirigenti ai bot Q&A a livello aziendale. Una tabella non aggiornata porta a risposte obsolete o addirittura errate, con un impatto diretto sui risultati aziendali.
La maggior parte degli approcci alla qualità dei dati non si adatta a questa realtà. I team dei dati si affidano a regole definite manualmente e applicate a un piccolo set di tabelle. Con la crescita dei data estate, si creano punti ciechi e si limita la visibilità sullo stato di salute generale.
I team aggiungono continuamente nuove tabelle, ognuna con i propri pattern di dati. Mantenere controlli personalizzati per ogni set di dati non è sostenibile. In pratica, solo una manciata di tabelle critiche vengono monitorate, mentre la maggior parte del patrimonio di dati rimane incontrollata.
Il risultato è che le organizzazioni hanno più dati che mai, ma meno fiducia nel poterli utilizzare.
Oggi Databricks annuncia la Public Preview del monitoraggio della qualità dei dati su AWS, Azure Databricks e GCP.
Il monitoraggio della qualità dei dati sostituisce i controlli manuali e frammentati con un approccio agentivo creato per la scalabilità. Invece di soglie statiche, gli agenti IA apprendono i normali pattern dei dati, si adattano ai cambiamenti e monitorano il patrimonio di dati in modo continuo.
L'integrazione profonda con la Databricks Platform consente più del semplice rilevamento.
Con il monitoraggio nativo della piattaforma, i team rilevano i problemi prima, si concentrano su ciò che conta di più e risolvono i problemi più velocemente su scala aziendale.
"Il nostro obiettivo è sempre stato che fossero i nostri dati a dirci quando c'è un problema. Il Data Quality monitoraggio di Databricks finalmente lo fa grazie al suo approccio basato sull'IA. È integrato perfettamente nell'interfaccia utente, monitorando tutte le nostre tabelle con un approccio che non richiede interventi manuali né configurazione, cosa che è sempre stata un fattore limitante con altri prodotti. Invece di essere gli utenti a segnalare i problemi, sono i nostri dati a segnalarli per primi, migliorando la qualità, l'affidabilità e l'integrità della nostra piattaforma." — Jake Roussis, Lead Data Engineer presso Alinta Energy
Il monitoraggio della qualità dei dati fornisce informazioni dettagliate attraverso due metodi complementari.
Abilitato a livello di schema, il rilevamento di anomalie monitora tutte le tabelle critiche senza configurazione manuale. Gli agenti IA apprendono i modelli storici e il comportamento stagionale per identificare cambiamenti imprevisti.
Abilitata a livello di tabella, la profilazione dei dati acquisisce statistiche di riepilogo e ne monitora le variazioni nel tempo. Queste metriche forniscono un contesto storico e verranno fornite al rilevamento di anomalie per consentirti di individuare facilmente i problemi.

"In OnePay, la nostra missione è aiutare le persone a raggiungere il progresso finanziario, consentendo loro di risparmiare, spendere, prendere in prestito e far fruttare il proprio denaro. Dati di alta qualità in tutti i nostri set di dati sono fondamentali per portare a termine questa missione. Con il monitoraggio della qualità dei dati, possiamo individuare i problemi in anticipo e agire rapidamente. Siamo in grado di garantire l'accuratezza delle nostre analitiche, del reporting e dello sviluppo di modelli di ML robusti, il che contribuisce a servire meglio i nostri clienti." — Nameet Pai, Head of Platform & Data ingegneria presso OnePay
Grazie al monitoraggio automatizzato della qualità, i team della piattaforma dati possono tenere sotto controllo lo stato di salute generale dei dati e garantire la risoluzione tempestiva di eventuali problemi.
Monitoraggio agentivo con un clic: Monitora interi schemi senza la scrittura manuale di regole e la configurazione di soglie. Il monitoraggio della qualità dei dati apprende i pattern storici e i comportamenti stagionali (ad es. cali di volume nei fine settimana, periodo delle imposte, ecc.) per rilevare in modo intelligente le anomalie in tutte le tue tabelle.
Visione olistica dell'integrità dei dati: Monitora facilmente l'integrità di tutte le tabelle in una vista consolidata e assicurati che i problemi vengano risolti.

Indicatore di integrità: segnali di qualità coerenti vengono popolati da pipeline a monte a superfici aziendali a valle. I team di data engineering ricevono per primi la notifica dei problemi e i consumer possono capire immediatamente se i dati sono sicuri da usare.

Ecco la nostra roadmap per i prossimi mesi:
Sperimenta il monitoraggio intelligente su larga scala e crea una piattaforma dati affidabile e self-service. Prova l'Anteprima pubblica oggi:
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Produto
June 12, 2024/11 min de leitura

