Prima che uno scienziato dei dati possa scrivere un report di analisi o addestrare un modello di machine learning (ML), deve comprendere la struttura e il contenuto dei propri dati. Questa analisi esplorativa dei dati è iterativa, con ogni fase del ciclo che spesso coinvolge le stesse tecniche di base: visualizzazione delle distribuzioni dei dati e calcolo di statistiche riassuntive come conteggio delle righe, conteggio dei null, media, frequenze degli elementi, ecc. Sfortunatamente, generare manualmente queste visualizzazioni e statistiche è macchinoso e soggetto a errori, specialmente per grandi set di dati. Per affrontare questa sfida e semplificare l'analisi esplorativa dei dati, introduciamo le funzionalità di profilazione dei dati nel Notebook Databricks.
I team di dati che lavorano su un cluster con DBR 9.1 o versioni successive hanno due modi per generare profili dati nel Notebook: tramite l'interfaccia utente dell'output della cella e tramite la libreria dbutils. Quando si visualizzano i contenuti di un DataFrame utilizzando la funzione display di Databricks (AWS|Azure|Google) o i risultati di una query SQL, gli utenti vedranno una scheda “Profilo Dati” a destra della scheda “Tabella” nell'output della cella. Cliccando su questa scheda verrà eseguito automaticamente un nuovo comando che genera un profilo dei dati nel DataFrame. Il profilo includerà statistiche riassuntive per colonne numeriche, stringa e data, nonché istogrammi delle distribuzioni dei valori per ciascuna colonna. Si noti che questo comando profilerà l'intero set di dati nel DataFrame o nei risultati della query SQL, non solo la porzione visualizzata nella tabella (che può essere troncata).
dbutils.data.summarize(df). Per ulteriori informazioni, consultare la documentazione (AWS|Azure|Google).(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
