Siamo entusiasti di presentare il plotting nativo in PySpark con Databricks Runtime 17.0 (note di rilascio), un entusiasmante passo avanti per la visualizzazione dei dati. Non è più necessario passare da uno strumento all'altro solo per visualizzare i tuoi dati; ora puoi creare grafici belli e intuitivi direttamente dai tuoi DataFrame PySpark. È veloce, fluido e integrato. Questa funzionalità a lungo attesa rende l'esplorazione dei tuoi dati più facile e potente che mai.
Lavorare con big data in PySpark è sempre stato potente, specialmente quando si tratta di trasformare e analizzare set di dati su larga scala. Mentre i DataFrame PySpark sono costruiti per scalabilità e prestazioni, gli utenti in precedenza dovevano convertirli in DataFrame Pandas API su Apache Spark™ per generare grafici. Ma questo passaggio aggiuntivo rendeva i flussi di lavoro di visualizzazione più complicati del necessario. La differenza nella struttura tra PySpark e DataFrame in stile pandas spesso portava a attriti, rallentando il processo di esplorazione dei dati visivamente.
Ecco un esempio di utilizzo del plotting PySpark per analizzare Vendite, Profitto e Margini di Profitto in varie categorie di prodotti.
Iniziamo con un DataFrame contenente dati di vendite e profitti per diverse categorie di prodotti, come mostrato di seguito:
Il nostro obiettivo è visualizzare la relazione tra Vendite e Profitto, incorporando anche il Margine di Profitto come dimensione visiva aggiuntiva per rendere l'analisi più significativa. Ecco il codice per creare il grafico:
Nota che “fig” è di tipo “plotly.graph_objs._figure.Figure”. Possiamo migliorarne l'aspetto aggiornando il layout utilizzando le funzionalità Plotly esistenti. La figura modificata appare così:
Dalla figura, possiamo osservare chiare relazioni tra vendite e profitti in diverse categorie. Ad esempio, l'elettronica mostra vendite e profitti elevati con un margine di profitto relativamente moderato, indicando una forte generazione di ricavi ma spazio per migliorare l'efficienza.
L'utente interagisce con il plotting PySpark chiamando la proprietà plot su un DataFrame PySpark e specificando il tipo di grafico desiderato come sottometodo o impostando il parametro “kind”. Ad esempio:
o equivalentemente:Questo design è in linea con le interfacce di Pandas API su Apache Spark e pandas nativo, offrendo un'esperienza coerente e intuitiva per gli utenti già familiari con il plotting pandas.
Il plotting PySpark supporta una varietà di tipi di grafico comuni, come grafici a linee, a barre (inclusi quelli orizzontali), ad area, a dispersione, a torta, a scatola, istogrammi e grafici di densità/KDE. Ciò consente agli utenti di visualizzare tendenze, distribuzioni, confronti e relazioni direttamente dai DataFrame PySpark.
La funzionalità è alimentata da Plotly (versione 4.8 o successiva) come backend di visualizzazione predefinito, offrendo funzionalità di plotting ricche e interattive, mentre pandas nativo (pandas) viene utilizzato internamente per elaborare i dati per la maggior parte dei grafici.
A seconda del tipo di grafico, l'elaborazione dei dati nel plotting PySpark viene gestita attraverso una delle tre strategie:
Questo approccio rispetta le strategie di plotting di Pandas API su Apache Spark per ciascun tipo di grafico, con ulteriori miglioramenti delle prestazioni:
Il plotting nativo PySpark colma il divario tra PySpark e la visualizzazione intuitiva dei dati. Questa funzionalità consente agli utenti PySpark di creare grafici di alta qualità direttamente dai loro DataFrame PySpark, rendendo l'analisi dei dati più veloce e accessibile che mai. Sentiti libero di provare questa funzionalità su Databricks Runtime 17.0 per migliorare la tua esperienza di visualizzazione dei dati!
Pronto per esplorare di più? Dai un'occhiata alla documentazione dell'API PySpark per guide ed esempi dettagliati.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
