Passa al contenuto principale
Prodotto

Tutorial: 3 Progetti Gratuiti di Analisi Databricks che Puoi Realizzare in un Pomeriggio

Un'introduzione pratica a Databricks Free Edition attraverso tre progetti di analisi reali, pronti per il portfolio, completi di dati, dashboard, SQL e insight basati sull'IA.

di Noah Sommerfeld

  • Tre progetti di analisi adatti ai principianti che puoi completare in un pomeriggio utilizzando Databricks Free Edition, senza bisogno di carta di credito.
  • Come importare e analizzare set di dati pubblici utilizzando dashboard AI/BI, query in linguaggio naturale, funzioni AI e previsioni ML leggere.
  • Esempi pratici, pronti per il portfolio (dashboard + codice) che aiutano studenti, persone in cerca di lavoro e utenti BI a creare artefatti di analisi reali che possono mostrare.

Vuoi un progetto di analisi dati reale che puoi condividere pubblicamente, discutere ai colloqui o aggiungere al tuo curriculum o portfolio, tutto senza bisogno di una carta di credito?

Databricks Free Edition offre a studenti, giovani professionisti e curiosi dell'IA l'accesso agli stessi strumenti di dati+IA utilizzati nelle aziende leader, con la giusta quantità di risorse di calcolo per progetti personali, e gli strumenti di dashboard e analisi AI/BI di Databricks sono un ottimo punto di partenza. Questo blog ti guiderà nell'importazione di alcuni set di dati pubblici per analizzarli, creare una dashboard curata e raccontare una storia chiara sulle tendenze e gli insight nascosti al loro interno.

Che tu sia un utente esperto di fogli di calcolo che cerca di migliorare le proprie competenze con SQL e Python, o un ingegnere BI esperto che sperimenta con analisi potenziate dall'IA, questi progetti sono progettati per aiutarti a costruire qualcosa di tangibile, velocemente. Se vuoi approfondire, puoi esplorare la formazione gratuita di Databricks AI/BI self-paced, i corsi approfonditi AI/BI author, o unirti a una sessione di onboarding gratuita dal vivo qui. Puoi anche accedere a decine di altri demo pubblici installabili qui.

Configurazione

Se non hai ancora un account, puoi iscriverti a Databricks Free Edition qui, senza bisogno di carta di credito o numero di telefono. Ottieni l'accesso a Databricks gratuitamente, per sempre, per sperimentazione e apprendimento con Databricks Free Edition. Nota: Free Edition è per uso personale, non per produzione o uso commerciale. Se stai cercando una piattaforma dati di livello produttivo e completamente supportata per la tua azienda, contatta Databricks qui.

Un ultimo consiglio prima di iniziare: se riscontri errori o ti blocchi in qualsiasi punto, Databricks Assistant (il diamante viola nell'angolo in alto a destra) è incredibilmente utile per il debug, la generazione di SQL e la spiegazione dei concetti durante l'utilizzo.

Databricks Assistant

Una volta completata la configurazione, iniziamo!

1. Analizza una Pasticceria (simulata)

Inizieremo con un facile riscaldamento. Per una piccola impresa, tenere il polso sulle operazioni e sulle tendenze è fondamentale per il successo. Il proprietario di una piccola impresa potrebbe cercare insight come trovare il prodotto più venduto, chiedere quali sono le sedi più performanti o prevedere come potrebbero essere le vendite l'anno prossimo.

Ogni workspace Databricks viene fornito con un set preinstallato di dati di esempio nel catalogo 'samples', che è un ottimo punto di partenza per sperimentare nuove funzionalità. Il set di dati simulato 'bakehouse' di fornitori, recensioni e transazioni è particolarmente utile per esercitarsi a raccontare una storia su come sta andando 'la nostra' piccola impresa. Puoi trovare il set di dati nella sezione 'catalog' nella barra laterale sinistra di Databricks, che è il nucleo di ogni workspace e ti consente di esplorare i set di dati disponibili per l'analisi.

In questo caso puoi espandere il catalogo 'samples' e lo schema 'bakehouse' per trovare i dati.

Catalog

Per iniziare, crea una nuova dashboard cliccando su ‘new->Dashboard’ nell'angolo in alto a sinistra del workspace, quindi nella scheda ‘data’ della dashboard, seleziona una delle tabelle utilizzando SQL come mostrato di seguito (o scegli dalla selezione di tabelle nell'interfaccia utente):

Sulla tela della dashboard, aggiungi visualizzazioni e testo che ti aiutino a raccontare una storia chiara. Ad esempio, potresti usare grafici a torta per la composizione (come il mix di prodotti), grafici a linee per le tendenze (come le vendite nel tempo) e contatori per evidenziare numeri chiave, come le transazioni totali o i ricavi.

Bakehouse Sales dashboard

Il set di dati Bakehouse include anche recensioni simulate dei clienti, il che lo rende un ottimo posto per provare l'analisi assistita dall'IA utilizzando la funzione AI_Query(). Questa crea un nuovo set di dati applicando un modello AI direttamente ai tuoi dati, in questo caso, classificando ogni recensione come positiva, negativa o neutra. Potresti anche modificare il prompt per generare una risposta automatica per ogni recensione (e potresti voler sperimentare chiedendo toni di voce diversi).

Sfida di livello superiore: Riesci a trovare un modo per applicare un'altra funzione AI come ai_classify() o ai_gen()? Riesci a modificare il prompt AI_Query() per generare commenti per la dashboard? O risposte automatiche alle recensioni? Riesci ad arrivare fino in fondo e costruire un agente per generare automaticamente testi di marketing basati sulle recensioni migliori, come ha fatto Kasey Uhlenhuth al Data & AI Summit 2024?

2. Prevedi il Tuo Affitto

I dati immobiliari sono spesso un ottimo punto di partenza per mettere alla prova le tue capacità di analisi dati: ci sono molte correlazioni forti da trovare, come il meteo e i tassi di interesse, e c'è una pletora di dati di alta qualità rilasciati da fonti ufficiali (spesso governative). Per un paio di esempi, i set di dati aperti di Zillow Research offrono ottimi dati immobiliari USA, mentre l'Office for National Statistics del governo del Regno Unito fornisce dati censuari di alta qualità. Domande di analisi comuni sono cose come 'Quale stato/provincia ha i tassi di crescita più alti?', 'Dove c'è più nuova costruzione?' o 'Qual è la relazione tra i costi delle abitazioni e i tassi di interesse?'

Il mio preferito è un set di dati di 'prezzi degli affitti richiesti' dal portale Open Government del Governo del Canada, che contiene un insieme di affitti pubblicizzati con attributi come anno, area metropolitana, numero di camere da letto, ecc. Trovo che il modo in cui i dati hanno gli anni disposti come righe individuali renda facile filtrare e analizzare.

Per importare i dati nel tuo workspace, scarica il set di dati dal portale, estrai il file dati dallo zip ('46100092.csv'), quindi premi il pulsante 'upload data' sulla pagina principale del tuo workspace per seguire una piccola procedura guidata per l'analisi del formato CSV in una tabella.

Housing data

Per impostazione predefinita, nominerà la tabella risultante con lo stesso nome del file tecnicamente denominato, quindi tieni d'occhio un'opportunità per rinominarla in qualcosa di significativo come 'Housing_data'. Una volta creata, usa la sezione 'catalog' del workspace per trovarla e quindi crea una dashboard utilizzando il pulsante 'create' per ottenerne una pre-popolata con uno scheletro attorno al set di dati.

dataset

Per migliorare la dashboard iniziale, potresti aggiungere altre sezioni e confronti che aggiungono contesto e colore all'analisi. Potresti considerare di confrontare gli affitti medi o la crescita in altre città, o esaminare il rapporto tra unità monolocali e altre tipologie di alloggi. Qual è la città più costosa? Ricorda anche di aggiungere filtri in modo che gli utenti possano concentrarsi sulle loro città o tipi di unità di interesse specifici.

In alcuni casi, potrebbe essere necessario scrivere una query SQL diversa o incorporare altri dati; ricorda che Databricks Assistant (diamante viola nell'angolo in alto a destra) può essere utile. Nel mio esempio, ho chiesto ad Assistant di aggiungere latitudine/longitudine per le città in modo da poter costruire la vista mappa.

dashboard di partenza

Per generare una previsione, inizia con un normale grafico a linee che abbia la data di riferimento come asse x e il prezzo richiesto (valore) come asse y. Quindi cerca il pulsante ‘aggiungi previsione’ nella barra laterale. Questo aggiungerà una nuova visualizzazione di previsione alla tela della tua dashboard, basata su un nuovo set di dati SQL con la funzione SQL ‘AI_Forecast()’ di Databricks, che chiama un modello ML di serie temporali e lo applica ai tuoi dati. Questa funzionalità beta è ancora in evoluzione (ci piacerebbe ricevere feedback!), ma è comunque un utile punto di partenza per applicare l'ML a un caso d'uso reale. Ricorda anche che Databricks Assistant può sempre aiutarti a creare il tuo SQL personalizzato per nuovi set di dati.

set di dati SQL

Sfida di livello superiore: Mentre AI_Forecast() è ottimo per una previsione di riferimento rapida, una più accurata implicherebbe la combinazione di altri punti dati e l'applicazione di un algoritmo di machine learning personalizzato — puoi vedere come sarebbe una soluzione completa di questo tipo (in questo caso, la previsione della manutenzione delle turbine eoliche) nel nostro sito di demo Databricks.

3. Trova un Ciak Cinematografico da Osservare

Nelle città che fungono frequentemente da sfondo cinematografico, potresti essere fortunato a imbatterti in camioncini delle riprese, assistenti di produzione e piccole cabine di regia attorno a edifici storici o parti pittoresche della città. Prima che le produzioni cinematografiche possano bloccare la proprietà pubblica per queste riprese, devono ottenere permessi di ripresa, che vengono poi pubblicati in set di dati aperti dalle agenzie governative.

Sebbene non disponga di permessi futuri, uno dei migliori esempi di questo tipo di set di dati è l'elenco del Portale Open Data della Città di New York per i permessi di ripresa. Elenca il tipo di ripresa (ad es. notizie, lungometraggio o serie) insieme all'ora di inizio e fine della ripresa, al quartiere e al codice postale. Affettando e affettando il set di dati, puoi identificare le località più comuni e sperare di intravedere una star al lavoro.

Previsione AI

Come negli esempi precedenti, dobbiamo iniziare caricando i dati in Databricks. Il portale open data di NYC ti consente di scaricare facilmente il .csv e importarlo tramite ‘upload data’ nell'interfaccia utente come abbiamo fatto per gli esercizi precedenti. Tuttavia, una caratteristica interessante di questo set di dati è che viene aggiornato quotidianamente. Prendiamo quei dati programmaticamente in modo da poterli eseguire su un programma. Questo è molto più vicino a come potresti affrontarlo in un contesto aziendale.

Databricks rende molto facile eseguire il Python di cui abbiamo bisogno tramite Notebook. In questo caso, crea un notebook (nuovo->notebook nell'angolo in alto a sinistra), copia e incolla il codice seguente e premi esegui per scaricare il CSV nel tuo spazio di lavoro e analizzarlo in una tabella. Ricorda che se incontri problemi, puoi sempre usare Databricks Assistant (tramite il diamante viola) per aiutarti!

Questo primo pezzo di codice crea un Volume (un posto dove archiviare file arbitrari) e quindi scarica il set di dati utilizzando la libreria Python URLLib. Sentiti libero di modificare i nomi del catalogo+schema per adattarli al tuo stile!

Questo secondo pezzo di codice prende il file grezzo e crea una tabella chiamata ‘film_permits’ che possiamo usare nella nostra dashboard. Prova a chiedere ad Assistant di spiegarlo se ne hai bisogno.

Se ha funzionato con successo, dovresti essere in grado di trovare la tabella tramite la porzione di catalogo dello spazio di lavoro o aprendo la barra laterale del data explorer (icona di tre forme) nel notebook, e quindi espandendo il catalogo databricks_demo e lo schema open_nyc per vedere la tabella. Potrebbe essere necessario premere il pulsante ‘aggiorna’ se l'avevi già aperto.

catalogo demo databricks

Promemoria: Se incontri problemi con il codice, ricorda che puoi sempre abbandonare l'approccio al codice e importare i dati manualmente scaricandoli dal portale e caricandoli tramite il pulsante ‘Carica dati’ sulla home page del tuo spazio di lavoro.

Una volta caricata la tabella, è il momento di affettare, tagliare e presentare una storia! Potresti voler controllare le tendenze con un grafico a linee: ci sono più riprese per serie o lungometraggi? Sta cambiando nel tempo? Oppure potresti pensare alla distribuzione con un grafico a barre o a torta: le località di riprese di notizie o commerciali si sovrappongono molto con i film?

Se provi a creare una visualizzazione mappa, potresti notare che mentre i permessi di ripresa hanno un codice postale, la visualizzazione mappa della dashboard AI/BI richiede attributi di latitudine e longitudine. Fortunatamente, i set di dati di mappatura zip>coordinate sono facili da trovare online e possono essere portati nella dashboard utilizzando Assistant. Potresti scaricare questo set di dati aperto (concesso in licenza Creative Commons) e quindi creare un nuovo set di dati sulla tua dashboard, chiedendo ad Assistant di generare una query combinata. Ecco il prompt che ho usato (adatta per i tuoi nomi di catalogo e tabella specifici):

Ed ecco una versione di come potrebbe apparire la tua dashboard finale!

visualizzazione mappa dashboard AI/BI

Sfida: Quali altri dati da OpenNYC potresti sovrapporre, magari volumi di taxi o rideshare? Punti di riferimento significativi? Se sei politicamente attivo, c'è un'analisi che potrebbe portare avanti la tua causa? Altre città e stati offrono set di dati aperti simili, come il set di dati Building Energy Benchmark di Seattle sulle emissioni che potrebbero esserti più vicine.

Puoi estendere l'analisi geospaziale utilizzando le funzioni ‘ST Functions’ native di Databricks, per cercare i punti più vicini?

Conclusione

La mia parte preferita dell'analisi sono i momenti di illuminazione che si ottengono inseguendo la curiosità, e spero che questi esempi abbiano acceso alcune idee. Se vuoi saperne di più o decidi di lavorare per una certificazione che puoi mettere su un curriculum, puoi accedere al corso di formazione gratuito di Databricks sull'IA/BI per autoapprendimento qui, un corso di formazione per autori più approfondito qui, o unirti a una classe di onboarding live gratuita! Il sito docs di Databricks è anche un ottimo posto per fare riferimento a funzionalità specifiche

Se vuoi importare una delle dashboard di esempio in questo blog, puoi controllare questo repository per il codice sorgente. Le specifiche della dashboard AI/BI sono solo json, quindi scarica il file e importalo tramite il menu a discesa ‘importa’ nella home page delle dashboard.

AI/BI dashboard specs

Infine puoi trovare decine di demo installabili che spaziano dall'ML al dashboarding all'AI agentivo nel Databricks Demo center. Prova qualcosa di nuovo o condividi ciò che hai creato con la community Databricks sulla tua piattaforma social preferita. Buon divertimento!

Inizia a creare con Databricks Free Edition

Attiva il tuo workspace gratuito, senza carta di credito richiesta, e trasforma questi progetti in dashboard pronti per il tuo portfolio oggi stesso.

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.