Vuoi un vero progetto di analitiche da condividere pubblicamente, di cui parlare ai colloqui o da aggiungere al tuo curriculum o portfolio, il tutto senza bisogno di una carta di credito?
Databricks Free Edition offre a studenti, giovani professionisti e curiosi del mondo dell'AI l'accesso agli stessi strumenti per dati e AI utilizzati dalle aziende leader, con la giusta compute per i progetti personali, e la AI/BI dashboard e gli strumenti di analitiche di Databricks sono un ottimo punto di start. Questo blog illustrerà come importare alcuni set di dati pubblici per analizzarli in dettaglio, creare una dashboard rifinita e raccontare una storia chiara sulle tendenze e le informazioni dettagliate nascoste al loro interno.
Che tu sia un utente esperto di fogli di calcolo che desidera fare un salto di qualità con SQL e Python o un ingegnere BI esperto che sta sperimentando le analitiche basate sull'IA, questi progetti sono pensati per aiutarti a creare qualcosa di tangibile e in modo rapido. Se vuoi approfondire, puoi esplorare l'addestramento gratuito sull'IA/BI da seguire in autonomia di Databricks, i corsi approfonditi per autori di IA/BI o partecipare a una sessione di onboarding gratuita dal vivo. Puoi anche accedere a decine di altre demo pubbliche installabili qui.
Se non hai ancora un account, puoi iscriverti a Databricks Free Edition qui, non è richiesta alcuna carta di credito o numero di telefono. Ottieni l'accesso a Databricks gratuitamente e per sempre, per la sperimentazione e l'apprendimento con Databricks Free Edition. Nota: la Free Edition è per uso personale, non per uso produttivo o commerciale. Se stai cercando una piattaforma dati di livello produttivo e completamente supportata per la tua azienda, contatta Databricks qui.
Un ultimo consiglio prima di iniziare: se riscontri errori o ti blocchi in qualsiasi momento, Databricks Assistant (il rombo viola nell'angolo in alto a destra) è incredibilmente utile per il debug, la generazione di SQL e la spiegazione dei concetti man mano.
Terminata la configurazione, iniziamo!
Inizieremo con un riscaldamento facile. Per una piccola impresa, tenere sotto controllo le attività operative e le tendenze è fondamentale per il successo. Il proprietario di una piccola impresa potrebbe essere alla ricerca di informazioni dettagliate come l'individuazione del prodotto più venduto, la richiesta di quali siano i luoghi più performanti o la previsione delle vendite per il prossimo anno.
Ogni area di lavoro Databricks include un set preinstallato di dati di esempio nel catalogo 'samples', che è un ottimo punto di partenza per sperimentare nuove funzionalità. Il set di dati simulato 'bakehouse' di fornitori, recensioni e transazioni è in particolare un buon punto di partenza per esercitarsi a raccontare una storia sull'andamento della 'nostra' piccola impresa. Puoi trovare il set di dati nella sezione ‘catalog’ nella barra laterale del menu a sinistra di Databricks, che è il cuore di ogni workspace e ti consente di esplorare i set di dati disponibili per l'analisi.
In questo caso puoi espandere il catalogo 'samples' e lo schema 'bakehouse' per trovare i dati.
Per iniziare, crea un nuovo dashboard cliccando su "nuovo->Dashboard" nell'angolo in alto a sinistra del workspace, poi nella tab "dati" del dashboard, seleziona una delle tabelle usando l'SQL come di seguito (oppure sceglila dal selezionatore di tabelle dell'interfaccia utente):
Sul canvas del dashboard, aggiungi visualizzazioni e testo che ti aiutino a raccontare una storia chiara. Ad esempio, potresti usare grafici a torta per la composizione (come il mix di prodotti), grafici a linee per le tendenze (come le vendite nel tempo) e contatori per evidenziare i numeri chiave, come il totale delle transazioni o il fatturato.
Il set di dati Bakehouse include anche recensioni dei clienti simulate, il che lo rende ideale per sperimentare l'analisi assistita dall'AI utilizzando la funzione AI_Query(). In questo modo viene creato un nuovo set di dati applicando un modello di IA direttamente ai dati, in questo caso classificando ogni recensione come positiva, negativa o neutra. Potresti anche modificare il prompt per generare una risposta automatica per ogni recensione (e potresti provare a sperimentare chiedendo toni di voce diversi).
Sfida di livello successivo: Riesci a trovare un modo per applicare un'altra funzione di IA come ai_classify() o ai_gen()? Riesci a modificare il prompt di AI_Query() per creare commenti per la dashboard? O risposte automatiche alle recensioni? Riesci a spingerti oltre e a creare un agente per generare automaticamente testi di marketing in base alle migliori recensioni, come ha fatto Kasey Uhlenhuth al Data & AI Summit 2024?
I dati immobiliari sono spesso un ottimo terreno per esercitare le proprie analitiche: ci sono molte forti correlazioni da trovare, come quelle tra il meteo e i tassi di interesse, e c'è un'abbondanza di dati di alta qualità rilasciati da fonti ufficiali (spesso governative). Ad esempio, i set di dati aperti di Zillow Research offrono ottimi dati sul mercato immobiliare statunitense, mentre l'Office for National Statistics del governo del Regno Unito fornisce dati di censimento di alta qualità. Le domande di analisi comuni sono del tipo 'Quale stato/provincia ha i tassi di crescita più alti?', 'Dove si concentra il maggior numero di nuove costruzioni?', o 'Qual è la relazione tra i costi delle abitazioni e i tassi di interesse?'
Il mio preferito è un set di dati "rental asking price" del portale Open Government del governo canadese, che contiene una serie di affitti pubblicizzati con attributi quali anno, area metropolitana, numero di camere da letto, ecc. Trovo che il modo in cui i dati presentano gli anni come singole righe renda facile filtrare e analizzare.
Per importare i dati nella tua workspace, download il set di dati dal portale, estrai il file di dati dal file zip ('46100092.csv'), quindi fai clic sul pulsante 'upload dati' nella pagina iniziale della tua workspace per seguire una breve procedura guidata per l'analisi del formato CSV in una tabella.
Per impostazione predefinita, la tabella risultante avrà lo stesso nome del file tecnico, quindi fai attenzione a rinominarla con qualcosa di significativo come 'Housing_data'. Una volta creata, usa la sezione 'catalogo' della workspace per trovarla e poi crea una dashboard usando il pulsante 'Crea' per ottenerne una precompilata con una struttura di base relativa al set di dati.
Per migliorare la dashboard di partenza, potresti aggiungere altre sezioni e confronti che aggiungano contesto e colore all'analisi. Potresti considerare di confrontare gli affitti medi o la loro crescita in altre città, oppure esaminare il rapporto tra le unità con una camera da letto e altri tipi di alloggi. Qual è la città più costosa? Ricorda di aggiungere anche dei filtri in modo che gli utenti possano concentrarsi su specifiche città o tipi di unità di loro interesse.
In alcuni casi, potrebbe essere necessario scrivere una query SQL diversa o integrare altri dati. Ricorda che Databricks Assistant (il rombo viola nell'angolo in alto a destra) può essere d'aiuto. Nel mio esempio, ho chiesto all'Assistente di aggiungere latitudine e longitudine per le città in modo da poter creare la vista mappa.
Per generare una previsione, inizia con un normale grafico a linee che abbia la data di riferimento sull'asse x e il prezzo di richiesta (valore) sull'asse y. Quindi, cerca il pulsante ‘add forecast’ nella barra laterale. In questo modo verrà aggiunta una nuova visualizzazione delle previsioni alla canvas della dashboard, basata su un nuovo set di dati SQL con la funzione SQL'AI_Forecast()'di Databricks, che richiama un modello ML di serie storiche e lo applica ai dati. Questa funzionalità beta è ancora in evoluzione (saremo lieti di ricevere feedback!), ma è comunque un utile punto di partenza per applicare l'ML a un caso d'uso reale. Ricorda anche che Databricks Assistant può sempre aiutarti a creare il tuo SQL personalizzato per nuovi set di dati.
Sfida di livello superiore: anche se AI_Forecast() è ottimo per una previsione di riferimento rapida, per ottenerne una più accurata sarebbe necessario combinare altri data point e applicare un algoritmo di machine learning personalizzato. Un esempio di soluzione completa (in questo caso, per la previsione della manutenzione delle turbine eoliche) è disponibile nel nostro sito delle demo di Databricks.
Nelle città usate di frequente come set cinematografico, potresti avere la fortuna di imbatterti in camion della produzione, assistenti di produzione e piccole cabine di regia vicino a edifici storici o zone pittoresche. Prima che le produzioni cinematografiche possano bloccare una proprietà pubblica per le riprese, devono ottenere i permessi per girare, che vengono poi pubblicati dalle agenzie governative in open set di dati.
Sebbene non disponga di permessi per il futuro, uno dei migliori esempi di questo tipo di set di dati è l'elenco del portale Open Data della città di New York relativo ai permessi cinematografici. Indica il tipo di ripresa (ad esempio, notiziario, lungometraggio o serie), l'ora di inizio e di fine delle riprese, il quartiere e il codice postale. Affettando e tagliando il set di dati, puoi identificare le posizioni più comuni e sperare di scorgere una stella al lavoro.
Come negli esempi precedenti, dobbiamo start caricando i dati in Databricks. Il portale open data di New York consente di download facilmente il file .csv e importalo tramite la funzione "upload data" nell'UI, come abbiamo fatto per gli esercizi precedenti. Tuttavia, una caratteristica interessante di questo set di dati è che viene aggiornato quotidianamente. Recuperiamo i dati a livello di codice per poter eseguire l'operazione in modo pianificato. Questo approccio è molto più simile a quello che si potrebbe adottare in un contesto aziendale.
Databricks semplifica notevolmente l'esecuzione del codice Python necessario tramite i notebook. In questo caso, crea un notebook (nuovo->notebook nell'angolo in alto a sinistra), copia e incolla il codice riportato di seguito e fai clic su Esegui per scaricare il file CSV nella tua workspace e analizzarlo in una tabella. Ricorda che in caso di problemi, puoi sempre usare Databricks Assistant (tramite il rombo viola) per ricevere assistenza.
Questo primo frammento di codice crea un volume (una posizione in cui archiviare file arbitrari) e quindi scarica il set di dati utilizzando la libreria URLLib di Python. Puoi modificare i nomi del catalogo e dello schema in base al tuo stile.
Questa seconda porzione di codice prende il file grezzo e crea una tabella denominata 'film_permits' che possiamo usare nella nostra dashboard. Prova a chiedere all'Assistente di spiegarlo, se necessario.
Se l'operazione è andata a buon fine, dovresti essere in grado di trovare la tabella tramite la parte del catalogo del workspace o aprendo la barra laterale dell'esploratore di dati (icona con tre forme) nel Notebook, quindi espandendo il catalogo databricks_demo e lo schema open_nyc per vedere la tabella. Potrebbe essere necessario premere il pulsante 'refresh' se era già aperto.
Promemoria: se riscontri problemi con il codice, ricorda che puoi sempre abbandonare l'approccio basato sul codice e importare i dati manualmente, scaricando dal portale e caricando tramite il pulsante "Upload Data" nella home page della tua workspace.
Una volta caricata la tabella, è il momento di analizzarla, scomporla e presentare una storia. Potresti voler controllare le tendenze con un grafico a linee: ci sono più riprese per le serie TV o per i lungometraggi? La situazione cambia nel tempo? Oppure potresti pensare alla distribuzione con un grafico a barre o a torta: le location delle riprese di notiziari o spot pubblicitari si sovrappongono molto a quelle dei film?
Se provi a creare una visualizzazione a mappa, potresti notare che, sebbene i permessi cinematografici abbiano un codice postale, la visualizzazione a mappa della dashboard di AI/BI richiede attributi di latitudine e longitudine. Fortunatamente, i set di dati di mappatura codice postale<>coordinate sono facili da trovare online e possono essere importati nella dashboard utilizzando l'Assistente. Puoi scaricare questo set di dati aperto (con licenza Creative Commons) e quindi creare un nuovo set di dati sulla tua dashboard, chiedendo all'Assistente di generare una query combinata. Ecco il prompt che ho usato (adattalo in base ai nomi specifici del tuo catalogo e delle tue tabelle):
Ed ecco una versione di come potrebbe essere la tua dashboard finale.
Sfida: quali altri dati di OpenNYC potresti sovrapporre? Magari i volumi dei taxi o dei servizi di rideshare? Punti di riferimento significativi? Se sei impegnato politicamente, c'è un'analisi che potrebbe sostenere la tua causa? Altre città e stati offrono set di dati aperti simili, come il set di dati sulle emissioni Building Energy Benchmark di Seattle, che potrebbe esserti più familiare.
Puoi estendere l'analisi geospaziale utilizzando le 'ST Functions' native di Databricks per cercare altri punti più vicini?
La mia parte preferita delle analitiche sono i momenti di illuminazione che si hanno quando si segue la propria curiosità, e spero che questi esempi abbiano suscitato qualche idea. Se vuoi saperne di più o decidi di ottenere una certificazione da inserire nel tuo curriculum, puoi accedere al corso di addestramento introduttivo gratuito e personalizzato su AI/BI di Databricks qui, a un corso di addestramento per autori più approfondito qui o partecipare a una lezione di onboarding gratuita dal vivo! Anche il sito della documentazione di Databricks è un ottimo punto di riferimento per le funzionalità specifiche.
Se vuoi importare una delle dashboard di esempio di questo blog, puoi consultare questo repo per il codice sorgente. Le specifiche della AI/BI dashboard sono semplicemente json, quindi download il file e importalo tramite il menu a discesa 'import' nella home page delle dashboard.
Infine, puoi trovare decine di demo installabili che spaziano dall'ML al dashboarding all'IA agentiva nel Demo Center di Databricks. Prova qualcosa di nuovo o condividi ciò che hai costruito con la community di Databricks sulla tua piattaforma di social media preferita. Buona programmazione!
Inizia a costruire con Databricks Free Edition
Crea il tuo workspace gratuito— non è richiesta alcuna carta di credito — e trasforma oggi stesso questi progetti in dashboard pronte per il tuo portfolio.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Produto
June 12, 2024/11 min de leitura

