Direkt zum Hauptinhalt
Produkt

Anleitung: 3 kostenlose Databricks-Analyseprojekte, die Sie an einem Nachmittag erledigen können

Eine praktische Einführung in die Databricks Free Edition durch drei echte, portfolio-fertige Analyseprojekte – komplett mit Daten, Dashboards, SQL und KI-gestützten Erkenntnissen.

von Noah Sommerfeld

  • Drei anfängerfreundliche Analyseprojekte, die Sie an einem Nachmittag mit der Databricks Free Edition abschließen können, keine Kreditkarte erforderlich.
  • Importieren und Analysieren von öffentlichen Datensätzen mit KI/BI-Dashboards, Abfragen in natürlicher Sprache, KI-Funktionen und leichtem ML-Forecasting.
  • Praktische, portfolio-fertige Beispiele (Dashboards + Code), die Studenten, Arbeitssuchenden und BI-Benutzern helfen, echte Analyseartefakte zu erstellen, die sie präsentieren können.

Möchten Sie ein echtes Analyseprojekt, das Sie öffentlich teilen, in Vorstellungsgesprächen besprechen oder Ihrem Lebenslauf oder Portfolio hinzufügen können, und das alles ohne Kreditkarte?

Die Databricks Free Edition bietet Studenten, jungen Berufstätigen und KI-Neugierigen Zugang zu denselben Daten+KI-Tools, die auch in führenden Unternehmen eingesetzt werden, mit der richtigen Menge an Rechenleistung für persönliche Projekte. Die KI/BI-Dashboard- und Analysetools von Databricks sind ein großartiger Ausgangspunkt. Dieser Blog führt Sie durch die Einbindung einiger öffentlicher Datensätze zum Aufschlüsseln und Analysieren, zum Erstellen eines polierten Dashboards und zum Erzählen einer klaren Geschichte über die darin verborgenen Trends und Erkenntnisse.

Ob Sie ein erfahrener Tabellenkalkulationsnutzer sind, der mit SQL und Python aufsteigen möchte, oder ein erfahrener BI-Entwickler, der mit KI-gestützten Analysen experimentiert, diese Projekte sollen Ihnen helfen, schnell etwas Greifbares aufzubauen. Wenn Sie tiefer eintauchen möchten, können Sie das kostenlose Self-Service-KI/BI-Training von Databricks, detaillierte KI/BI-Autorenkurse oder eine kostenlose Live-Onboarding-Sitzung besuchen. Sie können auch auf Dutzende anderer installierbarer öffentlicher Demos hier zugreifen.

Einrichtung

Wenn Sie noch kein Konto haben, können Sie sich hier für die Databricks Free Edition anmelden, keine Kreditkarte oder Telefonnummer erforderlich. Sie erhalten lebenslangen kostenlosen Zugang zu Databricks für Experimente und zum Lernen mit der Databricks Free Edition. Hinweis: Die Free Edition ist für den persönlichen Gebrauch bestimmt, nicht für die Produktion oder kommerzielle Nutzung. Wenn Sie eine produktionsreife, voll unterstützte Datenplattform für Ihr Unternehmen suchen, wenden Sie sich hier an Databricks.

Ein letzter Tipp, bevor Sie beginnen: Wenn Sie Fehler haben oder an einem Punkt nicht weiterkommen, ist Databricks Assistant (der lila Diamant in der oberen rechten Ecke) unglaublich hilfreich beim Debuggen, Generieren von SQL und Erklären von Konzepten während der Arbeit.

Databricks Assistant

Nachdem die Einrichtung abgeschlossen ist, legen wir los!

1. Analyse einer (simulierten) Keksbäckerei

Wir beginnen mit einem einfachen Aufwärmen. Für ein kleines Unternehmen ist es entscheidend für den Erfolg, die Abläufe und Trends im Auge zu behalten. Ein Kleinunternehmer sucht vielleicht nach Erkenntnissen wie der Ermittlung des meistverkauften Produkts, der Frage, welche Standorte am besten abschneiden oder der Prognose, wie die Umsätze im nächsten Jahr aussehen könnten.

Jeder Databricks-Workspace verfügt über einen vorinstallierten Satz von Beispieldaten im Katalog „samples“, der ein guter Ausgangspunkt für das Experimentieren mit neuen Funktionen ist. Der simulierte Datensatz „bakehouse“ mit Lieferanten-, Bewertungs- und Transaktionsdaten ist besonders gut geeignet, um eine Geschichte über die Leistung „unseres“ Kleinunternehmens zu erzählen. Sie finden den Datensatz im Bereich „Catalog“ in der linken Menüleiste von Databricks, dem Kernstück jedes Workspaces, mit dem Sie die für die Analyse verfügbaren Datensätze erkunden können.

In diesem Fall können Sie den Katalog „samples“ und das Schema „bakehouse“ erweitern, um die Daten zu finden.

Katalog

Um zu beginnen, erstellen Sie ein neues Dashboard, indem Sie oben links im Workspace auf „new->Dashboard“ klicken. Wählen Sie dann im Tab „data“ des Dashboards eine der Tabellen aus, indem Sie SQL wie unten verwenden (oder wählen Sie sie aus der UI-Tabellenauswahl aus):

Fügen Sie auf der Dashboard-Leinwand Visualisierungen und Text hinzu, die Ihnen helfen, eine klare Geschichte zu erzählen. Sie könnten zum Beispiel Tortendiagramme für Zusammensetzungen (wie Produktmix), Liniendiagramme für Trends (wie Umsätze im Zeitverlauf) und Zähler für wichtige Zahlen wie Gesamttransaktionen oder Einnahmen verwenden.

Bakehouse Sales Dashboard

Der Bakehouse-Datensatz enthält auch simulierte Kundenbewertungen, was ihn zu einem großartigen Ort macht, um KI-gestützte Analysen mit der Funktion AI_Query() auszuprobieren. Dies erstellt einen neuen Datensatz, indem ein KI-Modell direkt auf Ihre Daten angewendet wird – in diesem Fall die Klassifizierung jeder Bewertung als positiv, negativ oder neutral. Sie könnten auch die Eingabeaufforderung ändern, um eine automatische Antwort für jede Bewertung zu generieren (und Sie können experimentieren, indem Sie nach verschiedenen Tonalitäten fragen).

Nächste Herausforderung: Können Sie eine Möglichkeit finden, eine andere KI-Funktion wie ai_classify() oder ai_gen() anzuwenden? Können Sie die AI_Query()-Eingabeaufforderung anpassen, um Dashboard-Kommentare für Sie zu erstellen? Oder automatische Antworten auf die Bewertungen? Können Sie sogar einen Agenten bauen, der Marketingtexte basierend auf den Top-Bewertungen generiert, so wie Kasey Uhlenhuth beim Data & AI Summit 2024?

2. Mieten vorhersagen

Wohnungsdaten sind oft ein großartiger Ort, um Ihre Analysefähigkeiten zu erweitern – es gibt viele starke Korrelationen zu finden, wie Wetter und Zinssätze, und es gibt eine Fülle von hochwertigen Daten, die von offiziellen (oft staatlichen) Quellen veröffentlicht werden. Als Beispiele bieten die offenen Datensätze von Zillow Research großartige US-Wohnungsdaten, während das britische Office for National Statistics hochwertige Zensusdaten liefert. Häufige Analysefragen sind Dinge wie „Welcher Bundesstaat/welche Provinz hat die höchsten Wachstumsraten?“, „Wo gibt es die meisten Neubauten?“ oder „Welche Beziehung besteht zwischen Wohnkosten und Zinssätzen?“

Mein persönlicher Favorit ist ein Datensatz „Mietpreise“ aus dem Open-Government-Portal der kanadischen Regierung, der eine Reihe von ausgeschriebenen Mieten mit Attributen wie Jahr, Metropolregion, Anzahl der Schlafzimmer usw. enthält. Ich finde, dass die Art und Weise, wie die Daten Jahre als einzelne Zeilen enthalten, das Filtern und Analysieren erleichtert.

Um die Daten in Ihren Workspace zu übertragen, laden Sie den Datensatz vom Portal herunter, extrahieren Sie die Datendatei aus dem Zip-Archiv („46100092.csv“) und klicken Sie dann auf die Schaltfläche „Upload data“ auf Ihrer Workspace-Startseite, um über einen kleinen Assistenten das CSV-Format in eine Tabelle zu parsen.

Wohnungsdaten

Standardmäßig wird die resultierende Tabelle genauso benannt wie die technisch benannte Datei. Achten Sie also auf eine Gelegenheit, sie in etwas Aussagekräftiges wie „Housing_data“ umzubenennen. Sobald sie erstellt ist, verwenden Sie den Bereich „Catalog“ des Workspaces, um sie zu finden, und erstellen Sie dann ein Dashboard mit der Schaltfläche „create“, um eines zu erhalten, das mit einem Gerüst um den Datensatz herum vorab gefüllt ist.

Datensatz

Um das Starter-Dashboard zu erweitern, könnten Sie weitere Ausschnitte und Vergleiche hinzufügen, die dem Analysekontext Farbe und Tiefe verleihen. Sie könnten durchschnittliche Mieten oder das Wachstum in anderen Städten vergleichen oder das Verhältnis von Ein-Zimmer-Wohnungen zu anderen Wohnungstypen untersuchen. Was ist die teuerste Stadt? Denken Sie daran, auch Filter hinzuzufügen, damit Benutzer ihre spezifischen Städte oder Einheitentypen von Interesse eingrenzen können.

In einigen Fällen müssen Sie möglicherweise eine andere SQL-Abfrage schreiben oder andere Daten einbeziehen. Denken Sie daran, dass Databricks Assistant (lila Diamant in der oberen rechten Ecke) hilfreich sein kann. In meinem Beispiel habe ich Assistant gebeten, Längen- und Breitengrade für die Städte hinzuzufügen, damit ich die Kartenansicht erstellen konnte.

starter dashboard

Um eine Vorhersage zu generieren, beginnen Sie mit einem normalen Liniendiagramm, bei dem die x-Achse das Referenzdatum und die y-Achse der angeforderte Preis (Wert) ist. Suchen Sie dann nach der Schaltfläche „Prognose hinzufügen“ in der Seitenleiste. Dies fügt eine neue Prognosevisualisierung zu Ihrer Dashboard-Leinwand hinzu, die auf einem neuen SQL-Datensatz mit der Funktion ‘AI_Forecast()’ von Databricks basiert, die ein Zeitreihen-ML-Modell aufruft und es auf Ihre Daten anwendet. Dieses Beta-Feature entwickelt sich noch weiter (wir würden uns über Feedback freuen!), aber es ist dennoch ein hilfreicher Ausgangspunkt für die Anwendung von ML auf einen realen Anwendungsfall. Denken Sie auch daran, dass Ihnen der Databricks Assistant immer dabei helfen kann, Ihr eigenes benutzerdefiniertes SQL für neue Datensätze zu erstellen.

sql dataset

Nächste Herausforderung: Während AI_Forecast() großartig für eine schnelle Referenzvorhersage ist, würde eine genauere Vorhersage die Kombination anderer Datenpunkte und die Anwendung eines benutzerdefinierten Machine-Learning-Algorithmus beinhalten — Sie können in unserer Databricks Demos-Website sehen, wie eine vollständige Lösung davon aussehen könnte (in diesem Fall die Vorhersage von Windturbinenwartung).

3. Finden Sie einen Film-Dreh zu beobachten

In Städten, die häufig als Filmkulisse dienen, haben Sie vielleicht Glück und stoßen auf Film-LKWs, Produktionsassistenten und kleine Regisseur-Kabinen rund um historische Gebäude oder malerische Teile der Stadt. Bevor Filmproduktionen öffentliche Grundstücke für diese Dreharbeiten sperren können, müssen sie Drehgenehmigungen einholen, die dann von Regierungsbehörden in offenen Datensätzen veröffentlicht werden.

Obwohl es keine zukunftsweisenden Genehmigungen gibt, ist eines der besten Beispiele für diese Art von Datensatz die Open Data Portal-Liste der Stadt New York für Film-Genehmigungen. Sie listet die Art des Drehs (d. h. Nachrichten, Spielfilm oder Serie) zusammen mit der Start- und Endzeit des Drehs, dem Bezirk und der Postleitzahl auf. Durch das Aufteilen und Kombinieren des Datensatzes können Sie die häufigsten Orte identifizieren und hoffentlich einen Blick auf einen Star bei der Arbeit erhaschen.

AI Forecast

Wie in den vorherigen Beispielen müssen wir zuerst die Daten in Databricks laden. Das Open Data Portal von NYC ermöglicht es Ihnen, die .csv-Datei einfach herunterzuladen und über „Daten hochladen“ in der Benutzeroberfläche zu importieren, wie wir es für die vorherigen Übungen getan haben. Jedoch ist eine interessante Funktion dieses Datensatzes, dass er täglich aktualisiert wird. Holen wir uns diese Daten programmatisch, damit wir sie nach einem Zeitplan ausführen können. Das kommt der Vorgehensweise in einem Unternehmenskontext viel näher.

Databricks macht es sehr einfach, das benötigte Python über Notebooks auszuführen. Erstellen Sie in diesem Fall ein Notebook (Neu -> Notebook in der oberen linken Ecke), kopieren Sie den folgenden Code und fügen Sie ihn ein, und klicken Sie auf Ausführen, um die CSV-Datei in Ihrem Arbeitsbereich herunterzuladen und in eine Tabelle zu parsen. Denken Sie daran, dass Sie, wenn Sie auf Probleme stoßen, immer den Databricks Assistant (über die lila Raute) verwenden können, um Hilfe zu erhalten!

Dieses erste Code-Snippet erstellt ein Volume (einen Ort zum Speichern beliebiger Dateien) und lädt dann den Datensatz mit der Python URLLib-Bibliothek herunter. Sie können die Katalog- und Schema-Namen gerne nach Belieben anpassen!

Dieses zweite Code-Snippet nimmt die Rohdatei und erstellt eine Tabelle namens ‚film_permits‘, die wir in unserem Dashboard verwenden können. Versuchen Sie, den Assistant zu bitten, sie zu erklären, wenn Sie sie benötigen.

Wenn es erfolgreich war, sollten Sie die Tabelle über den Katalog-Teil des Arbeitsbereichs finden oder durch Öffnen der Daten-Explorer-Seitenleiste (Symbol mit drei Formen) im Notebook und anschließendes Erweitern des Databricks_demo-Katalogs und des Open_nyc-Schemas, um die Tabelle zu sehen. Möglicherweise müssen Sie auf die Schaltfläche „Aktualisieren“ klicken, wenn Sie sie bereits geöffnet hatten.

databricks demo catalog

Erinnerung: Wenn Sie Probleme mit dem Code haben, denken Sie daran, dass Sie den Code-Ansatz immer aufgeben und die Daten manuell importieren können, indem Sie sie vom Portal herunterladen und über die Schaltfläche „Daten hochladen“ auf Ihrer Startseite des Arbeitsbereichs hochladen.

Sobald Sie die Tabelle geladen haben, ist es an der Zeit, sie zu analysieren und eine Geschichte zu präsentieren! Sie möchten vielleicht Trends mit einem Liniendiagramm untersuchen – gibt es mehr Drehs für Serien oder Spielfilme? Ändert sich das im Laufe der Zeit? Oder Sie denken vielleicht über die Verteilung mit einem Balken- oder Kreisdiagramm nach – überschneiden sich Drehorte für Nachrichten oder Werbung stark mit denen von Filmen?

Wenn Sie versuchen, eine Kartenvisualisierung zu erstellen, stellen Sie möglicherweise fest, dass die Film-Genehmigungen zwar eine Postleitzahl haben, die AI/BI-Dashboard-Kartenvisualisierung jedoch Längen- und Breitengradattribute benötigt. Glücklicherweise sind Datensätze zur Zuordnung von Postleitzahlen zu Koordinaten online leicht zu finden und können über den Assistant in das Dashboard importiert werden. Sie könnten diesen offenen Datensatz (unter Creative Commons lizenziert) herunterladen und dann einen neuen Datensatz auf Ihrem Dashboard erstellen, wobei Sie den Assistant bitten, eine kombinierte Abfrage zu generieren. Hier ist die Aufforderung, die ich verwendet habe (passen Sie sie an Ihre spezifischen Katalog- und Tabellennamen an):

Und hier ist eine Version davon, wie Ihr endgültiges Dashboard aussehen könnte!

AI/BI dashboard map visualization

Herausforderung: Welche anderen Daten von OpenNYC könnten Sie überlagern, vielleicht Taxi- oder Rideshare-Volumen? Bedeutende Wahrzeichen? Wenn Sie politisch aktiv sind, gibt es eine Analyse, die Ihre Sache voranbringen würde? Andere Städte und Bundesstaaten bieten ähnliche offene Datensätze an, wie z. B. den Building Energy Benchmark-Datensatz von Seattle über Emissionen, der Ihnen vielleicht näher liegt.

Können Sie die Geodatenanalyse mit den nativen „ST Functions“ von Databricks erweitern, um die nächstgelegenen anderen Punkte zu finden?

Zusammenfassung

Mein Lieblingsteil der Analytik sind die „Lichtblick“-Momente, die man beim Verfolgen der Neugier bekommt, und ich hoffe, diese Beispiele haben einige Ideen geweckt. Wenn Sie mehr erfahren möchten oder sich für eine Zertifizierung entscheiden, die Sie in Ihren Lebenslauf aufnehmen können, können Sie den kostenlosen, selbstgesteuerten AI/BI-Überblick-Trainingskurs von Databricks hier, einen detaillierteren Autoren-Trainingskurs hier oder an einer kostenlosen Live-Einführungsklasse teilnehmen! Die Dokumentationsseite von Databricks ist ebenfalls ein großartiger Ort, um spezifische Funktionen nachzuschlagen.

Wenn Sie eines der Beispiel-Dashboards in diesem Blog importieren möchten, finden Sie die Quelle in diesem Repository. AI/BI-Dashboard-Spezifikationen sind nur JSON, also laden Sie die Datei herunter und importieren Sie sie über das Dropdown-Menü „Importieren“ auf der Startseite der Dashboards.

AI/BI dashboard specs

Zuletzt finden Sie Dutzende von installierbaren Demos, die von ML bis Dashboarding bis hin zu Agenten-KI reichen, im Databricks Demo Center. Probieren Sie etwas Neues aus oder teilen Sie Ihre Kreationen mit der Databricks-Community auf Ihrer bevorzugten Social-Media-Plattform. Viel Spaß beim Coden!

Beginnen Sie mit der Databricks Free Edition

Starten Sie Ihren kostenlosen Workspace – keine Kreditkarte erforderlich – und verwandeln Sie diese Projekte noch heute in portfoliofertige Dashboards.

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.