Direkt zum Hauptinhalt

Tutorial: 3 kostenlose Databricks-Analyseprojekte, die Sie an einem Nachmittag durchführen können

Eine praxisorientierte Einführung in die Databricks Free Edition anhand von drei realen, portfolio-tauglichen Analyseprojekten – einschließlich Daten, Dashboards, SQL und KI-gestützten Einblicken.

Tutorial: 3 Free Databricks Analytics Projects You Can Do In An Afternoon

Veröffentlicht: February 5, 2026

Produkt11 min Lesezeit

Summary

  • Drei einsteigerfreundliche Analytics-Projekte, die du mit der Databricks Free Edition an einem Nachmittag abschließen kannst, ohne eine Kreditkarte zu benötigen.
  • Wie man öffentliche Datasets mit AI/BI-Dashboards, natürlichsprachlichen Abfragen, KI-Funktionen und leichten ML-Prognosen importiert und analysiert.
  • Praktische, portfoliofähige Beispiele (Dashboards + Code), die Studenten, Arbeitssuchenden und BI-Nutzern helfen, echte Analytics-Artefakte zu erstellen, die sie präsentieren können.

Möchten Sie ein echtes Analytics-Projekt, das Sie öffentlich teilen, in Vorstellungsgesprächen besprechen oder Ihrem Lebenslauf oder Portfolio hinzufügen können – und das alles ganz ohne Kreditkarte?

Die Databricks Free Edition bietet Studierenden, jungen Berufstätigen und KI-Interessierten Zugriff auf die gleichen Daten+KI-Tools, die in führenden Unternehmen verwendet werden, mit der richtigen Rechenleistung für persönliche Projekte. Die Databricks AI/BI dashboard- und Analysetools sind ein hervorragender Ausgangspunkt. In diesem Blog-Beitrag erfahren Sie, wie Sie öffentliche Datasets importieren und analysieren, ein ausgefeiltes Dashboard erstellen und die darin verborgenen Trends und Erkenntnisse anschaulich darstellen.

Egal, ob Sie ein Power-User von Tabellenkalkulationen sind und sich mit SQL und Python weiterentwickeln möchten oder als erfahrener BI-Ingenieur mit KI-gestützten Analysen experimentieren – diese Projekte helfen Ihnen, schnell etwas Greifbares zu schaffen. Wenn Sie tiefer einsteigen möchten, können Sie das kostenlose AI/BI-Training zum Selbststudium von Databricks erkunden, ausführliche AI/BI-Autorenkurse belegen oder an einer kostenlosen Live-Onboarding-Sitzung teilnehmen. Sie können auch hier auf Dutzende anderer installierbarer öffentlicher Demos zugreifen.

Einrichten

Wenn Sie noch keinen Account haben, können Sie sich hier für die kostenlose Version von Databricks registrieren. Es ist keine Kreditkarte oder Telefonnummer erforderlich. Sie erhalten mit der Databricks Free Edition kostenlosen, unbegrenzten Zugriff auf Databricks zum Experimentieren und Lernen. Hinweis: Die Free Edition ist für den persönlichen Gebrauch bestimmt, nicht für den produktiven oder kommerziellen Einsatz. Wenn Sie eine produktionsreife, vollständig unterstützte Datenplattform für Ihr Unternehmen suchen, kontaktieren Sie Databricks hier.

Ein letzter Tipp, bevor Sie starten: Wenn Sie auf Fehler stoßen oder an irgendeinem Punkt nicht weiterkommen, ist der Databricks Assistant (die lila Raute oben rechts) unglaublich hilfreich beim Debuggen, Generieren von SQL und Erklären von Konzepten.

Da die Einrichtung nun abgeschlossen ist, legen wir los!

1. Analysieren Sie eine (simulierte) Keksbäckerei

Wir beginnen mit einer leichten Aufwärmübung. Für ein kleines Unternehmen ist es erfolgsentscheidend, den Puls des Betriebs und der Trends im Auge zu behalten. Ein Kleinunternehmer sucht vielleicht nach Erkenntnissen, wie das meistverkaufte Produkt zu finden ist, welche Standorte am besten abschneiden oder wie der Umsatz im nächsten Jahr aussehen könnte.

Jeder Databricks-Workspace wird mit einem vorinstallierten Satz an Beispieldaten unter dem Katalog „samples“ geliefert, was ein hervorragender Ausgangspunkt ist, um mit neuen Features zu experimentieren. Der simulierte Dataset „bakehouse“ von Lieferanten, Bewertungen und Transaktionen ist insbesondere ein guter Ort, um zu üben, eine Geschichte darüber zu erzählen, wie „unser“ kleines Unternehmen abschneidet. Sie finden das Dataset unter dem Abschnitt „catalog“ in der linken Menüleiste von Databricks. Dieser ist das Herzstück jedes Workspace und ermöglicht es Ihnen, die für die Analysen verfügbaren Datensätze zu erkunden.

In diesem Fall können Sie den Katalog „samples“ und das Schema „bakehouse“ erweitern, um die Daten zu finden.

Erstellen Sie für den Anfang ein neues Dashboard, indem Sie in der oberen linken Ecke des Workspace auf „Neu->Dashboard“ klicken. Wählen Sie dann unter dem Tab „Daten“ des Dashboards eine der Tabellen aus, indem Sie SQL wie unten verwenden (oder sie aus der UI-Tabellenauswahl auswählen):

Fügen Sie auf der Dashboard-Arbeitsfläche Visualisierungen und Text hinzu, die Ihnen helfen, eine klare Geschichte zu erzählen. So können Sie beispielsweise Kreisdiagramme für die Zusammensetzung (wie den Produktmix), Liniendiagramme für Trends (wie den Umsatz im Zeitverlauf) und Zähler verwenden, um Kennzahlen wie die Gesamtzahl der Transaktionen oder den Gesamtumsatz hervorzuheben.

Der Bakehouse-Dataset enthält auch simulierte Kundenbewertungen, weshalb er sich hervorragend eignet, um KI-gestützte Analysen mithilfe der Funktion AI_Query() auszuprobieren. Dadurch wird ein neues Dataset erstellt, indem ein KI-Modell direkt auf Ihre Daten angewendet wird – in diesem Fall wird jede Bewertung als positiv, negativ oder neutral klassifiziert. Sie können auch den Prompt ändern, um eine automatische Antwort für jede Bewertung zu generieren (und vielleicht möchten Sie experimentieren, indem Sie nach verschiedenen Tonalitäten fragen).

Herausforderung für Fortgeschrittene: Findest du einen Weg, eine andere KI-Funktion wie ai_classify() oder ai_gen() anzuwenden? Kannst du den AI_Query()-Prompt anpassen, um Dashboard-Kommentare für dich zu erstellen? Oder automatische Antworten auf die Bewertungen? Kannst du sogar so weit gehen und einen Agenten erstellen, der basierend auf den Top-Bewertungen automatisch Marketingtexte generiert, so wie es Kasey Uhlenhuth beim Data & KI Summit 2024 getan hat?

2. Mietpreisvorhersage

Immobiliendaten sind oft ein hervorragender Bereich, um Ihre Analytics zu trainieren – es gibt viele starke Korrelationen zu finden, wie z. B. Wetter und Zinssätze, und es gibt eine Fülle von hochwertigen Daten, die von offiziellen (oft staatlichen) Quellen veröffentlicht werden. So bieten beispielsweise die offenen Datasets von Zillow Research hervorragende Daten zum US-Wohnungsmarkt, während das Office for National Statistics der britischen Regierung hochwertige Zensusdaten bereitstellt. Häufige Analysefragen lauten zum Beispiel: „Welcher Bundesstaat/welche Provinz hat die höchsten Wachstumsraten?“, „Wo gibt es die meisten Neubauten?“, oder „Wie ist der Zusammenhang zwischen Wohnkosten und Zinssätzen?“

Mein persönlicher Favorit ist ein „Mietpreisangebot“ -Dataset vom Open Government-Portal der kanadischen Regierung, der eine Reihe von inserierten Mieten mit Attributen wie Jahr, Metropolregion, Anzahl der Schlafzimmer usw. enthält. Ich finde, dass die Anordnung der Jahre als einzelne Zeilen in den Daten das Filtern und Analysieren erleichtert.

Zum Laden der Daten in Ihren Workspace den Datensatz vom Portal herunterladen, die Datendatei aus der ZIP-Datei („46100092.csv“) extrahieren, dann auf der Startseite Ihres Workspace auf die Schaltfläche „Daten hochladen“ klicken, um das CSV-Format mithilfe eines kleinen Assistenten in eine Tabelle zu parsen.

Standardmäßig wird die resultierende Tabelle genauso benannt wie die Datei mit dem technischen Namen. Achten Sie also auf die Möglichkeit, sie in etwas Sinnvolles wie „Housing_data“ umzubenennen. Sobald sie erstellt ist, verwenden Sie den Abschnitt „catalog“ des Workspace, um sie zu finden, und erstellen Sie dann über die Schaltfläche „create“ ein Dashboard, das bereits mit einem Grundgerüst für das Dataset vorbefüllt ist.

Um das Starter-Dashboard zu erweitern, könnten Sie weitere Slices und Vergleiche hinzufügen, die der Analyse mehr Kontext und Farbe verleihen. Sie könnten die Durchschnittsmieten oder das Wachstum in anderen Städten vergleichen oder das Verhältnis von Einzimmerwohnungen zu anderen Wohnungsarten untersuchen. Welche ist die teuerste Stadt? Denken Sie daran, auch Filter hinzuzufügen, damit sich Benutzer auf die für sie interessanten Städte oder Wohnungstypen konzentrieren können.

In manchen Fällen müssen Sie möglicherweise eine andere SQL-Abfrage schreiben oder andere Daten einbeziehen; denken Sie daran, dass der Databricks Assistant (lila Raute in der oberen rechten Ecke) hilfreich sein kann. In meinem Beispiel habe ich den Assistant gebeten, Breiten- und Längengrade für die Städte hinzuzufügen, damit ich die Kartenansicht erstellen konnte.

Um eine Prognose zu erstellen, beginnen Sie mit einem normalen Liniendiagramm, bei dem die x-Achse das Referenzdatum und der Angebotspreis (Wert) die y-Achse ist. Suchen Sie dann in der Seitenleiste nach der Schaltfläche „Prognose hinzufügen“. Dadurch wird Ihrem Dashboard-Canvas eine neue Prognosevisualisierung hinzugefügt, die auf einem neuen SQL-Dataset mit der SQL-Funktion „AI_Forecast()“ von Databricks basiert, die ein Zeitreihen-ML-Modell aufruft und es auf Ihre Daten anwendet. Dieses Beta-Feature wird noch weiterentwickelt (wir freuen uns über Ihr Feedback!), aber es ist dennoch ein hilfreicher Ausgangspunkt, um ML auf einen realen Anwendungsfall anzuwenden. Denken Sie auch daran, dass Databricks Assistant Ihnen jederzeit dabei helfen kann, Ihr eigenes benutzerdefiniertes SQL für neue Datasets zu erstellen.

Herausforderung für Fortgeschrittene: Während AI_Forecast() sich hervorragend für eine schnelle Referenzvorhersage eignet, würde eine genauere Vorhersage das Kombinieren anderer Datenpunkte und die Anwendung eines benutzerdefinierten Machine-Learning-Algorithmus erfordern – wie eine vollständige Lösung dafür aussehen würde (in diesem Fall die Vorhersage der Wartung von Windkraftanlagen), können Sie auf unserer Databricks-Demoseite sehen.

3. Einen Filmdreh zum Zuschauen finden

In Städten, die häufig als Filmkulisse dienen, können Sie das Glück haben, in der Nähe von historischen Gebäuden oder malerischen Stadtteilen auf Filmfahrzeuge, Produktionsassistenten und kleine Regiekabinen zu stoßen. Bevor Filmproduktionen für diese Dreharbeiten öffentlichen Grund absperren können, müssen sie Drehgenehmigungen einholen, die dann von Regierungsbehörden in offenen Datensätzen veröffentlicht werden.

Obwohl er keine zukunftsbezogenen Genehmigungen enthält, ist eines der besten Beispiele für diese Art von Dataset das Eintrag für Filmgenehmigungen im Open Data Portal der Stadt New York. Darin sind die Art der Dreharbeiten (d. h. Nachrichten, Feature oder Serie) sowie die Start- und Endzeit, der Stadtbezirk und die Postleitzahl aufgeführt. Indem Sie das Dataset zerlegen und analysieren, können Sie die häufigsten Standorte identifizieren und hoffentlich einen Blick auf einen Star bei der Arbeit erhaschen.

Wie in den vorherigen Beispielen müssen wir zunächst die Daten in Databricks laden. Das Open-Data-Portal von NYC ermöglicht es Ihnen, die .csv-Datei einfach herunterzuladen und sie über „Daten hochladen“ in der Benutzeroberfläche zu importieren, wie wir es in den vorherigen Übungen getan haben. Allerdings ist ein interessantes Feature dieses Datasets, dass es täglich aktualisiert wird. Lassen Sie uns diese Daten programmatisch abrufen, damit wir sie nach einem Schedule ausführen können. Das kommt der Vorgehensweise in einem Unternehmenskontext sehr viel näher.

Mit Databricks ist es ganz einfach, den benötigten Python-Code über Notebooks auszuführen. Erstellen Sie in diesem Fall ein Notebook (Neu->Notebook in der oberen linken Ecke), kopieren Sie den nachstehenden Code, fügen Sie ihn ein und klicken Sie auf „Ausführen“, um die CSV-Datei in Ihrem Arbeitsbereich herunterzuladen und in eine Tabelle zu parsen. Denken Sie daran: Wenn Probleme auftreten, hilft Ihnen jederzeit der Databricks Assistant (über das lila Rautensymbol)!

Dieser erste Codeabschnitt erstellt ein Volume (einen Ort zum Speichern beliebiger Dateien) und lädt dann das Dataset mithilfe der Python-Bibliothek URLLib herunter. Sie können die Katalog- und Schemanamen gerne an Ihren Stil anpassen!

Dieser zweite Codeabschnitt nimmt die Rohdatei und erstellt eine Tabelle namens „film_permits“, die wir in unserem Dashboard verwenden können. Bitten Sie bei Bedarf den Assistant, es zu erklären.

Wenn der Vorgang erfolgreich war, sollten Sie die Tabelle über den Katalogbereich des Workspace oder durch Öffnen der Seitenleiste des Daten-Explorers (Symbol mit drei Formen) im Notebook finden können. Erweitern Sie dann den Katalog „databricks_demo“ und das Schema „open_nyc“, um die Tabelle anzuzeigen. Möglicherweise müssen Sie auf die Schaltfläche „refresh“ klicken, falls die Ansicht bereits geöffnet war.

Erinnerung: Falls Probleme mit dem Code auftreten, denken Sie daran, dass Sie den Code-Ansatz jederzeit verwerfen und die Daten manuell importieren können, indem Sie sie aus dem Portal download und über die Schaltfläche „Daten Upload“ auf der Startseite Ihres workspace upload.

Sobald Sie die Tabelle geladen haben, ist es an der Zeit, die Daten zu analysieren und eine Story zu präsentieren! Sie können Trends mit einem Liniendiagramm überprüfen – gibt es mehr Dreharbeiten für Serien oder Spielfilme? Ändert sich das im Laufe der Zeit? Oder Sie könnten über die Verteilung mit einem Balken- oder Tortendiagramm nachdenken – überschneiden sich die Drehorte für Nachrichten oder Werbespots stark mit denen von Filmen?

Wenn Sie versuchen, eine Kartenvisualisierung zu erstellen, werden Sie vielleicht feststellen, dass die Filmgenehmigungen zwar eine Postleitzahl enthalten, die Kartenvisualisierung des AI/BI-Dashboards jedoch Breiten- und Längengrad-Attribute erfordert. Glücklicherweise sind Datasets für die Zuordnung von Postleitzahlen zu Koordinaten online leicht zu finden und können mit dem Assistant in das Dashboard übernommen werden. Sie könnten diesen offenen Datensatz (lizenziert unter Creative Commons) herunterladen, einen neuen Datensatz auf Ihrem Dashboard erstellen und den Assistenten bitten, eine kombinierte Abfrage zu generieren. Hier ist der Prompt, den ich verwendet habe (passen Sie ihn an Ihre spezifischen Katalog- und Tabellennamen an):

Und hier ist eine Version, wie dein finales Dashboard aussehen könnte!

Herausforderung: Welche anderen Daten von OpenNYC könnten Sie überlagern, vielleicht das Volumen von Taxis oder Mitfahrdiensten? Bedeutende Wahrzeichen? Wenn Sie politisch aktiv sind, gibt es eine Analyse, die Ihr Anliegen voranbringen würde? Andere Städte und Bundesstaaten bieten ähnliche offene Datasets an, wie z. B. den Building Energy Benchmark -Dataset zu Emissionen aus Seattle, der für Sie vielleicht relevanter ist. 

Können Sie die geospatiale Analyse mit den nativen „ST-Funktionen“ von Databricks erweitern, um die nächstgelegenen anderen Punkte nachzuschlagen?

Zusammenfassung

Das Beste an Analytics sind für mich die Aha-Momente, die man erlebt, wenn man seiner Neugier folgt, und ich hoffe, diese Beispiele haben Sie auf einige Ideen gebracht. Wenn Sie mehr erfahren oder auf eine Zertifizierung hinarbeiten möchten, die Sie in Ihren Lebenslauf aufnehmen können, können Sie hier auf den kostenlosen AI/BI-Übersichts-Training von Databricks zugreifen, den Sie im eigenen Tempo absolvieren, hier an einem ausführlicheren Autoren-Training teilnehmen oder an einem kostenlosen Live-Onboarding-Kurs teilnehmen! Die Dokumentations-Website von Databricks ist ebenfalls eine hervorragende Anlaufstelle für bestimmte Features.

Wenn Sie eines der Beispiel-Dashboards in diesem Blog importieren möchten, können Sie sich dieses Repo für die Quelle ansehen. Da die Spezifikationen für AI/BI-Dashboards nur JSON sind, laden Sie die Datei herunter und importieren Sie sie über das Drop-down-Menü „Importieren“ auf der Startseite der Dashboards.

Zuletzt finden Sie im Databricks Demo-CenterDutzende von installierbaren Demos, die von ML über Dashboarding bis hin zu agentenbasierter KI reichen.Probieren Sie etwas Neues aus oder teilen Sie Ihre Kreationen mit der Databricks-Community auf Ihrer bevorzugten Social-Media-Plattform. Viel Spaß beim Hacken!

Beginnen Sie mit der Entwicklung mit der Databricks Free Edition

Richten Sie noch heute Ihren kostenlosen Workspaceein – keine Kreditkarte erforderlich – und verwandeln Sie diese Projekte in portfoliofähige Dashboards.

 

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Was kommt als Nächstes?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks