Direkt zum Hauptinhalt

Data Scientists: Die Zukunft von KI und Analytics antreiben

von Databricks-Mitarbeiter

  • Data Scientists verwandeln Rohdaten in prädiktive Modelle, Experimente und Empfehlungen, die geschäftliche Entscheidungen in den Bereichen Analytics, Machine Learning und KI steuern.
  • Zu ihren größten Herausforderungen gehören fragmentierte Tools und Daten, inkonsistente Governance, schwierige Übergaben in die Produktion und funktionsübergreifende Workflows, die Projekte verlangsamen und die Modellakzeptanz einschränken.
  • Einheitliche, governed Plattformen helfen Data Scientists, schneller von der Exploration zum Deployment zu gelangen. So lassen sich Ergebnisse wie Umsatz, Kundenbindung, Effizienz und Kundenerlebnis verbessern, anstatt nur die Modellgenauigkeit zu optimieren.

Data Scientists arbeiten an der Schnittstelle von Analytics, Machine Learning (ML) und AI. Sie übersetzen unbereinigte, reale Daten in Entscheidungen, die den Geschäftserfolg vorantreiben.

Mit dem zunehmenden Volumen und der Komplexität von Unternehmensdaten ist auch die strategische Bedeutung dieser Rolle gewachsen: Heute gehören Data Scientists zu den gefragtesten Fachkräften in modernen Unternehmen.

AI hat sich von der prädiktiven Modellierung hin zu generativen Anwendungen und agentischen Systemen entwickelt. Der Aufgabenbereich von Data Scientists ist damit ebenfalls gewachsen. Dieser Artikel untersucht, wie sich die Rolle entwickelt hat und wie moderne Plattformen diese Entwicklung unterstützen.

Was ist ein Data Scientist?

Ein Data Scientist verwandelt Rohdaten in Ergebnisse, die den Geschäftserfolg vorantreiben. Während ein Data Analyst beschreibt, was passiert ist und warum, geht ein Data Scientist einen Schritt weiter: Er entwickelt Systeme, die vorhersagen, was als Nächstes passieren wird, und gibt Empfehlungen für die nächsten geschäftlichen Schritte.

Die Rolle basiert auf drei grundlegenden Fachbereichen:

  1. Statistik und Mathematik, die als Grundlage für die Modelle dienen
  2. Programmierung, mit der die Modelle erstellt und automatisiert werden
  3. Fachbereichswissen, das sicherstellt, dass die entwickelten Lösungen auch tatsächlich die richtigen Fragen beantworten.

Data Scientists liefern eine Vielzahl von Ergebnissen, wie Nachfrageprognosen, Kundensegmentierungsmodelle, Empfehlungs-Engines, Systeme zur Betrugserkennung und Ergebnisse von A/B-Tests. Jedes dieser Ergebnisse trägt dazu bei, Daten direkt mit einer geschäftlichen Entscheidung zu verknüpfen.

Wie sich die Rolle des Data Scientists entwickelt

Die Rolle des Data Scientists hat sich in den letzten Jahren erheblich erweitert. Die klassische Modellierung ist heute nur noch ein Teil eines viel breiteren Spektrums. Von Data Scientists wird zunehmend erwartet, dass sie mit großen Sprachmodellen arbeiten, generative AI-Anwendungen entwickeln und Modelle bis hin zur Bereitstellung in der Produktion und kontinuierlichen Überwachung begleiten.

Dieser Wandel ist sowohl organisatorischer als auch technischer Natur. Data Scientists arbeiten weniger als Einzelmitwirkende, sondern vermehrt an kollaborativen, produktionsreifen Workflows, die gemeinsam von Engineering-, Analytics- und Businessteams genutzt werden. Erfolg bedeutet heute, technische Präzision mit messbaren Ergebnissen zu verknüpfen. Data Scientists werden zunehmend an ihrem geschäftlichen Einfluss gemessen: ob ein Modell den Umsatz gesteigert, die Kundenabwanderung reduziert oder eine Produktentscheidung beschleunigt hat – und nicht nur daran, ob es eine bestimmte Zielgenauigkeit erreicht hat.

Kernkompetenzen, die moderne Data Scientists benötigen

Data Science erfordert eine Vielzahl von Fähigkeiten, je nach spezifischer Rolle, Branche und Reifegrad des Teams.

Die folgende Tabelle zeigt die wichtigsten Kompetenzbereiche, die in Data Science-Rollen in Unternehmen benötigt werden, sowie spezifische damit verbundene Fähigkeiten und Kenntnisse und warum diese im aktuellen AI-Umfeld wichtig sind.

KompetenzbereichWas er umfasstWarum es jetzt wichtig ist
ProgrammierungPython, SQL, RGrundlage für Analysen, Modellierung und Pipelines
Statistik und MathematikWahrscheinlichkeitsrechnung, lineare Algebra, InferenzBildet die Grundlage für Modellierung und Experimente
Machine LearningÜberwachtes, unüberwachtes und Deep LearningErmöglicht prädiktive und generative Anwendungsfälle
Grundlagen des Data EngineeringsPipelines, Transformationen, SpeicherformateErforderlich für die Arbeit mit Produktionsdaten
MLOps-VerständnisModellbereitstellung, Überwachung, erneutes TrainingModelle müssen in der Produktion funktionieren, nicht nur in Notebooks
KommunikationStorytelling, Visualisierung, zielgruppengerechte Aufbereitung für StakeholderFördert die Akzeptanz von Erkenntnissen und Modellen
FachbereichswissenBranchen- oder funktionsspezifisches WissenSchärft die Problemformulierung und die Auswahl der Metriken

Data Scientist im Vergleich zu ähnlichen Rollen

Data Science überschneidet sich mit einer Reihe ähnlicher Rollen, aber die Grenzen zwischen ihnen können je nach Team und Organisation manchmal fließend wirken.

Die folgende Tabelle sorgt für Klarheit, indem sie den Hauptfokus verschiedener Rollen sowie den Kontext rund um die typischen Ergebnisse dieser Rollen hervorhebt.

RolleHauptfokusTypisches Ergebnis
Data ScientistModellierung, Experimentieren, Generierung von ErkenntnissenPrädiktive Modelle, Analysen, Empfehlungen
Data AnalystReporting und deskriptive AnalyticsDashboards, Ad-hoc-Analysen, KPI-Berichte
ML EngineerÜberführung von Modellen in die Produktion und SkalierungBereitgestellte Modelldienste, ML-Pipelines
Data EngineerAufbau und Pflege von DatenpipelinesZuverlässige Datensätze und Ingestion-Infrastruktur
Analytics EngineerModellierung und Kuratierung von analysebereiten DatenTransformierte Tabellen, semantische Schichten

In vielen Unternehmen übernehmen Data Scientists Aufgaben, die formal zu ML Engineers oder Analytics Engineers gehörten, insbesondere in kleineren Teams. Das deutlichste Unterscheidungsmerkmal von Data Scientists ist ihre Eigenverantwortung für den Modellierungs- und Experimentierprozess – also die Formulierung des Problems, die Auswahl und Erstellung des Modells sowie die Interpretation der Ergebnisse in geschäftlicher Hinsicht.

Tools und Plattformen, mit denen Data Scientists arbeiten

Der moderne Data-Science-Stack konzentriert sich auf interaktive Notebooks: browserbasierte Umgebungen zum Schreiben von Code, Visualisieren von Ergebnissen und Dokumentieren der Arbeit. Die meisten Teams nutzen zudem SQL-Engines, ML-Bibliotheken, Tools zur Experimentverfolgung und BI-Tools, um Ergebnisse mit Stakeholdern zu teilen.

Ein typischer Arbeitstag umfasst mehrere dieser Schritte: Vorbereitung von Daten in Python, Abrufen eines Trainingsdatensatzes mit SQL, Trainieren eines Modells mit scikit-learn oder PyTorch, Verfolgen von Experimenten mit MLflow und Präsentieren der Ergebnisse in einem Dashboard.

Zu den gängigen Sprachen und Bibliotheken gehören Python, SQL, pandas, scikit-learn, PyTorch, Spark und MLflow. Unternehmensteams sind weitgehend auf Cloud- und einheitliche Datenplattformen umgestiegen, da eine lokale Entwicklung mit einer Teilmenge von Daten auf Produktionsebene nicht praktikabel ist. Auch AI-Assistenten werden zum Standard. Sie helfen Data Scientists dabei, schneller Code zu schreiben, Datensätze zu untersuchen und Pipelines zu debuggen.

Wie Data Scientists geschäftlichen Mehrwert schaffen

Data Scientists schaffen geschäftlichen Mehrwert, indem sie Modellergebnisse mit Entscheidungen verknüpfen, die sich auf Umsatz, Kosten und Kundenerfahrung auswirken. Beispielsweise kann eine Nachfrageprognose dazu beitragen, Lagerbestandsabfälle zu reduzieren und die Auftragsabwicklung zu verbessern. Churn-Modelle ermöglichen es Kundenbindungsteams, einzugreifen, bevor ein Kunde abwandert. Empfehlungs-Engines steigern das Engagement und die Kaufraten. Die Preisoptimierung verbessert die Marge, ohne das Absatzvolumen zu verringern. In jedem Fall ist nicht das Modell das Endprodukt, sondern das geschäftliche Ergebnis.

Aus diesem Grund wird die Leistung von Data Scientists zunehmend an ihrer Wirkung und nicht nur an den Modellmetriken gemessen. Ein Modell mit einer etwas geringeren Genauigkeit, das bereitgestellt, angenommen und vom Unternehmen genutzt wird, ist weitaus wertvoller als ein leistungsstärkeres Modell, das nie in die Produktion geht. Die Auswahl der Metriken und eine klare Kommunikation mit den Stakeholdern sind ebenso wichtig wie technische Fähigkeiten. Ein guter Data Scientist erstellt das richtige Modell, misst die richtigen Parameter und präsentiert die Ergebnisse so, dass sie zu konkreten Maßnahmen führen.

Bericht

Das Playbook für agentenbasierte KI für Unternehmen

Wo Data Scientists im AI- und ML-Lebenszyklus einzuordnen sind

Data Scientists leisten in jeder Phase des Projektlebenszyklus einen Beitrag – von dem Moment an, in dem eine geschäftliche Frage identifiziert wird, bis hin zu dem Punkt, an dem ein bereitgestelltes Modell überwacht und erneut trainiert wird.

Die folgende Liste beschreibt die wichtigsten Beiträge der Data Science für jede Phase des Lebenszyklus.

  1. Problemformulierung. Übersetzung geschäftlicher Fragen in ein messbares Modellierungsproblem mit einer definierten Zielmetrik. Hier ist Fachbereichswissen am wichtigsten. Eine falsche Problemstellung führt zu einem falschen Modell, unabhängig von der technischen Qualität.
  2. Datenzugriff. Lokalisieren, Bewerten und Abrufen von verwalteten Datensätzen, die für die Arbeit benötigt werden. In Unternehmensumgebungen umfasst dies das Verwalten von Berechtigungen, das Verstehen der Datenherkunft (Lineage) und das Bestätigen der Datenqualität, bevor in das Feature Engineering investiert wird.
  3. Exploration und Vorbereitung. Profilierung der Daten, Umgang mit fehlenden Werten und Ausreißern sowie die Aufbereitung der Eingaben in eine für die Modellierung geeignete Form. Diese Phase nimmt in einem realen Projekt in der Regel die meiste Zeit in Anspruch.
  4. Feature Engineering. Erstellung von Signalen wie abgeleiteten Variablen, Aggregationen und Kodierungen, die Modelle prädiktiv machen. Gut entwickelte Features sind projektübergreifend wiederverwendbar und stellen einen dauerhaften Wettbewerbsvorteil dar.
  5. Modellentwicklung. Trainieren und Optimieren von Modellkandidaten, wobei die Leistung mit einer definierten Baseline verglichen wird. Dies ist die Phase, die in der Öffentlichkeit am ehesten mit Data Science assoziiert wird, aber sie ist selten der zeitaufwendigste oder wertvollste Schritt.
  • Experimentieren. Validieren Sie Ergebnisse durch Offline-Evaluierung und, wo angemessen, Live-Tests wie A/B-Experimente. Statistische Strenge ist in dieser Phase entscheidend, um vertrauenswürdige Ergebnisse zu erzielen.
  • Deployment. Überführen Sie freigegebene Modelle in die Produktion, damit sie Vorhersagen für die Anwendungen und Teams bereitstellen können, die sie benötigen – je nach Anwendungsfall im Batch-, Streaming- oder Echtzeitmodus.
  • Monitoring und Retraining. Achten Sie auf Data Drift und Leistungsabfall im Laufe der Zeit, trainieren Sie Modelle bei Bedarf mit neuen Daten neu und nehmen Sie Modelle außer Betrieb, die die geschäftlichen Anforderungen nicht mehr erfüllen.
  • Herausforderungen für Data Scientists

    Data Scientists stehen vor Herausforderungen, die typischerweise daraus resultieren, wie Unternehmen organisiert sind und wie Daten und Tools historisch gewachsen sind. Sie lassen sich in einige wiederkehrende Muster einteilen:

    Fragmentierte Daten und Tools

    Wenn Daten über Warehouses, Data Lakes, SaaS-Anwendungen und operative Systeme verteilt sind, kann das Zusammenstellen eines Trainingsdatensatzes ebenso viel Zeit in Anspruch nehmen wie die Erstellung des Modells selbst. Das Aufspüren von Tabellen, das Abgleichen widersprüchlicher Definitionen und das manuelle Zusammenführen von Quellen, die eigentlich bereits vereinheitlicht sein sollten, sind allesamt Reibungspunkte, die den Fortschritt verlangsamen, noch bevor die eigentliche Arbeit begonnen hat. Der Wechsel zwischen isolierten Tools verschlimmert das Problem: Jeder Kontextwechsel führt zu Nacharbeit, Inkonsistenzen und Reibungsverlusten, die den gesamten Workflow behindern.

    Regulierter Zugriff auf Daten

    Data Scientists benötigen umfassenden Zugriff auf Daten, um bestmögliche Arbeit zu leisten. Sicherheitsrichtlinien, Datenschutzvorschriften, Compliance-Kontrollen und andere Governance-Anforderungen scheinen manchmal im Widerspruch zu diesem Bedarf zu stehen.

    Dieser scheinbare Konflikt ist jedoch meist das Produkt einer schlecht implementierten Governance und nicht der Governance-Anforderungen selbst. Wenn Zugriffskontrollen klar, Berechtigungen eindeutig definiert und die Data Lineage transparent sind, können Data Scientists schneller agieren, statt langsamer. Sie verbringen weniger Zeit damit, nach Zugriffen zu fragen, die Datenqualität anzuzweifeln oder sich Gedanken darüber zu machen, ob sie die richtige Version eines Datensatzes verwenden.

    Modelle vom Notebook in die Produktion bringen

    Entwicklungsumgebungen unterscheiden sich von Produktionsumgebungen, Datenpipelines ändern sich, die Anforderungen an die Infrastruktur sind anspruchsvoller und die Engineering-Standards, die Produktionssysteme erfordern, werden beim Experimentieren selten angewendet. Das führt dazu, dass viele Modelle, die in der Entwicklung gut abschneiden, es nie in die Produktion schaffen. Um diese Lücke zu schließen, sind MLOps-Best-Practices erforderlich: Modellversionierung, CI/CD-Pipelines und automatisiertes Monitoring. Zudem ist eine enge Zusammenarbeit zwischen Data Scientists und den Engineers erforderlich, die für die Produktionsinfrastruktur verantwortlich sind.

    Zusammenarbeit zwischen Daten-, Engineering- und Businessteams

    Data-Science-Projekte können sowohl aus organisatorischen als auch aus technischen Gründen scheitern. Data Scientists, Data Engineers, ML-Engineers und geschäftliche Stakeholder arbeiten oft mit unterschiedlichen Tools, nutzen verschiedene Definitionen für dieselben Metriken und haben unterschiedliche Zeitpläne.

    Abgestimmte Definitionen für Schlüsselmetriken, gemeinsam genutzte Feature-Bibliotheken und einheitliche Datenmodelle reduzieren die Reibungsverluste bei der funktionsübergreifenden Zusammenarbeit. Das Gleiche gilt für eine gemeinsame Plattform. Wenn Data Scientists und Engineers in derselben Umgebung arbeiten und Zugriff auf dieselben Daten und dieselbe Lineage haben, verlaufen Übergaben reibungsloser und Missverständnisse werden früher erkannt.

    Schritt halten mit einer schnelllebigen KI-Landschaft

    Selbst in einer Branche, die für schnellen Wandel bekannt ist, bewegt sich der Bereich der KI mit bemerkenswerter Geschwindigkeit. Generative AI hat eine neue Klasse von Modellen und Anwendungsfällen eingeführt, von denen erwartet wird, dass Data Scientists sie fast so schnell verstehen und anwenden, wie sie veröffentlicht werden. Agentische Systeme, bei denen KI-Modelle logisch denken, planen und mehrstufige Aufgaben ausführen, wecken ähnliche Erwartungen.

    Gleichzeitig sind die grundlegenden Fähigkeiten wie statistische Strenge, durchdachte Problemformulierung und sorgfältige Evaluierung so wichtig wie eh und je. Data Scientists müssen neue Techniken bewerten und übernehmen, ohne die Sorgfalt aufzugeben, die ihre Arbeit vertrauenswürdig macht. Unternehmen, die Data Scientists Zugang zu modernen Tools und Zeit zum Experimentieren geben, anstatt von ihnen zu verlangen, Altsystem-Workflows zu pflegen und gleichzeitig auf dem neuesten Stand zu bleiben, sind am besten aufgestellt, um sie zu unterstützen.

    Wie die Databricks-Plattform Data Scientists unterstützt

    Die Databricks-Plattform bietet eine einheitliche Umgebung für Data-Science-Arbeiten in den Bereichen Analytics, AI und ML, ohne dass der bei der Arbeit mit separaten Tools erforderliche Kontextwechsel nötig ist. Regulierter Datenzugriff, kollaborative Notebooks, ML-Experimente und das Production-Deployment befinden sich alle auf einer Plattform, die auf einer offenen Lakehouse-Architektur aufbaut und sich mühelos an Datenmengen auf Unternehmensebene und Compliance-Anforderungen anpassen lässt.

    Für Data Scientists bedeutet dies weniger Zeitaufwand für Infrastruktur und Tools und mehr Zeit für wertschöpfende Arbeit. Exploration, Feature Engineering, Modellentwicklung und Deployment finden in einem kontinuierlichen Workflow statt und nicht in einer fragmentierten Abfolge von Übergaben. Und da Daten- und AI-Assets auf der gesamten Plattform einheitlich reguliert werden, können Data Scientists darauf vertrauen, dass die Daten, mit denen sie trainieren, dieselben sind, die ihre Modelle in der Produktion sehen werden.

    Zu den spezifischen Funktionen der Databricks-Plattform, die Data-Science-Workflows unterstützen, gehören:

    • Kollaborative Notebooks. Erstellen und teilen Sie Analysen in Python, SQL, R und Scala in einem einzigen Arbeitsbereich mit Co-Authoring, Git-Integration und rollenbasierter Zugriffskontrolle.
    • Unity Catalog. Stellen Sie regulierten Zugriff auf Daten- und AI-Assets bereit, einschließlich Tabellen, Features, Modellen und Funktionen, mit End-to-End-Lineage und feingranularen Berechtigungen.
    • Agent Bricks. Erstellen, optimieren und stellen Sie traditionelle ML- und generative AI-Modelle auf Unternehmensdaten bereit – mit integriertem Experiment-Tracking über MLflow, Model Serving und Tools zur Agentenentwicklung.

    Die Zukunft der Rolle des Data Scientist

    AI verändert die Rolle des Data Scientist, sie schafft sie nicht ab. AI-Assistenten und -Agenten werden immer besser darin, routinemäßige Codierungsaufgaben zu automatisieren, Boilerplate-Code zu generieren, explorative Analysen durchzuführen und Modellarchitekturen vorzuschlagen – all das sind echte Produktivitätsgewinne. Aber AI ersetzt nicht das menschliche Urteilsvermögen. Probleme intelligent zu formulieren, zu bewerten, ob ein Ergebnis vertrauenswürdig ist, und eine technische Erkenntnis in eine umsetzbare Geschäftsempfehlung zu übersetzen, bleiben eindeutig menschliche Fähigkeiten.

    Der Aufstieg agentischer Workflows verdeutlicht dies sehr gut. Data Scientists arbeiten zunehmend an der Seite von AI-Agenten, die komplexe, mehrstufige Aufgaben auf der Grundlage eines einzigen Prompts ausführen. Tools wie der Databricks Data Science Agent, der für den regulierten Datenzugriff in Unity Catalog verankert ist, sind ein Praxisbeispiel. In diesen Workflows besteht die Aufgabe des Data Scientist darin, den Agenten auf das richtige Problem auszurichten, seine Ergebnisse kritisch zu bewerten und die Verantwortung für die darauf folgenden Entscheidungen zu übernehmen.

    Häufig gestellte Fragen

    Was ist der Unterschied zwischen einem Data Scientist und einem Data Analyst?

    Data Analysts konzentrieren sich darauf, mithilfe von Dashboards, Abfragen und KPI-Berichten zu beschreiben, was bereits geschehen ist. Data Scientists gehen weiter: Sie erstellen prädiktive Modelle, die vorhersagen, was als Nächstes passieren wird, und Empfehlungen für das weitere Vorgehen aussprechen. Der deutlichste Unterschied liegt in der Eigenverantwortung für den Modellierungs- und Experimentierprozess.

    Was ist der Unterschied zwischen einem Data Scientist und einem Machine Learning Engineer?

    Data Scientists formulieren Probleme, erstellen Modelle und interpretieren Ergebnisse in geschäftlicher Hinsicht. ML-Engineers übernehmen diese Modelle und sorgen dafür, dass sie in der Produktion zuverlässig funktionieren. In kleineren Teams überschneiden sich die Rollen oft, in größeren Organisationen sind sie meist klar voneinander getrennt.

    Wie nutzen Data Scientists generative AI?

    Auf zwei Arten: als neue Klasse von Anwendungsfällen, einschließlich des Fine-Tunings von LLMs, dem Erstellen von RAG-Anwendungen und der Entwicklung von AI-Agenten; und als Produktivitätstool, indem sie AI-Assistenten nutzen, um Code zu generieren, Daten zu explorieren und Analysen zu beschleunigen.

    Warum ist ein regulierter Datenzugriff für Data Scientists wichtig?

    Eine starke Governance ist ein Beschleuniger, keine Einschränkung. Klare Berechtigungen, dokumentierte Lineage und gut katalogisierte Daten-Assets bedeuten weniger Zeitaufwand bei der Suche nach dem richtigen Datensatz und mehr Vertrauen in die Modellergebnisse.

    Wie messen Data Scientists den geschäftlichen Nutzen?

    Indem sie Modellergebnisse mit Metriken verknüpfen, die für Stakeholder von Bedeutung sind: Umsatz, Retention, Conversion, Betrugsrate und Kosten. Dies erfordert, dass der Erfolg in geschäftlichen Begriffen definiert wird, bevor das Modell erstellt wird, und dass die Leistung im Laufe der Zeit verfolgt wird, um sicherzustellen, dass die Gewinne von Dauer sind.

    Data Scientists dabei helfen, schneller zu agieren

    Da sich der Aufgabenbereich zunehmend auf generative KI, agentenbasierte Workflows und produktionsreifes ML ausweitet, benötigen Data Scientists Umgebungen, die Schritt halten: einheitliche Plattformen, kontrollierten Datenzugriff und Tools, die Reibungsverluste reduzieren, anstatt sie zu verursachen. Die richtige Infrastruktur ermöglicht es Data Scientists, sich auf die wertschöpfende Arbeit zu konzentrieren: Problemstellungen definieren, Modelle entwickeln und Ergebnisse mit den entscheidenden Entscheidungen verknüpfen.

    Erfahren Sie, wie die Databricks-Plattform Data Scientists in den Bereichen Daten, Analytik, KI und ML unterstützt.

    (Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

    Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

    Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.