Data Scientists arbeiten an der Schnittstelle von Analytics, Machine Learning (ML) und AI. Sie übersetzen unbereinigte, reale Daten in Entscheidungen, die den Geschäftserfolg vorantreiben.
Mit dem zunehmenden Volumen und der Komplexität von Unternehmensdaten ist auch die strategische Bedeutung dieser Rolle gewachsen: Heute gehören Data Scientists zu den gefragtesten Fachkräften in modernen Unternehmen.
AI hat sich von der prädiktiven Modellierung hin zu generativen Anwendungen und agentischen Systemen entwickelt. Der Aufgabenbereich von Data Scientists ist damit ebenfalls gewachsen. Dieser Artikel untersucht, wie sich die Rolle entwickelt hat und wie moderne Plattformen diese Entwicklung unterstützen.
Ein Data Scientist verwandelt Rohdaten in Ergebnisse, die den Geschäftserfolg vorantreiben. Während ein Data Analyst beschreibt, was passiert ist und warum, geht ein Data Scientist einen Schritt weiter: Er entwickelt Systeme, die vorhersagen, was als Nächstes passieren wird, und gibt Empfehlungen für die nächsten geschäftlichen Schritte.
Die Rolle basiert auf drei grundlegenden Fachbereichen:
Data Scientists liefern eine Vielzahl von Ergebnissen, wie Nachfrageprognosen, Kundensegmentierungsmodelle, Empfehlungs-Engines, Systeme zur Betrugserkennung und Ergebnisse von A/B-Tests. Jedes dieser Ergebnisse trägt dazu bei, Daten direkt mit einer geschäftlichen Entscheidung zu verknüpfen.
Die Rolle des Data Scientists hat sich in den letzten Jahren erheblich erweitert. Die klassische Modellierung ist heute nur noch ein Teil eines viel breiteren Spektrums. Von Data Scientists wird zunehmend erwartet, dass sie mit großen Sprachmodellen arbeiten, generative AI-Anwendungen entwickeln und Modelle bis hin zur Bereitstellung in der Produktion und kontinuierlichen Überwachung begleiten.
Dieser Wandel ist sowohl organisatorischer als auch technischer Natur. Data Scientists arbeiten weniger als Einzelmitwirkende, sondern vermehrt an kollaborativen, produktionsreifen Workflows, die gemeinsam von Engineering-, Analytics- und Businessteams genutzt werden. Erfolg bedeutet heute, technische Präzision mit messbaren Ergebnissen zu verknüpfen. Data Scientists werden zunehmend an ihrem geschäftlichen Einfluss gemessen: ob ein Modell den Umsatz gesteigert, die Kundenabwanderung reduziert oder eine Produktentscheidung beschleunigt hat – und nicht nur daran, ob es eine bestimmte Zielgenauigkeit erreicht hat.
Data Science erfordert eine Vielzahl von Fähigkeiten, je nach spezifischer Rolle, Branche und Reifegrad des Teams.
Die folgende Tabelle zeigt die wichtigsten Kompetenzbereiche, die in Data Science-Rollen in Unternehmen benötigt werden, sowie spezifische damit verbundene Fähigkeiten und Kenntnisse und warum diese im aktuellen AI-Umfeld wichtig sind.
| Kompetenzbereich | Was er umfasst | Warum es jetzt wichtig ist |
|---|---|---|
| Programmierung | Python, SQL, R | Grundlage für Analysen, Modellierung und Pipelines |
| Statistik und Mathematik | Wahrscheinlichkeitsrechnung, lineare Algebra, Inferenz | Bildet die Grundlage für Modellierung und Experimente |
| Machine Learning | Überwachtes, unüberwachtes und Deep Learning | Ermöglicht prädiktive und generative Anwendungsfälle |
| Grundlagen des Data Engineerings | Pipelines, Transformationen, Speicherformate | Erforderlich für die Arbeit mit Produktionsdaten |
| MLOps-Verständnis | Modellbereitstellung, Überwachung, erneutes Training | Modelle müssen in der Produktion funktionieren, nicht nur in Notebooks |
| Kommunikation | Storytelling, Visualisierung, zielgruppengerechte Aufbereitung für Stakeholder | Fördert die Akzeptanz von Erkenntnissen und Modellen |
| Fachbereichswissen | Branchen- oder funktionsspezifisches Wissen | Schärft die Problemformulierung und die Auswahl der Metriken |
Data Science überschneidet sich mit einer Reihe ähnlicher Rollen, aber die Grenzen zwischen ihnen können je nach Team und Organisation manchmal fließend wirken.
Die folgende Tabelle sorgt für Klarheit, indem sie den Hauptfokus verschiedener Rollen sowie den Kontext rund um die typischen Ergebnisse dieser Rollen hervorhebt.
| Rolle | Hauptfokus | Typisches Ergebnis |
|---|---|---|
| Data Scientist | Modellierung, Experimentieren, Generierung von Erkenntnissen | Prädiktive Modelle, Analysen, Empfehlungen |
| Data Analyst | Reporting und deskriptive Analytics | Dashboards, Ad-hoc-Analysen, KPI-Berichte |
| ML Engineer | Überführung von Modellen in die Produktion und Skalierung | Bereitgestellte Modelldienste, ML-Pipelines |
| Data Engineer | Aufbau und Pflege von Datenpipelines | Zuverlässige Datensätze und Ingestion-Infrastruktur |
| Analytics Engineer | Modellierung und Kuratierung von analysebereiten Daten | Transformierte Tabellen, semantische Schichten |
In vielen Unternehmen übernehmen Data Scientists Aufgaben, die formal zu ML Engineers oder Analytics Engineers gehörten, insbesondere in kleineren Teams. Das deutlichste Unterscheidungsmerkmal von Data Scientists ist ihre Eigenverantwortung für den Modellierungs- und Experimentierprozess – also die Formulierung des Problems, die Auswahl und Erstellung des Modells sowie die Interpretation der Ergebnisse in geschäftlicher Hinsicht.
Der moderne Data-Science-Stack konzentriert sich auf interaktive Notebooks: browserbasierte Umgebungen zum Schreiben von Code, Visualisieren von Ergebnissen und Dokumentieren der Arbeit. Die meisten Teams nutzen zudem SQL-Engines, ML-Bibliotheken, Tools zur Experimentverfolgung und BI-Tools, um Ergebnisse mit Stakeholdern zu teilen.
Ein typischer Arbeitstag umfasst mehrere dieser Schritte: Vorbereitung von Daten in Python, Abrufen eines Trainingsdatensatzes mit SQL, Trainieren eines Modells mit scikit-learn oder PyTorch, Verfolgen von Experimenten mit MLflow und Präsentieren der Ergebnisse in einem Dashboard.
Zu den gängigen Sprachen und Bibliotheken gehören Python, SQL, pandas, scikit-learn, PyTorch, Spark und MLflow. Unternehmensteams sind weitgehend auf Cloud- und einheitliche Datenplattformen umgestiegen, da eine lokale Entwicklung mit einer Teilmenge von Daten auf Produktionsebene nicht praktikabel ist. Auch AI-Assistenten werden zum Standard. Sie helfen Data Scientists dabei, schneller Code zu schreiben, Datensätze zu untersuchen und Pipelines zu debuggen.
Data Scientists schaffen geschäftlichen Mehrwert, indem sie Modellergebnisse mit Entscheidungen verknüpfen, die sich auf Umsatz, Kosten und Kundenerfahrung auswirken. Beispielsweise kann eine Nachfrageprognose dazu beitragen, Lagerbestandsabfälle zu reduzieren und die Auftragsabwicklung zu verbessern. Churn-Modelle ermöglichen es Kundenbindungsteams, einzugreifen, bevor ein Kunde abwandert. Empfehlungs-Engines steigern das Engagement und die Kaufraten. Die Preisoptimierung verbessert die Marge, ohne das Absatzvolumen zu verringern. In jedem Fall ist nicht das Modell das Endprodukt, sondern das geschäftliche Ergebnis.
Aus diesem Grund wird die Leistung von Data Scientists zunehmend an ihrer Wirkung und nicht nur an den Modellmetriken gemessen. Ein Modell mit einer etwas geringeren Genauigkeit, das bereitgestellt, angenommen und vom Unternehmen genutzt wird, ist weitaus wertvoller als ein leistungsstärkeres Modell, das nie in die Produktion geht. Die Auswahl der Metriken und eine klare Kommunikation mit den Stakeholdern sind ebenso wichtig wie technische Fähigkeiten. Ein guter Data Scientist erstellt das richtige Modell, misst die richtigen Parameter und präsentiert die Ergebnisse so, dass sie zu konkreten Maßnahmen führen.
Data Scientists leisten in jeder Phase des Projektlebenszyklus einen Beitrag – von dem Moment an, in dem eine geschäftliche Frage identifiziert wird, bis hin zu dem Punkt, an dem ein bereitgestelltes Modell überwacht und erneut trainiert wird.
Die folgende Liste beschreibt die wichtigsten Beiträge der Data Science für jede Phase des Lebenszyklus.
Data Scientists stehen vor Herausforderungen, die typischerweise daraus resultieren, wie Unternehmen organisiert sind und wie Daten und Tools historisch gewachsen sind. Sie lassen sich in einige wiederkehrende Muster einteilen:
Wenn Daten über Warehouses, Data Lakes, SaaS-Anwendungen und operative Systeme verteilt sind, kann das Zusammenstellen eines Trainingsdatensatzes ebenso viel Zeit in Anspruch nehmen wie die Erstellung des Modells selbst. Das Aufspüren von Tabellen, das Abgleichen widersprüchlicher Definitionen und das manuelle Zusammenführen von Quellen, die eigentlich bereits vereinheitlicht sein sollten, sind allesamt Reibungspunkte, die den Fortschritt verlangsamen, noch bevor die eigentliche Arbeit begonnen hat. Der Wechsel zwischen isolierten Tools verschlimmert das Problem: Jeder Kontextwechsel führt zu Nacharbeit, Inkonsistenzen und Reibungsverlusten, die den gesamten Workflow behindern.
Data Scientists benötigen umfassenden Zugriff auf Daten, um bestmögliche Arbeit zu leisten. Sicherheitsrichtlinien, Datenschutzvorschriften, Compliance-Kontrollen und andere Governance-Anforderungen scheinen manchmal im Widerspruch zu diesem Bedarf zu stehen.
Dieser scheinbare Konflikt ist jedoch meist das Produkt einer schlecht implementierten Governance und nicht der Governance-Anforderungen selbst. Wenn Zugriffskontrollen klar, Berechtigungen eindeutig definiert und die Data Lineage transparent sind, können Data Scientists schneller agieren, statt langsamer. Sie verbringen weniger Zeit damit, nach Zugriffen zu fragen, die Datenqualität anzuzweifeln oder sich Gedanken darüber zu machen, ob sie die richtige Version eines Datensatzes verwenden.
Entwicklungsumgebungen unterscheiden sich von Produktionsumgebungen, Datenpipelines ändern sich, die Anforderungen an die Infrastruktur sind anspruchsvoller und die Engineering-Standards, die Produktionssysteme erfordern, werden beim Experimentieren selten angewendet. Das führt dazu, dass viele Modelle, die in der Entwicklung gut abschneiden, es nie in die Produktion schaffen. Um diese Lücke zu schließen, sind MLOps-Best-Practices erforderlich: Modellversionierung, CI/CD-Pipelines und automatisiertes Monitoring. Zudem ist eine enge Zusammenarbeit zwischen Data Scientists und den Engineers erforderlich, die für die Produktionsinfrastruktur verantwortlich sind.
Data-Science-Projekte können sowohl aus organisatorischen als auch aus technischen Gründen scheitern. Data Scientists, Data Engineers, ML-Engineers und geschäftliche Stakeholder arbeiten oft mit unterschiedlichen Tools, nutzen verschiedene Definitionen für dieselben Metriken und haben unterschiedliche Zeitpläne.
Abgestimmte Definitionen für Schlüsselmetriken, gemeinsam genutzte Feature-Bibliotheken und einheitliche Datenmodelle reduzieren die Reibungsverluste bei der funktionsübergreifenden Zusammenarbeit. Das Gleiche gilt für eine gemeinsame Plattform. Wenn Data Scientists und Engineers in derselben Umgebung arbeiten und Zugriff auf dieselben Daten und dieselbe Lineage haben, verlaufen Übergaben reibungsloser und Missverständnisse werden früher erkannt.
Selbst in einer Branche, die für schnellen Wandel bekannt ist, bewegt sich der Bereich der KI mit bemerkenswerter Geschwindigkeit. Generative AI hat eine neue Klasse von Modellen und Anwendungsfällen eingeführt, von denen erwartet wird, dass Data Scientists sie fast so schnell verstehen und anwenden, wie sie veröffentlicht werden. Agentische Systeme, bei denen KI-Modelle logisch denken, planen und mehrstufige Aufgaben ausführen, wecken ähnliche Erwartungen.
Gleichzeitig sind die grundlegenden Fähigkeiten wie statistische Strenge, durchdachte Problemformulierung und sorgfältige Evaluierung so wichtig wie eh und je. Data Scientists müssen neue Techniken bewerten und übernehmen, ohne die Sorgfalt aufzugeben, die ihre Arbeit vertrauenswürdig macht. Unternehmen, die Data Scientists Zugang zu modernen Tools und Zeit zum Experimentieren geben, anstatt von ihnen zu verlangen, Altsystem-Workflows zu pflegen und gleichzeitig auf dem neuesten Stand zu bleiben, sind am besten aufgestellt, um sie zu unterstützen.
Die Databricks-Plattform bietet eine einheitliche Umgebung für Data-Science-Arbeiten in den Bereichen Analytics, AI und ML, ohne dass der bei der Arbeit mit separaten Tools erforderliche Kontextwechsel nötig ist. Regulierter Datenzugriff, kollaborative Notebooks, ML-Experimente und das Production-Deployment befinden sich alle auf einer Plattform, die auf einer offenen Lakehouse-Architektur aufbaut und sich mühelos an Datenmengen auf Unternehmensebene und Compliance-Anforderungen anpassen lässt.
Für Data Scientists bedeutet dies weniger Zeitaufwand für Infrastruktur und Tools und mehr Zeit für wertschöpfende Arbeit. Exploration, Feature Engineering, Modellentwicklung und Deployment finden in einem kontinuierlichen Workflow statt und nicht in einer fragmentierten Abfolge von Übergaben. Und da Daten- und AI-Assets auf der gesamten Plattform einheitlich reguliert werden, können Data Scientists darauf vertrauen, dass die Daten, mit denen sie trainieren, dieselben sind, die ihre Modelle in der Produktion sehen werden.
Zu den spezifischen Funktionen der Databricks-Plattform, die Data-Science-Workflows unterstützen, gehören:
AI verändert die Rolle des Data Scientist, sie schafft sie nicht ab. AI-Assistenten und -Agenten werden immer besser darin, routinemäßige Codierungsaufgaben zu automatisieren, Boilerplate-Code zu generieren, explorative Analysen durchzuführen und Modellarchitekturen vorzuschlagen – all das sind echte Produktivitätsgewinne. Aber AI ersetzt nicht das menschliche Urteilsvermögen. Probleme intelligent zu formulieren, zu bewerten, ob ein Ergebnis vertrauenswürdig ist, und eine technische Erkenntnis in eine umsetzbare Geschäftsempfehlung zu übersetzen, bleiben eindeutig menschliche Fähigkeiten.
Der Aufstieg agentischer Workflows verdeutlicht dies sehr gut. Data Scientists arbeiten zunehmend an der Seite von AI-Agenten, die komplexe, mehrstufige Aufgaben auf der Grundlage eines einzigen Prompts ausführen. Tools wie der Databricks Data Science Agent, der für den regulierten Datenzugriff in Unity Catalog verankert ist, sind ein Praxisbeispiel. In diesen Workflows besteht die Aufgabe des Data Scientist darin, den Agenten auf das richtige Problem auszurichten, seine Ergebnisse kritisch zu bewerten und die Verantwortung für die darauf folgenden Entscheidungen zu übernehmen.
Was ist der Unterschied zwischen einem Data Scientist und einem Data Analyst?
Data Analysts konzentrieren sich darauf, mithilfe von Dashboards, Abfragen und KPI-Berichten zu beschreiben, was bereits geschehen ist. Data Scientists gehen weiter: Sie erstellen prädiktive Modelle, die vorhersagen, was als Nächstes passieren wird, und Empfehlungen für das weitere Vorgehen aussprechen. Der deutlichste Unterschied liegt in der Eigenverantwortung für den Modellierungs- und Experimentierprozess.
Was ist der Unterschied zwischen einem Data Scientist und einem Machine Learning Engineer?
Data Scientists formulieren Probleme, erstellen Modelle und interpretieren Ergebnisse in geschäftlicher Hinsicht. ML-Engineers übernehmen diese Modelle und sorgen dafür, dass sie in der Produktion zuverlässig funktionieren. In kleineren Teams überschneiden sich die Rollen oft, in größeren Organisationen sind sie meist klar voneinander getrennt.
Wie nutzen Data Scientists generative AI?
Auf zwei Arten: als neue Klasse von Anwendungsfällen, einschließlich des Fine-Tunings von LLMs, dem Erstellen von RAG-Anwendungen und der Entwicklung von AI-Agenten; und als Produktivitätstool, indem sie AI-Assistenten nutzen, um Code zu generieren, Daten zu explorieren und Analysen zu beschleunigen.
Warum ist ein regulierter Datenzugriff für Data Scientists wichtig?
Eine starke Governance ist ein Beschleuniger, keine Einschränkung. Klare Berechtigungen, dokumentierte Lineage und gut katalogisierte Daten-Assets bedeuten weniger Zeitaufwand bei der Suche nach dem richtigen Datensatz und mehr Vertrauen in die Modellergebnisse.
Wie messen Data Scientists den geschäftlichen Nutzen?
Indem sie Modellergebnisse mit Metriken verknüpfen, die für Stakeholder von Bedeutung sind: Umsatz, Retention, Conversion, Betrugsrate und Kosten. Dies erfordert, dass der Erfolg in geschäftlichen Begriffen definiert wird, bevor das Modell erstellt wird, und dass die Leistung im Laufe der Zeit verfolgt wird, um sicherzustellen, dass die Gewinne von Dauer sind.
Da sich der Aufgabenbereich zunehmend auf generative KI, agentenbasierte Workflows und produktionsreifes ML ausweitet, benötigen Data Scientists Umgebungen, die Schritt halten: einheitliche Plattformen, kontrollierten Datenzugriff und Tools, die Reibungsverluste reduzieren, anstatt sie zu verursachen. Die richtige Infrastruktur ermöglicht es Data Scientists, sich auf die wertschöpfende Arbeit zu konzentrieren: Problemstellungen definieren, Modelle entwickeln und Ergebnisse mit den entscheidenden Entscheidungen verknüpfen.
Erfahren Sie, wie die Databricks-Plattform Data Scientists in den Bereichen Daten, Analytik, KI und ML unterstützt.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.