Zentrales Repository zum Speichern, Versionieren und Bereitstellen von ML-Features mit Metadaten und Zugriffssteuerungen, das die Wiederverwendung und Konsistenz über verschiedene Umgebungen hinweg ermöglicht

Dieser Blog wurde ursprünglich von Tecton.ai veröffentlicht, das im August 2025 von Databricks übernommen wurde. Seit der Übernahme hat Databricks Feature Store Declarative Feature APIs veröffentlicht, eine leistungsstarke Abstraktion für das Feature-Experimentieren, die die Erstellung verwalteter Feature-Pipelines für Batch- und Streaming-Daten automatisiert.
Aktualisiert: 15. Mai 2025
Über die Autoren:
Mike Del Balso, CEO & Mitbegründer von Tecton
Willem Pienaar, Entwickler von Feast
Datenteams erkennen allmählich, dass operationelles maschinelles Lernen die Lösung von Datenproblemen erfordert, die weit über die Erstellung von Datenpipelines hinausgehen.
In einem früheren Beitrag, Warum wir DevOps für ML-Daten brauchen, haben wir einige der wichtigsten Datenherausforderungen beleuchtet, denen Teams bei der Produktivsetzung von ML-Systemen begegnen.
Produktionsdatensysteme, sei es für groß angelegte Analysen oder Echtzeit-Streaming, sind nicht neu. Doch operationelles maschinelles Lernen – ML-gesteuerte Intelligenz, die in kundenorientierte Anwendungen integriert ist – ist für die meisten Teams neu. Die Herausforderung, maschinelles Lernen für operationelle Zwecke (z. B. Empfehlungssysteme, Betrugserkennung, Personalisierung usw.) in der Produktion einzusetzen, stellt neue Anforderungen an unsere Datenwerkzeuge.
Eine neue Art von ML-spezifischer Dateninfrastruktur entsteht, um dies zu ermöglichen.
Zunehmend wenden sich Data Science- und Data Engineering-Teams Feature Stores zu, um die Datensätze und Datenpipelines zu verwalten, die zur Produktivsetzung ihrer ML-Anwendungen erforderlich sind. Dieser Beitrag beschreibt die Schlüsselkomponenten eines modernen Feature Stores und wie die Summe dieser Teile als Multiplikator für Unternehmen wirkt, indem sie die Duplizierung von Data Engineering-Aufwänden reduziert, den Lebenszyklus des maschinellen Lernens beschleunigt und eine neue Art der Zusammenarbeit zwischen Data Science-Teams ermöglicht.
| Kurze Auffrischung: Im ML ist ein Feature ein Datum, das als Eingabesignal für ein prädiktives Modell verwendet wird. |
| Wenn beispielsweise ein Kreditkartenunternehmen versucht vorherzusagen, ob eine Transaktion betrügerisch ist, könnte ein nützliches Feature sein, ob die Transaktion in einem fremden Land stattfindet, oder wie die Größe dieser Transaktion im Vergleich zur typischen Transaktion des Kunden ist. Wenn wir von einem Feature sprechen, meinen wir normalerweise das Konzept dieses Signals (z. B. „transaction_in_foreign_country“), nicht einen spezifischen Wert des Features (z. B. nicht „Transaktion #1364 fand in einem fremden Land statt“). |
![]() |
„Die Schnittstelle zwischen Modellen und Daten“
Wir haben Feature Stores erstmals in unserem Blogbeitrag vorgestellt, der Ubers Michelangelo-Plattform beschreibt. Feature Stores haben sich seitdem als notwendiger Bestandteil des operationellen Machine Learning Stacks etabliert.
Vorteile von Feature Stores umfassen:
Feature Stores zielen darauf ab, die gesamte Bandbreite der Datenverwaltungsprobleme zu lösen, die beim Aufbau und Betrieb operationeller ML-Anwendungen auftreten.
Ein Feature Store ist ein ML-spezifisches Datensystem, das:

Um eine einfache Feature-Verwaltung zu unterstützen, bieten Feature Stores Datenabstraktionen, die den Aufbau, die Bereitstellung und das Verständnis von Feature-Pipelines über verschiedene Umgebungen hinweg erleichtern. Sie erleichtern es beispielsweise, eine Feature-Transformation einmal zu definieren und ihre Werte dann konsistent sowohl in der Entwicklungsumgebung (für das Training mit historischen Werten) als auch in der Produktionsumgebung (für die Inferenz mit aktuellen Feature-Werten) zu berechnen und bereitzustellen.
Feature Stores fungieren als zentrale Drehscheibe für Feature-Daten und Metadaten über den gesamten Lebenszyklus eines ML-Projekts hinweg. Daten in einem Feature Store werden verwendet für:
Feature Stores ermöglichen Skaleneffekte in ML-Organisationen durch die Förderung der Zusammenarbeit. Wenn ein Feature in einem Feature Store registriert wird, steht es anderen Modellen in der gesamten Organisation sofort zur Wiederverwendung zur Verfügung. Dies reduziert die Duplizierung von Data Engineering-Aufwänden und ermöglicht es neuen ML-Projekten, mit einer Bibliothek kuratierter, produktionsreifer Features zu starten.

Effektive Feature Stores sind als modulare Systeme konzipiert, die an die Umgebung angepasst werden können, in der sie eingesetzt werden. Es gibt fünf Hauptkomponenten, die typischerweise einen Feature Store ausmachen. Im weiteren Verlauf dieses Beitrags werden wir diese Komponenten durchgehen und ihre Rolle bei der Unterstützung operationeller ML-Anwendungen beschreiben.
Ein moderner Feature Store besteht aus 5 Hauptkomponenten: Transformation, Speicherung, Bereitstellung, Überwachung und Feature-Registry.

In den folgenden Abschnitten geben wir einen Überblick über den Zweck und die typischen Funktionen jeder dieser Komponenten.
Feature Stores stellen Modellen Feature-Daten zur Verfügung. Diese Modelle benötigen eine konsistente Sicht auf Features über Training und Serving hinweg. Die Definitionen der Features, die zum Trainieren eines Modells verwendet werden, müssen exakt mit den Features übereinstimmen, die im Online-Serving bereitgestellt werden. Wenn sie nicht übereinstimmen, entsteht ein Training-Serving-Skew, der katastrophale und schwer zu debuggende Modellleistungsprobleme verursachen kann.

Feature Stores abstrahieren die Logik und Verarbeitung, die zur Generierung eines Features verwendet werden, und bieten Benutzern eine einfache und kanonische Möglichkeit, auf alle Features in einem Unternehmen konsistent über alle benötigten Umgebungen hinweg zuzugreifen.
Beim Abrufen von Daten offline (z. B. für das Training) werden Feature-Werte üblicherweise über Notebook-freundliche Feature Store SDKs abgerufen. Sie bieten zeitpunktgenaue Ansichten des Zustands der Welt für jedes Beispiel, das zum Trainieren eines Modells verwendet wird (auch bekannt als „Zeitreise“).
Für das Online-Serving liefert ein Feature Store jeweils einen einzelnen Vektor von Features, der aus den aktuellsten Feature-Werten besteht. Antworten werden über eine Hochleistungs-API bereitgestellt, die von einer Datenbank mit geringer Latenz unterstützt wird.

Feature Stores speichern Feature-Daten dauerhaft, um den Abruf über Feature-Serving-Schichten zu unterstützen. Sie enthalten typischerweise sowohl eine Online- als auch eine Offline-Speicherschicht, um die Anforderungen verschiedener Feature-Serving-Systeme zu unterstützen.

Offline-Speicherschichten werden typischerweise verwendet, um Feature-Daten im Wert von Monaten oder Jahren für Trainingszwecke zu speichern. Offline-Feature-Store-Daten werden oft in Data Warehouses oder Data Lakes wie S3, BigQuery, Snowflake, Redshift gespeichert. Die Erweiterung eines bestehenden Data Lake oder Data Warehouse für die Offline-Feature-Speicherung wird typischerweise bevorzugt, um Datensilos zu vermeiden.
Online-Speicherschichten werden verwendet, um Feature-Werte für latenzarme Abfragen während der Inferenz dauerhaft zu speichern. Sie speichern typischerweise nur die neuesten Feature-Werte für jede Entität, wodurch im Wesentlichen der aktuelle Zustand der Welt modelliert wird. Online-Stores sind in der Regel eventual consistent und haben für die meisten ML-Anwendungsfälle keine strengen Konsistenzanforderungen. Sie werden üblicherweise mit Key-Value-Stores wie DynamoDB, Redis oder Cassandra implementiert.

Feature Stores verwenden ein entitätsbasiertes Datenmodell, bei dem jeder Feature-Wert mit einer Entität (z. B. einem Benutzer) und einem Zeitstempel verknüpft ist. Ein entitätsbasiertes Datenmodell bietet eine minimale Struktur zur Unterstützung eines standardisierten Feature-Managements, passt natürlich zu gängigen Feature-Engineering-Workflows und ermöglicht einfache Abfragen in der Produktion.

Operationale ML-Anwendungen erfordern die regelmäßige Verarbeitung neuer Daten zu Feature-Werten, damit Modelle Vorhersagen mit einer aktuellen Sicht auf die Welt treffen können. Feature Stores verwalten und orchestrieren Datentransformationen, die diese Werte erzeugen, und nehmen auch Werte auf, die von externen Systemen erzeugt werden. Von Feature Stores verwaltete Transformationen werden durch Definitionen in einem gemeinsamen Feature-Register (unten beschrieben) konfiguriert.
Die meisten Teams, die mit Feature Stores beginnen, verf ügen bereits über bestehende Datenpipelines, die Feature-Werte erzeugen. Dies macht es sehr wichtig, dass Feature Stores schrittweise eingeführt werden können und erstklassige Integrationen mit bestehenden Datenplattformen bieten, sodass Teams bestehende ETL-Pipelines sofort für ihre ML-Anwendungsfälle operationalisieren können.
Feature Stores interagieren üblicherweise mit drei Haupttypen von Datentransformationen:
| Feature-Typ | Definition | Gängige Eingabedatenquelle | Beispiel |
|---|---|---|---|
| Batch-Transformation | Transformationen, die nur auf ruhende Daten angewendet werden | Data Warehouse, Data Lake, Datenbank | Benutzerland, Produktkategorie |
| Streaming-Transformation | Transformationen, die auf Streaming-Quellen angewendet werden | Kafka, Kinesis, PubSub | Anzahl der Klicks pro Vertikale pro Benutzer in den letzten 30 Minuten, Anzahl der Aufrufe pro Eintrag in der letzten Stunde |
| On-Demand-Transformation | Transformationen, die verwendet werden, um Features basierend auf Daten zu erzeugen, die nur zum Zeitpunkt der Vorhersage verfügbar sind. Diese Features können nicht vorab berechnet werden. | Benutzerorientierte Anwendung | Befindet sich der Benutzer derzeit an einem unterstützten Standort? |
Ein wesentlicher Vorteil ist die einfache gemeinsame Nutzung verschiedener Feature-Typen in denselben Modellen.

Modelle benötigen Zugriff auf aktuelle Feature-Werte für die Inferenz. Feature Stores erreichen dies, indem sie Features regelmäßig neu berechnen. Transformationsjobs werden orchestriert, um sicherzustellen, dass neue Daten verarbeitet und in frische neue Feature-Werte umgewandelt werden. Diese Jobs werden auf Datenverarbeitungs-Engines (z. B. Spark oder Pandas) ausgeführt, mit denen der Feature Store verbunden ist.
Die Modellentwicklung bringt unterschiedliche Transformationsanforderungen mit sich. Bei der Iteration an einem Modell werden oft neue Features entwickelt, die in Trainingsdatensätzen verwendet werden, die historischen Ereignissen entsprechen (z. B. alle Käufe der letzten 6 Monate). Um diese Anwendungsfälle zu unterstützen, erleichtern Feature Stores das Ausführen von „Backfill-Jobs“, die historische Werte eines Features für das Training generieren und speichern. Einige Feature Stores füllen neu registrierte Features automatisch für vorkonfigurierte Zeitbereiche für registrierte Trainingsdatensätze auf.
Transformationscode wird über Umgebungen hinweg wiederverwendet, wodurch Training-Serving-Skew verhindert wird und Teams nicht gezwungen sind, Code von einer Umgebung in die nächste neu zu schreiben.
Feature Stores verwalten alle Feature-bezogenen Ressourcen (Compute, Speicher, Serving) ganzheitlich über den gesamten Feature-Lebenszyklus hinweg. Durch die Automatisierung repetitiver Engineering-Aufgaben, die zur Produktionsreife eines Features erforderlich sind, ermöglichen sie einen einfachen und schnellen Weg zur Produktion. Management-Optimierungen (z. B. das Stilllegen von Features, die von keinen Modellen mehr verwendet werden, oder die Deduplizierung von Feature-Transformationen über Modelle hinweg) können erhebliche Effizienzsteigerungen mit sich bringen, insbesondere da die Komplexität der manuellen Feature-Verwaltung für Teams immer größer wird.
Wenn in einem ML-System etwas schiefgeht, ist es meist ein Datenproblem. Feature Stores sind einzigartig positioniert, um solche Probleme zu erkennen und aufzuzeigen. Sie können Metriken zu den Features berechnen, die sie speichern und bereitstellen, welche Korrektheit und Qualität beschreiben. Feature Stores überwachen diese Metriken, um ein Signal für den allgemeinen Zustand einer ML-Anwendung zu liefern.

Feature-Daten können basierend auf benutzerdefinierten Schemas oder anderen strukturellen Kriterien validiert werden. Die Datenqualität wird durch Überwachung auf Drift und Training-Serving-Skew verfolgt. Z.B. werden Feature-Daten, die Modellen bereitgestellt werden, mit Daten verglichen, auf denen das Modell trainiert wurde, um Inkonsistenzen zu erkennen, die die Modellleistung beeinträchtigen könnten.
Beim Betrieb von Produktionssystemen ist es auch wichtig, operative Metriken zu überwachen. Feature Stores verfolgen operative Metriken, die sich auf die Kernfunktionalität beziehen – zum Beispiel Metriken zur Feature-Speicherung (Verfügbarkeit, Kapazität, Auslastung, Veralterung) oder zum Feature-Serving (Durchsatz, Latenz, Fehlerraten). Andere Metriken beschreiben den Betrieb wichtiger angrenzender Systemkomponenten, wie z. B. operative Metriken für externe Datenverarbeitungs-Engines (z. B. Job-Erfolgsrate, Durchsatz, Verarbeitungsverzögerung und -rate).
Feature Stores stellen diese Metriken der bestehenden Überwachungsinfrastruktur zur Verfügung. Dies ermöglicht die Überwachung und Verwaltung der ML-Anwendungsgesundheit mit bestehenden Observability-Tools im Produktions-Stack.
Durch die Transparenz, welche Features von welchen Modellen verwendet werden, können Feature Stores Warnungen und Gesundheitsmetriken automatisch in Ansichten aggregieren, die für bestimmte Benutzer, Modelle oder Konsumenten relevant sind.
Es ist nicht zwingend erforderlich, dass alle Feature Stores ein solches Monitoring intern implementieren, aber sie sollten zumindest Schnittstellen bereitstellen, an die Datenqualitäts-Monitoring-Systeme angeschlossen werden können. Verschiedene ML-Anwendungsfälle können unterschiedliche, spezialisierte Monitoring-Anforderungen haben, daher ist die Erweiterbarkeit hier wichtig.
Eine zentrale Komponente in allen Feature Stores ist ein zentralisiertes Register für standardisierte Feature-Definitionen und Metadaten. Das Register dient als einzige Quelle der Wahrheit für Informationen über ein Feature in einer Organisation.

Das Register ist eine zentrale Schnittstelle für Benutzerinteraktionen mit dem Feature Store. Teams nutzen das Register als gemeinsamen Katalog, um neue Definitionen innerhalb und zwischen Teams zu erkunden, zu entwickeln, gemeinsam zu bearbeiten und zu veröffentlichen.
Die Definitionen im Register konfigurieren das Systemverhalten des Feature Stores. Automatisierte Jobs nutzen das Register, um die Datenerfassung, -transformation und -speicherung zu planen und zu konfigurieren. Es bildet die Grundlage dafür, welche Daten im Feature Store gespeichert und wie sie organisiert werden. Serving-APIs nutzen das Register für ein konsistentes Verständnis darüber, welche Feature-Werte verfügbar sein sollten, wer darauf zugreifen können sollte und wie sie bereitgestellt werden sollten.
Das Register ermöglicht es, wichtige Metadaten an Feature-Definitionen anzuhängen. Dies bietet eine Möglichkeit zur Nachverfolgung von Eigentum, projekt- oder domänenspezifischen Informationen und einen Pfad zur einfachen Integration mit angrenzenden Systemen. Dies umfasst Informationen über Abhängigkeiten und Versionen, die für das Lineage-Tracking verwendet werden.
Um bei gängigen Debugging-, Compliance- und Audit-Workflows zu helfen, dient das Register als unveränderlicher Datensatz dessen, was analytisch verfügbar ist und was tatsächlich in Produktion läuft.
Bisher haben wir die minimalen Kernkomponenten eines Feature Stores betrachtet. In der Praxis haben Unternehmen oft Anforderungen wie Compliance, Governance und Sicherheit, die zusätzliche unternehmensspezifische Funktionen erfordern. Dies wird das Thema eines zukünftigen Blogbeitrags sein.
Wir sehen Feature Stores als das Herzstück des Datenflusses in modernen ML-Anwendungen. Sie erweisen sich schnell als kritische Infrastruktur für Data-Science-Teams, die ML in Produktion bringen. Wir erwarten, dass sich die Anzahl der Organisationen, die Feature Stores nutzen, bis 2028 vervierfachen wird.
Es gibt verschiedene Möglichkeiten, mit Feature Stores zu beginnen:
Wir haben diesen Blogbeitrag verfasst, um eine gemeinsame Definition von Feature Stores zu liefern, da sie sich als primäre Komponente des operationalen ML-Stacks etablieren. Wir glauben, dass die Branche in diesem Bereich eine explosionsartige Zunahme an Aktivitäten erleben wird.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.