Bei Zalando, einer führenden europäischen Online-Plattform für Mode und Lifestyle, orchestrieren wir ein riesiges digitales Ökosystem, das über 50 Millionen aktive Kunden mit mehr als 7.000 Marken und Partnern in ganz Europa verbindet. Jede Kundeninteraktion (Browsen, Bestellen, Zurücksenden usw.) erzeugt einen Datenimpuls, der unsere Entscheidungsfindung vorantreibt, von personalisierten Empfehlungen bis zur Logistikoptimierung.
Der Betrieb in dieser Größenordnung bringt einzigartige Herausforderungen mit sich. Unsere Datenlandschaft ist riesig und komplex, gespeist durch eine Microservices-Architektur, die Terabytes von Ereignissen in unseren zentralen Data Lake streamt. Obwohl diese Architektur uns ein schnelles Skalieren ermöglichte, erschwerte sie auch die Governance und verwischte die Unterscheidung zwischen Transaktionsdaten (tägliche Geschäftsabläufe) und Analysedaten (Erkenntnisse für die Entscheidungsfindung).
Jahrelang strebten wir einen verteilten Ansatz an, um dies durch die Dezentralisierung des Eigentums zu lösen, sodass Domänenteams (wie „Zahlungen“ oder „Logistik“) ihre eigenen Datenprodukte verwalten konnten. Eine zentralisierte Governance-Struktur ist in diesem Setup entscheidend, um eine überschaubare Arbeitslast für die Teams zu gewährleisten und Geschäftsrisiken vorzubeugen. Ohne eine einheitliche Schicht zur Definition der Wahrheit stehen wir zusätzlich vor der Herausforderung der Metrikdivergenz: Warum zeigt das Marketing-Dashboard einen anderen „Nettoumsatz“ als der Finanzbericht? Da Metriken in Silos existieren, ist es schwierig, sie zu verwalten und sicherzustellen, dass sie über ihren gesamten Lebenszyklus hinweg auffindbar und vertrauenswürdig für die Wiederverwendung sind.
In diesem Beitrag werden wir teilen, wie Zalando dies durch die Nutzung der gesamten Breite der Databricks Platform erreicht. Wir werden darauf eingehen, wie wir eine einheitliche semantische Schicht aufbauen, die die Lücke zwischen Transaktionsdaten und Analysedaten schließt. Im Einzelnen werden wir behandeln:
Um unsere riesige Datenlandschaft effektiv zu verwalten, haben wir uns entschieden, uns vom ressourcenzentrierten Gatekeeping zu lösen. In diesem Modell erforderte jeder neue Datensatz oder Konsument maßgeschneiderte IAM-Rollen, S3-Bucket-Richtlinien und Ausnahmebehandlungen. Wir identifizierten jedoch Herausforderungen: Berechtigungen waren über Tausende von Ressourcen fragmentiert, mühsam zu überprüfen und anfällig für Abweichungen. Daher wechselten wir zu einem identitätsbasierten Governance-Ansatz. Zugriffsentscheidungen werden als wiederverwendbare Richtlinien ausgedrückt, die an Personen und Gruppen gebunden sind. Sie werden konsistent über Datensätze hinweg bewertet und zentral durchgesetzt. Dies erleichtert die Verwaltung, Prüfung und Weiterentwicklung des Zugriffs, wenn sich Teams und Daten ändern. Wir haben dieses Fundament mit Databricks Unity Catalog aufgebaut und darauf ein föderiertes Zugriffssteuerungs-Framework implementiert.
Die Architektur
Wir haben ein Dual-Katalog-Muster entworfen, das die Erstellung von Daten streng von deren Konsum trennt, um sicherzustellen, dass Agilität nicht auf Kosten der Kontrolle geht:

Wir haben die strategische Entscheidung getroffen, Daten im gemeinsamen Katalog ausschließlich über Dynamic Views und nicht über direkte Tabellenzeiger offenzulegen. Dieser Ansatz ermöglicht es uns, einen zentralisierten Zugriffsprozess durchzusetzen, der komplexe Compliance-Regeln handhaben kann.
Durch die Verwendung von Dynamic Views als Bereitstellungsschicht haben wir erreicht:
Um diesen Prozess effizient zu gestalten, haben wir den Freigabe-Workflow mithilfe eines GitOps-Ansatzes automatisiert:
Dieses Setup ermöglicht es uns, die Agilität verteilter Teams aufrechtzuerhalten und gleichzeitig einen zentralisierten, vollständig auditierbaren Governance-Standard durchzusetzen, der unsere Daten leicht auffindbar, sicher und konform hält.
Mit dem sicheren Fundament, das wir für den Datenzugriff geschaffen haben, konzentrieren wir uns nun darauf, eine konsistente Dateninterpretation sicherzustellen.
Wir zentralisieren aktiv Geschäftslogik, die zuvor über den Daten-Stack fragmentiert war:
Wir vereinheitlichen Tausende von Metrikdefinitionen in einer einzigen, verwalteten Schicht. Dies ermöglicht es uns, den „Logik-Lock-in“ zu durchbrechen: Die Definition des „Net Merchandise Value“ (NMV) in einem Dashboard-Tool wird für einen Datenwissenschaftler, der in einem Notebook arbeitet, oder für einen KI-Bot, der eine Benutzerfrage beantwortet, vollständig zugänglich.
Um dies zu erreichen, führen wir Databricks Metric Views als unsere vereinheitlichte semantische Schicht ein. Dies entkoppelt entscheidend die Definition einer Metrik von ihrer Nutzung und garantiert, dass Benutzer genau dasselbe berechnete Ergebnis erhalten, egal ob sie über einen SQL-Editor, ein Dashboard oder einen KI-Agenten abfragen. In der Praxis stellt dies sicher, dass sowohl technische als auch nicht-technische Benutzer dieselben Metrikdefinitionen verwenden.

Wir implementieren einen rigorosen „Metrik als Code“-Ansatz für unsere semantische Schicht, genau wie wir GitOps für die Datenfreigabe in Unity Catalog nutzen. Wir stellen die Konsistenz über alle Teams hinweg sicher, indem wir jede KPI-Definition zentralisieren und standardisieren.
Unsere Architektur verwaltet den gesamten Lebenszyklus einer Metrik:
Im Hintergrund verlassen wir uns auf etablierte Prinzipien der dimensionalen Modellierung. Jede Metric View in unserer Produktionsumgebung fungiert als Standardschnittstelle, die typischerweise 1-zu-1 mit unseren Faktentabellen abgebildet wird, während sie Attribute von konformen Dimensionstabellen erbt.
Diese Einrichtung ist entscheidend für unsere Skalierung. Indem wir sicherstellen, dass Metric Views auf den vertrauenswürdigen Daten in unserem Shared Catalog (aus Abschnitt 1) aufbauen, gewährleisten wir, dass die semantische Schicht alle Sicherheits- und Compliance-Vorteile der zugrunde liegenden Plattform erbt. Ein Benutzer, der eine Metrikansicht abfragt, unterliegt weiterhin denselben Zeilen- und Spaltenberechtigungen sowie Zugriffsregeln, die wir in der Unity Catalog-Schicht definiert haben. Wir werden diese Einrichtung später in diesem Jahr auch mit einer zusätzlichen Autorisierungsschicht über die Metric Views erweitern, sodass Benutzer keinen Rohdaten-Zugriff mehr benötigen, sondern nur noch Zugriff auf Metrik- und Dimensionsebene.
Der Vorteil dieser Architektur ist die Interoperabilität. Indem wir die Geschäftslogik aus proprietären BI-Tools in die semantische Schicht des Lakehouse verlagern, bereiten wir uns auf die Zukunft vor. Eine einmal in dieser Schicht definierte Metrik wird sofort verfügbar für:
Diese Zentralisierung ist der entscheidende Schritt für unseren nächsten großen Schritt: Unternehmen zu befähigen, mit ihren Daten zu „sprechen“.
Dashboards sind unerlässlich, um alltägliche, wiederkehrende Fragen zu beantworten. Die Geschwindigkeit des Geschäfts übertrifft jedoch oft die Fähigkeit des Standardreportings, alles zu erfassen. Zum Beispiel könnte ein Category Manager wissen wollen: „Welche Sneaker-Marken hatten eine hohe Klickrate, schafften es aber letzte Woche in Deutschland nicht unter die Top 10 nach Anzahl der verkauften Artikel?“ Die Beantwortung neuartiger Fragen wie dieser, die nicht durch bestehende Standardberichte abgedeckt werden, erforderte häufig den Bau eines neuen Dashboards. Selbst mit Self-Service-Tools blieb eine erhebliche „Time-to-Insight“-Verzögerung bestehen. Benutzer mussten den richtigen Datensatz finden, Widgets konfigurieren und Filter anwenden, bevor sie eine Antwort erhalten konnten. Dies führte oft zu einmaligen Dashboards, was zur Dashboard-Ausbreitung und reduzierten Auffindbarkeit beitrug.
Um die Benutzererfahrung zu optimieren, haben wir mehrere „Talk-to-Data“-Lösungen evaluiert, die LLM-gestützte konversationelle Schnittstellen anbieten, oft als KI-Chatbots bezeichnet. Genie schnitt am besten ab, da es auf einer vereinheitlichten semantischen Schicht basiert, während Lösungen ohne diese Schicht Schwierigkeiten hatten, präzises SQL für komplexe Geschäftslogik zu generieren.
Deshalb erwies sich die Einführung von Metric Views als entscheidend für die konversationelle KI-gestützte Analyse wie Genie. Indem wir Genie auf die vorab etablierten Metric Views (wie in Abschnitt 2 beschrieben) ausrichteten, erzielten wir einen entscheidenden Durchbruch: konsistente, zuverlässige Antworten, die auf geregelten Geschäftsdefinitionen basieren.
Die größte Hürde bei der Einführung von KI in der Analyse ist Vertrauen. Wenn ein LLM eine SQL-Abfrage halluziniert, sind die Zahlen falsch, und die Benutzer verlieren das Vertrauen.
Genie löst dies, indem es mit unserer semantischen Schicht in Metric Views arbeitet.
Wir haben Genie mit nicht-technischen Teams wie Merchandisern, Einkäufern und Preisanalysten getestet, die sich historisch auf Excel-Exporte oder BI-Tools verlassen hatten. Das Feedback war sofort: Benutzer konnten schnelle Antworten auf detaillierte Fragen (z. B. spezifische Marktleistung gepaart mit spezifischem Gerätetyp) erhalten, ohne eine einzige Zeile SQL kennen oder Zeit mit dem Erstellen einer benutzerdefinierten Berichtsansicht verbringen zu müssen.
Die Einführung des neuen Agent Mode hat die Benutzererfahrung erheblich verbessert. Der Agent Mode analysiert Daten automatisch, um die Grundursache von Analyseergebnissen zu ermitteln, sodass Benutzer einfach fragen können, „warum“ etwas passiert ist. Bei Zalando könnte dies die Vorbereitungszeit für unsere regelmäßigen Performance-Meetings – in denen kritische Steuerungsentscheidungen getroffen werden – von mehreren Stunden auf nur wenige Minuten reduzieren.
Allerdings kann Genie mit seiner umfangreichen Funktionalität auch teuer werden, wenn es nicht korrekt eingerichtet wird, zum Beispiel bei nicht aggregierten Tabellen und Ansichten. Deshalb ist es entscheidend, die Daten und den Kontext, den Genie verwendet, sorgfältig zu kuratieren. Darüber hinaus erkennen wir das Potenzial für weitere Verbesserungen, wie zum Beispiel den Vorteil der Einführung einer vollständigen Genie-Versionskontrolle und der Ermöglichung programmatischer Updates von Genie-Konfigurationen, woran Databricks bereits arbeitet und was derzeit bereits teilweise unterstützt wird.
Wir behandeln Genie nicht nur als Sandbox-Experiment; wir integrieren es in unsere Unternehmensabläufe. Unsere Schwerpunkte für die Skalierung umfassen:
Durch die Kombination der Governance von Unity Catalog, der Standardisierung der Geschäftslogik durch Metric Views und der Intelligenz von Genie bauen wir eine Datenkultur auf, in der "die Daten befragen" so einfach ist wie einen Kollegen zu fragen.
Vielen Dank an Merve Karali, Tobias Efinger und Roberto Bruno Martins für ihre Beiträge zu diesem Beitrag.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
