Was ist ein Lakehouse?

Veröffentlicht: 30. Januar 2020

Plattform7 min Lesezeit

von Ben Lorica, Michael Armbrust, Reynold Xin, Matei Zaharia und Ali Ghodsi

In den letzten Jahren haben wir bei Databricks ein neues Datenmanagementparadigma beobachtet, das sich eigenständig über viele Kunden und Anwendungsfälle hinweg entwickelt hat: Lakehouse. In diesem Beitrag beschreiben wir dieses neue Paradigma und seine Vorteile gegenüber früheren Ansätzen.

Data Warehouses haben eine lange Geschichte im Bereich der Anwendungen für Entscheidungsfindung und Business Intelligence. Seit ihrer Einführung in den späten 1980er Jahren entwickelte sich die Data-Warehouse-Technologie kontinuierlich weiter und MPP-Architekturen führten zu Systemen, die größere Datenmengen verarbeiten konnten. Doch während Warehouses für strukturierte Daten hervorragend geeignet waren, müssen sich viele moderne Unternehmen mit unstrukturierten Daten, semistrukturierten Daten und Daten mit hoher Vielfalt, Geschwindigkeit und großem Volumen auseinandersetzen. Data Warehouses sind für viele dieser Anwendungsfälle nicht geeignet und sicherlich nicht die kosteneffizienteste Lösung.

Als Unternehmen begannen, große Datenmengen aus vielen verschiedenen Quellen zu sammeln, stellten sich Architekten ein einziges System vor, das Daten für viele verschiedene Analyseprodukte und Workloads aufnehmen sollte. Vor etwa einem Jahrzehnt begannen Unternehmen mit dem Aufbau von Data Lakes – Repositories für Rohdaten in einer Vielzahl von Formaten. Data Lakes eignen sich zwar zur Speicherung von Daten, es fehlen ihnen jedoch einige wichtige Funktionen: Sie unterstützen keine Transaktionen, sie erzwingen keine Datenqualität und ihre mangelnde Konsistenz/Isolation macht es fast unmöglich, Anfügungen und Lesevorgänge sowie Batch- und Streaming-Jobs zu mischen. Aus diesen Gründen haben sich viele der Versprechen von Data Lakes nicht erfüllt, was in vielen Fällen zum Verlust vieler Vorteile von Data Warehouses geführt hat.

Der Bedarf an einem flexiblen Hochleistungs-Performance-System hat nicht nachgelassen. Unternehmen benötigen Systeme für verschiedene Datenanwendungen, einschließlich SQL-Analysen, Echtzeit-Monitoring, Data Science und Machine Learning. Die meisten der jüngsten Fortschritte im Bereich der KI bestanden in besseren Modellen zur Verarbeitung unstrukturierter Daten (Text, Bilder, Video, Audio), aber das sind genau die Arten von Daten, für die ein Data Warehouse nicht optimiert ist. Ein gängiger Ansatz ist die Verwendung mehrerer Systeme – ein Data Lake, mehrere Data Warehouses und andere spezialisierte Systeme wie Streaming-, Zeitreihen-, Graphen- und Bilddatenbanken. Eine Vielzahl von Systemen sorgt für Komplexität und, was noch wichtiger ist, für Verzögerungen, da Datenexperten zwangsläufig Daten zwischen verschiedenen Systemen verschieben oder kopieren müssen.

Was ist ein Lakehouse?

New systems are beginning to emerge that address the limitations of data lakes. A lakehouse is a new, open paradigm that combines the best elements of data lakes and data warehouses. Lakehouses werden durch ein neues Systemdesign ermöglicht: die Implementierung ähnlicher Datenstrukturen und Datenverwaltungs-Features wie in einem Data Warehouse direkt auf kostengünstigem Cloud-Speicher in offenen Formaten. They are what you would get if you had to redesign data warehouses in the modern world, now that cheap and highly reliable storage (in the form of object stores) are available.

Ein Lakehouse hat die folgenden Haupt-Features:

Transaktionsunterstützung: In einem Enterprise Lakehouse lesen und schreiben viele Datenpipelines oft gleichzeitig Daten. Die Unterstützung von ACID-Transaktionen gewährleistet Konsistenz, wenn mehrere Parteien gleichzeitig Daten lesen oder schreiben, typischerweise über SQL.
Schemaerzwingung und Governance: Das Lakehouse sollte eine Möglichkeit bieten, die Schemaerzwingung und -entwicklung zu unterstützen und dabei DW-Schemaarchitekturen wie Stern- und Schneeflockenschemata zu unterstützen. Das System sollte in der Lage sein, Rückschlüsse auf die Datenintegrität zu ziehen, und es sollte über robuste Governance- und Audit-Mechanismen verfügen.
BI-Unterstützung: Lakehouses ermöglichen die Verwendung von BI-Tools direkt auf den Quelldaten. Dies reduziert die Veralterung von Daten und verbessert die Aktualität, verringert die Latenz und senkt die Kosten für die Operationalisierung von zwei Datenkopien sowohl in einem Data Lake als auch in einem Warehouse.
Storage ist von compute entkoppelt: In der Praxis bedeutet dies, dass Storage und compute separate clusters verwenden, wodurch diese Systeme für eine weitaus größere Anzahl gleichzeitig Nutzer und größere Datenmengen Scale ermöglichen. Einige moderne Data Warehouses verfügen ebenfalls über diese Eigenschaft.
Offenheit: Die verwendeten Speicherformate sind offen und standardisiert, wie z. B. Parquet, und sie bieten eine API, sodass eine Vielzahl von Tools und Engines, einschließlich Machine Learning und Python/R-Bibliotheken, effizient und direkt auf die Daten zugreifen können.
Unterstützung für verschiedene Datentypen, von unstrukturierten bis hin zu strukturierten Daten: Das Lakehouse kann zum Speichern, Aufbereiten, Analysieren und Abrufen von Datentypen verwendet werden, die für viele neue Datenanwendungen benötigt werden, einschließlich Bildern, Videos, Audiodateien, semistrukturierten Daten und Text.
Unterstützung für verschiedene Workloads: einschließlich Data Science, machine learning sowie SQL und Analysen. Möglicherweise werden mehrere Tools benötigt, um all diese Workloads zu unterstützen, aber sie greifen alle auf dasselbe Daten-Repository zu.
End-to-End-Streaming: Echtzeitberichte sind in vielen Unternehmen die Norm. Die Streaming-Unterstützung macht dedizierte Systeme für die Bereitstellung von Echtzeitdatenanwendungen überflüssig.

Dies sind die Key Merkmale von Lakehouses. Systeme auf Unternehmensebene erfordern zusätzliche Features. Tools für Sicherheit und Zugriffskontrolle sind Grundvoraussetzungen. Data-Governance-Funktionen wie Auditing, Datenaufbewahrung und Datenherkunft sind insbesondere angesichts der jüngsten Datenschutzbestimmungen unerlässlich geworden. Tools, die Data Discovery ermöglichen, wie z. B. Datenkataloge und Datennutzungsmetriken, werden ebenfalls benötigt. Mit einem Lakehouse müssen solche Unternehmens-Features nur für ein einziges System implementiert, getestet und verwaltet werden.

Lesen Sie den vollständigen Forschungsartikel über die Funktionsweise des Lakehouse.

Einige frühe Beispiele

Die Databricks Lakehouse Platform verfügt über die architektonischen Merkmale eines Lakehouse. Der Dienst Azure Synapse Analytics von Microsoft, der sich in Azure Databricks integriert, ermöglicht ein ähnliches Lakehouse-Muster. Andere verwaltete Dienste wie BigQuery und Redshift Spectrum verfügen über einige der oben genannten Lakehouse-Features, sind aber Beispiele, die sich hauptsächlich auf BI und andere SQL-Anwendungen konzentrieren. Unternehmen, die ihre eigenen Systeme aufbauen und implementieren möchten, haben Zugriff auf Open-Source-Dateiformate (Delta Lake, Apache Iceberg, Apache Hudi), die sich für den Aufbau eines lakehouse eignen.

Die Zusammenführung von Data Lakes und Data Warehouses in einem einzigen System bedeutet, dass Datenteams schneller agieren können, da sie Daten nutzen können, ohne auf mehrere Systeme zugreifen zu müssen. Der Grad der SQL-Unterstützung und der Integration mit BI-Tools ist bei diesen frühen Lakehouses im Allgemeinen für die meisten Enterprise Data Warehouses ausreichend. Materialisierte Ansichten und gespeicherte Prozeduren sind verfügbar, aber Benutzer müssen möglicherweise andere Mechanismen einsetzen, die nicht mit denen in herkömmlichen Data Warehouses gleichwertig sind. Letzteres ist besonders wichtig für "Lift-and-Shift-Szenarien", die Systeme erfordern, deren Semantik nahezu identisch mit der von älteren, kommerziellen Data Warehouses ist.

Wie sieht es mit der Unterstützung für andere Arten von Datenanwendungen aus? Nutzer eines Lakehouse haben Zugriff auf eine Vielzahl von Standard-Tools (Spark, Python, R, Machine Learning Libraries (MLlib)) für Nicht-BI-Workloads wie Data Science und Machine Learning. Datenexploration und -verfeinerung sind Standard für viele Analyse- und Data-Science-Anwendungen. Delta Lake ist darauf ausgelegt, dass Nutzer die Qualität der Daten in ihrem Lakehouse schrittweise verbessern können, bis diese zur Nutzung bereit sind.

Ein Hinweis zu den technischen Bausteinen. Während verteilte Dateisysteme für die Speicherebene verwendet werden können, kommen Objektspeicher in Lakehouses häufiger zum Einsatz. Objektspeicher bieten kostengünstigen, hochverfügbaren Speicher, der sich durch massiv parallele Lesevorgänge auszeichnet – eine wesentliche Anforderung für moderne Data Warehouses.

Von BI zu KI

Das Lakehouse ist eine neue Datenverwaltung-Architektur, die die Dateninfrastruktur von Unternehmen radikal vereinfacht und Innovationen in einer Zeit beschleunigt, in der maschinelles Lernen dabei ist, jede Branche zu revolutionieren. In der Vergangenheit waren die meisten Daten, die in die Produkte oder die Entscheidungsfindung eines Unternehmens einflossen, strukturierte Daten aus operativen Systemen, während heute viele Produkte KI in Form von Computer Vision, Sprachmodellen, Text Mining und anderem integrieren. Warum ein Lakehouse anstelle eines Data Lake für KI verwenden? Ein lakehouse bietet Datenversionierung, Governance, Sicherheit und ACID-Eigenschaften, die auch für unstrukturierte Daten benötigt werden.

Aktuelle Lakehouses senken zwar die Kosten, ihre Performance kann aber immer noch hinter der von spezialisierten Systemen (wie Data Warehouses) zurückbleiben, die auf jahrelangen Investitionen und Praxiseinsätzen basieren. Nutzer bevorzugen möglicherweise bestimmte Tools (BI-Tools, IDEs, Notebooks) gegenüber anderen. Daher müssen Lakehouses auch ihre UX und ihre Konnektoren für gängige Tools verbessern, um eine Vielzahl von Personas anzusprechen. Diese und andere Probleme werden mit der fortschreitenden Reifung und Entwicklung der Technologie angegangen. Mit der Zeit werden Lakehouses diese Lücken schließen und dabei ihre Kerneigenschaften – Einfachheit, Kosteneffizienz und eine bessere Fähigkeit zur Bereitstellung verschiedener Datenanwendungen – beibehalten.

Lesen Sie die FAQ zum Data Lakehouse für weitere Details.