Revenir au contenu principal

Databricks vereinbart die Übernahme von Tabular, dem Unternehmen, das von den ursprünglichen Erfindern von Apache Iceberg gegründet wurde

June 4, 2024
Share this post

Databricks und Tabular werden an einer gemeinsamen Vision des Open Lakehouse arbeiten

SAN FRANCISCO - 5. Juni 2024 - Databricks, das Daten- und KI-Unternehmen, gibt die Übernahme von Tabular bekannt, einem Datenmanagement-Unternehmen, das von Ryan Blue, Daniel Weeks und Jason Reid gegründet wurde. Durch die Zusammenführung der ursprünglichen Erfinder von Apache Iceberg™ und Linux Foundation Delta Lake, den beiden führenden Open-Source-Lakehouse-Formaten, wird Databricks bei der Datenkompatibilität eine Vorreiterrolle einnehmen. Unternehmen sind nicht mehr durch das jeweilige Datenformat eingeschränkt. Databricks beabsichtigt, eng mit den Delta Lake und Iceberg Communities zusammenzuarbeiten, um Formatkompatibilität in das Lakehouse zu bringen. Kurzfristig innerhalb von Delta Lake UniForm und langfristig durch die Entwicklung eines einzigen, offenen und gemeinsamen Standards für Interoperabilität. Databricks und Tabular arbeiten zusammen an einer gemeinsamen Vision des Open Lakehouse.

Der Siegeszug der Lakehouse Architektur und Format-Inkompatibilität

Databricks leistete im Jahr 2020 Pionierarbeit mit der Lakehouse-Architektur, um die Integration traditioneller Data Warehousing Workloads mit KI-Workloads auf einer einzigen, verwalteten Kopie der Daten zu ermöglichen. Alle Daten müssen in einem offenen Format vorliegen, damit verschiedene Workloads, Anwendungen und Engines auf dieselben Daten zugreifen können. Die Lakehouse Architektur maximiert die Unternehmensproduktivität, indem sie den Zugang zu den Daten demokratisiert. Dies steht im Gegensatz zu proprietären Data Warehouses, bei denen nur eine proprietäre SQL-Engine die Daten lesen, schreiben oder gemeinsam nutzen kann. Hier müssen die Daten oft kopiert und exportiert werden, um von anderen Anwendungen genutzt werden zu können. Dies führt zu einem hohen Grad an Anbieterbindung. Vier Jahre später haben 74 Prozent der Unternehmen eine Lakehouse Architektur implementiert.

Die Grundlage des Lakehouse bilden Open-Source-Datenformate, die ACID-Transaktionen für in Objektspeichern gespeicherte Daten ermöglichen. Diese Formate verbessern die Zuverlässigkeit und Leistung von Datenoperationen im Data Lake erheblich und wurden speziell für Open Source-Engines wie Apache Spark™, Trino und Presto entwickelt. Um diese Herausforderungen zu bewältigen, hat Databricks in Zusammenarbeit mit der Linux Foundation das Delta Lake-Projekt ins Leben gerufen. Seit seiner Gründung hat Delta Lake mehr als 500 Mitwirkende aus einer Vielzahl von Organisationen gewinnen können. Mehr als 10.000 Unternehmen weltweit nutzen Delta Lake, um durchschnittlich 4+ Exabyte Daten pro Tag zu verarbeiten.

Etwa zur gleichen Zeit, als Delta Lake entstand, entwickelten Ryan Blue und Daniel Weeks das Iceberg-Projekt bei Netflix und übergaben es der Apache Software Foundation. Seitdem haben sich Delta Lake und Iceberg zu den beiden führenden Open Source-Standards für Lakehouse-Formate entwickelt. Obwohl beide Formate auf Apache Parquet basieren und ähnliche Ziele und Entwürfe verfolgen, wurden sie aufgrund ihrer unabhängigen Entwicklung inkompatibel. Im Laufe der Zeit haben eine Reihe von anderen Open Source- und proprietären Engines diese Formate übernommen. Sie übernahmen jedoch in der Regel nur einen der Standards und meistens nur einen Teil dieses Standards, was zu fragmentierten und siloartigen Unternehmensdaten führte und den Wert der Lakehouse Architektur untergrub.

Der Weg zur Interoperabilität

Unternehmen benötigen Dateninteroperabilität, um die Vorteile des Lakehouse zu nutzen. Databricks wird eng mit den Delta Lake und Iceberg Communities zusammenarbeiten, um die Interoperabilität der Formate mit der Zeit zu erreichen. Dies ist ein langer Weg, der in diesen Communities wahrscheinlich mehrere Jahre dauern wird. Aus diesem Grund hat Databricks letztes Jahr Delta Lake UniForm eingeführt. UniForm-Tabellen bieten Interoperabilität zwischen Delta Lake, Iceberg und Hudi und unterstützen die Iceberg Restful Catalog-Schnittstelle, so dass Unternehmen die Analyse-Engines und -Tools, mit denen sie bereits vertraut sind, für alle ihre Daten nutzen können. UniForm ist allgemein verfügbar und ermöglicht es Unternehmen, Kompatibilität zu erreichen. Mit der Ergänzung durch das ursprüngliche Iceberg-Team wird Databricks die Ambitionen von Delta Lake UniForm erheblich erweitern.

„Databricks war der Pionier der Lakehouse Architektur, und in den letzten vier Jahren hat die Welt die Lakehouse Architektur angenommen, die das Beste aus Data Warehouses und Data Lakes kombiniert, um Unternehmen dabei zu unterstützen, die Gesamtbetriebskosten zu senken, die Offenheit zu fördern und KI-Projekte schneller umzusetzen. Leider hat sich das Lakehouse Paradigma zwischen den beiden beliebtesten Formaten gespalten: Delta Lake und Iceberg. Databricks und Tabular werden mit der Open Source-Community zusammenarbeiten, um die beiden Formate im Laufe der Zeit einander anzunähern, die Offenheit zu erhöhen und Silos und Reibungsverluste für Kunden zu reduzieren”, sagt Ali Ghodsi, Mitbegründer und CEO von Databricks. „Letztes Jahr haben wir Delta Lake UniForm angekündigt, um Interoperabilität zwischen diesen beiden Formaten zu schaffen, und wir freuen uns nun, die führenden Anbieter von offenen Data-Lakehouse-Formaten zusammenzubringen, um UniForm zur Vereinheitlichung von Daten für jeden Workload bereitzustellen. 

“Ein gemeinsames Engagement für Open Source 

Databricks und Tabular haben eine gemeinsame Geschichte als Verfechter von Open Source-Formaten. Beide Unternehmen wurden gegründet, um Open Source-Technologien zu vermarkten, die von den Gründern entwickelt wurden. Heute ist Databricks das größte und erfolgreichste unabhängige Open Source-Unternehmen am Umsatz gemessen und hat 12 Millionen Codezeilen für Open Source-Projekte gespendet. Diese Übernahme unterstreicht das Engagement von Databricks für offene Formate und Open Source-Daten in der Cloud und trägt dazu bei, dass Unternehmen die Kontrolle über ihre Daten behalten und nicht durch proprietäre, herstellereigene Formate eingeschränkt werden.

„Wir haben Apache Iceberg entwickelt, um kritische Datenprobleme in Bezug auf Korrektheit, Leistung und Skalierbarkeit zu lösen. Mit Erstaunen haben wir gesehen, wie sowohl Iceberg als auch Delta Lake massiv an Popularität gewonnen haben, was vor allem darauf zurückzuführen ist, dass Open Lakehouse zum Industriestandard geworden ist. Mit dem Beitritt von Tabular zu Databricks beabsichtigen wir, die beste Datenmanagement-Plattform auf der Basis offener Lakehouse Formate zu entwickeln, so dass sich Unternehmen keine Gedanken über die Wahl des 'richtigen' Formats machen müssen oder in proprietären Datenformaten gefangen sind", sagt Ryan Blue, Mitbegründer und CEO von Tabular.

Um mehr über den Zusammenschluss von Databricks und Tabular zu erfahren, registrieren Sie sich für den Data + AI Summit vom 10. bis 13. Juni hier: https://www.databricks.com/dataaisummit 

Details zur geplanten Akquisition

Die geplante Übernahme unterliegt den üblichen Abschlussbedingungen und wird voraussichtlich im zweiten Fiskalquartal von Databricks abgeschlossen werden.

Über Tabular

Tabular ist die unabhängige Datenplattform, die von den ursprünglichen Schöpfern von Apache Iceberg entwickelt wurde. Tabular adressiert den Schmerz von Data Engineers und Data Scientists, die mit den Unzulänglichkeiten ihrer Dateninfrastruktur zu kämpfen haben. Tabular wurde von den Netflix-Alumni Ryan Blue, Dan Weeks und Jason Reid gegründet. Blue ist auch der Vorsitzende des Iceberg PMC und Weeks ist Mitglied des Iceberg PMC.

Über Databricks

Databricks ist das Daten- und KI-Unternehmen. Mehr als 10.000 Unternehmen weltweit - darunter Block, Comcast, Condé Nast, Rivian, Shell und über 60 Prozent der Fortune-500-Unternehmen - vertrauen auf die Databricks Data Intelligence-Plattform, um die Kontrolle über ihre Daten zu übernehmen und sie mit KI zu nutzen. Databricks hat seinen Hauptsitz in San Francisco und verfügt über Niederlassungen auf der ganzen Welt. Das Unternehmen wurde von den ursprünglichen Entwicklern von Lakehouse, Apache Spark™, Delta Lake und MLflow gegründet. Wenn Sie mehr erfahren möchten, folgen Sie Databricks auf LinkedIn, X und Facebook.

Kontakt: [email protected]


 

Recent Press Releases

Databricks and Microsoft Extend Strategic Partnership for Azure Databricks
Lire la suite
Databricks Announces Strategic AI Partnership with Google Cloud to Bring Gemini Models Natively to the Data Intelligence Platform
Lire la suite
Databricks Launches Agent Bricks: A New Approach to Building AI Agents
Lire la suite
Databricks Donates Declarative Pipelines to Apache Spark™ Open Source Project
Lire la suite
Databricks Unveils Databricks One: A New Experience to Bring Data and AI to Every Corner of the Business
Lire la suite
View All