Databricks annonce l'acquisition de Tabular, la société fondée par les créateurs d'Apache Iceberg.

4 juin 2024

Databricks et Tabular travailleront ensemble à une vision commune de l'open lakehouse.

SAN FRANCISCO - 4 juin 2024 - Databricks, la société spécialisée dans les données et l'IA, annonce aujourd'hui qu'elle a conclu un accord pour acquérir Tabular, une société de gestion de données fondée par Ryan Blue, Daniel Weeks et Jason Reid. En réunissant les créateurs originaux d'Apache Iceberg™ et de Linux Foundation Delta Lake, les deux principaux formats de lakehouse open source, Databricks ouvrira la voie à la compatibilité des données afin que les organisations ne soient plus limitées par le choix de l'un ou l'autre de ces formats pour leurs données. Databricks a l'intention de travailler en étroite collaboration avec les communautés Delta Lake et Iceberg pour apporter la compatibilité de format au Lakehouse ; à court terme, à l'intérieur de Delta Lake UniForm et, à long terme, en évoluant vers un standard d'interopérabilité unique, ouvert et commun. Databricks et Tabular travailleront ensemble à la réalisation d'une vision commune d’open lakehouse.

L'essor de l'architecture des pavillons et l'incompatibilité des formats

Databricks a lancé l'architecture Lakehouse en 2020 pour permettre l'intégration des charges de travail de stockage de données traditionnelles avec les workloads en IA à partir d'une seule copie gouvernée de données. Pour que cela fonctionne, toutes les données doivent être dans un format ouvert afin que différents workloads, applications et machines puissent accéder aux mêmes données. L'architecture Lakehouse maximise la productivité de l'entreprise en démocratisant l'accès aux données. En outre, les données doivent souvent être copiées et exportées pour être utilisées par d'autres applications, ce qui crée un degré élevé de dépendance à l'égard du fournisseur. Quatre ans plus tard, 74 % des entreprises ont déployé une architecture de type "lakehouse".

Les formats de données open source qui permettent d'effectuer des transactions conformes ACID sur des données stockées dans un système de stockage d'objets constituent la base de cette architecture. Ces formats améliorent considérablement la fiabilité et les performances des opérations sur les données dans le data lake et ont été spécifiquement conçus pour les moteurs open source tels qu'Apache Spark™, Trino et Presto. Pour relever ces défis, Databricks a collaboré avec la Fondation Linux pour créer le projet Delta Lake. Depuis sa création, Delta Lake compte plus de 500 contributeurs de code issus d'un ensemble diversifié d'organisations, et plus de 10 000 entreprises dans le monde utilisent Delta Lake pour traiter plus de 4 exaoctets de données en moyenne chaque jour.

À peu près au même moment où Delta Lake a été créé, Ryan Blue et Daniel Weeks ont développé le projet Iceberg chez Netflix et en ont fait don à la Apache Software Foundation. Depuis lors, Delta Lake et Iceberg se sont imposés comme les deux principaux standards open source pour les formats lakehouse. Bien que ces deux formats soient basés sur Apache Parquet et partagent des objectifs et des conceptions similaires, ils sont devenus incompatibles en raison de leur développement indépendant.

Au fil du temps, un certain nombre d'autres moteurs open source et propriétaires ont adopté ces formats. Cependant, ils n'ont généralement adopté qu'une seule des normes et, le plus souvent, une partie seulement de cette norme, ce qui a entraîné la fragmentation et le cloisonnement des données de l'entreprise, sabotant ainsi la valeur de l'architecture Lakehouse.

La voie de l'interopérabilité

Les entreprises ont besoin de l'interopérabilité des données pour réaliser les avantages du Lakehouse, et Databricks travaillera en étroite collaboration avec les communautés Delta Lake et Iceberg pour apporter l'interopérabilité aux formats au fil du temps. Il s'agit d'un long chemin, qui prendra probablement plusieurs années à parcourir dans ces communautés. C'est pourquoi, l'année dernière, Databricks a introduit Delta Lake UniForm. Les tables UniForm assurent l'interopérabilité entre Delta Lake, Iceberg et Hudi, et prennent en charge l'interface de catalogue restful d'Iceberg afin que les entreprises puissent utiliser les machines et les outils d'analyse qui leur sont déjà familiers, pour toutes leurs données. Largement disponible aujourd’hui, UniForm permet aux entreprises de devenir compatibles. Avec l'arrivée de l'équipe originale d'Iceberg, Databricks élargira considérablement les ambitions de Delta Lake UniForm.

"Databricks a été le pionnier du lakehouse et au cours des quatre dernières années, le monde a adopté l'architecture lakehouse, combinant le meilleur des data warehouses et des data lakes pour aider les clients à réduire le coût total de possession, à adopter l'ouverture et à réaliser plus rapidement des projets d'intelligence artificielle. Malheureusement, le paradigme lakehouse a été divisé entre les deux formats les plus populaires : Delta Lake et Iceberg. Databricks et Tabular travailleront avec la communauté open-source pour rapprocher les deux formats au fil du temps, en augmentant l'ouverture et en réduisant les silos et les frictions pour les clients", a déclaré Ali Ghodsi, cofondateur et CEO de Databricks. "L'année dernière, nous avons annoncé Delta Lake UniForm pour apporter l'interopérabilité à ces deux formats, et nous sommes ravis de réunir les principaux leaders des formats open data lakehouse pour faire d'UniForm le meilleur moyen d'unifier vos données pour chaque charge de travail."

Un engagement commun en faveur de cette ouverture

Databricks et Tabular ont en commun de défendre les formats open source. Les deux sociétés ont été fondées pour commercialiser les technologies open source créées par les fondateurs et aujourd'hui, Databricks est la société open source indépendante la plus importante et la plus prospère en termes de revenus et a fait don de 12 millions de lignes de code à des projets open source. Cette acquisition souligne l'engagement de Databricks en faveur des formats ouverts et des données open source dans le cloud, ce qui permet aux entreprises de contrôler leurs données et de s'affranchir de l'enfermement créé par les formats propriétaires des vendeurs.

"Nous avons créé Apache Iceberg pour résoudre les problèmes de données critiques liés à l'exactitude, aux performances et à l'évolutivité. Nous avons été stupéfaits de voir Iceberg et Delta Lake gagner massivement en popularité, en grande partie grâce au fait que l'Open Lakehouse est devenu le standard de l'industrie. Avec Tabular qui rejoint Databricks, nous avons l'intention de construire la meilleure plateforme de gestion de données basée sur les formats Lakehouse ouverts afin que les entreprises n'aient pas à se soucier de choisir le "bon" format ou de s'enfermer dans des formats de données propriétaires", a déclaré Ryan Blue, cofondateur et CEO de Tabular.

Pour en savoir plus sur l'union des forces de Databricks et Tabular, inscrivez-vous au Data + AI Summit, du 10 au 13 juin : databricks.com/dataaisummit.

Détails concernant l'acquisition proposée

L'acquisition proposée est soumise aux conditions de clôture habituelles et devrait être finalisée au cours du deuxième trimestre fiscal de Databricks.

À propos de Tabular

Tabular est la plateforme de données indépendante créée par les créateurs originaux d'Apache Iceberg. Tabular répond à la difficulté qu'ont les ingénieurs et les scientifiques des données à lutter contre les lacunes de leur infrastructure de données. Tabular a été fondée par Ryan Blue, Dan Weeks et Jason Reid, anciens élèves de Netflix. Blue est également président du PMC d'Iceberg et Weeks est membre du PMC d'Iceberg.

À propos de Databricks

Databricks est la société des données et de l'IA. Plus de 10 000 organisations dans le monde - dont Block, Comcast, Condé Nast, Rivian, Shell et plus de 60 % du Fortune 500 - s'appuient sur la plateforme d'intelligence des données de Databricks pour prendre le contrôle de leurs données et les mettre au service de l'IA. Databricks a son siège à San Francisco, avec des bureaux dans le monde entier, et a été fondée par les créateurs originaux de Lakehouse, Apache Spark™, Delta Lake et MLflow. Pour en savoir plus, suivez Databricks sur LinkedIn, X et Facebook.

Contact : [email protected]

Contactez notre équipe de presse

Demandes de Presse :[email protected]

Kit de Presse

Explorez notre dossier de presse pour les actualités de l'entreprise, des informations, des logos, des photos et plus encore.

Partager cet article