Réduisez le coût et la complexité du partage de données entre clouds
par Tianyi Huang, Giselle Goicochea, Philip Jones et Harshal Brahmbhatt
Delta Sharing a évolué pour devenir OpenSharing, le premier protocole ouvert et indépendant de tout fournisseur permettant de partager en toute sécurité des actifs AI, notamment des compétences d'agent, des modèles AI et des données non structurées. Lisez l'annonce.
Un grand merci à Phillip Jones, Senior Product Manager, et Harshal Brahmbhatt, Systems Engineer chez Cloudflare, pour leurs contributions à ce blog.
Les entreprises de tous secteurs souhaitent partager leurs données et leurs actifs AI de manière unique et unifiée, quels que soient les clouds ou les régions. Cependant, de nombreuses organisations éprouvent encore des difficultés à partager des données avec leurs clients, équipes et partenaires, en raison de problèmes de compatibilité et de limites de plateformes, de coûts de transfert sortant élevés, ainsi que d'un manque de gouvernance et de sécurité. Databricks et la Linux Foundation ont développé Delta Sharing comme la première approche ouverte pour le partage sécurisé de données. Les clients utilisent Delta Sharing pour partager facilement et en toute sécurité des données entre plateformes, clouds et régions, sans avoir besoin de réplication.
Aujourd'hui, nous sommes ravis d'annoncer que Delta Sharing avec l'intégration Cloudflare R2 est en Public Preview afin d'aider les clients qui partagent des données entre clouds et régions à économiser sur les coûts de transfert sortant. Databricks prend désormais en charge Delta Sharing depuis Cloudflare R2, l'offre de stockage d'objets distribué sans frais de transfert sortant de Cloudflare. Nos clients communs peuvent désormais bénéficier de frais de transfert sortant nuls, sans réplication coûteuse entre les régions et sans dépendance vis-à-vis d'un fournisseur.
Databricks s'est associé à Cloudflare pour aider les entreprises à partager leurs données avec leurs clients et partenaires de manière unique et unifiée, quels que soient le cloud ou la région. Cloudflare R2 est une solution de stockage distribué sans frais de transfert sortant proposée par Cloudflare, qui permet aux clients de partager les jeux de données les plus récents avec leurs partenaires, fournisseurs et branches d'activité, sans compromettre la sécurité et la confidentialité.
Matthew Prince, cofondateur et CEO de Cloudflare, a expliqué la valeur de ce partenariat : « L'association du réseau mondial massif de Cloudflare et de son stockage sans frais de transfert sortant, combinée aux puissantes capacités de partage et de traitement de Databricks, offrira à nos clients communs les capacités de partage de données les plus rapides, les plus sécurisées et les plus abordables au monde. »
En utilisant Delta Sharing avec Cloudflare R2, les clients contrôlent désormais l'endroit où ils déplacent et utilisent leurs données et leur AI (jeux de données en direct, modèles et notebooks), partageant les dernières versions sur l'ensemble des plateformes, clouds et régions, sans besoin de réplication, sans frais de transfert sortant, sans dépendance vis-à-vis d'un fournisseur, et sans compromis sur la sécurité et la gouvernance.
« L'association du réseau mondial massif de Cloudflare et de son stockage sans frais de transfert sortant, combinée aux puissantes capacités de partage et de traitement de Databricks, offrira à nos clients communs les capacités de partage de données les plus rapides, les plus sécurisées et les plus abordables au monde. » — Matthew Prince, CEO & cofondateur de Cloudflare
« Delta Sharing fournit le premier protocole ouvert pour le partage de données entre diverses plateformes informatiques, clouds et régions. Nous sommes ravis de la manière dont cela va faire progresser l'échange ouvert et aider tous nos clients à collaborer plus facilement », a expliqué Matei Zaharia, cofondateur et CTO chez Databricks, à propos du partenariat avec Cloudflare.
« Delta Sharing fournit le premier protocole ouvert pour le partage de données entre diverses plateformes informatiques, clouds et régions. Nous sommes ravis de la manière dont cela va faire progresser l'échange ouvert et aider tous nos clients à collaborer plus facilement. » — Matei Zaharia, cofondateur et CTO chez Databricks
Au cours des 15 dernières années, le secteur financier a été transformé par l'introduction de la technologie blockchain et l'utilisation des cryptomonnaies dans toutes les industries. Cette évolution a généré une quantité toujours croissante de données transactionnelles issues des blockchains publiques, permettant aux investisseurs et aux traders d'obtenir des informations cruciales en temps réel.
Allium est un client de Databricks qui fournit une plateforme de données simple avec des données blockchain rapides et précises. Ils aident leurs clients, des institutions financières aux entreprises crypto-natives, à exploiter pleinement la puissance de leurs données. Allium propose une infrastructure de données dédiée et des produits comprenant des bases de données blockchain gérées, des schémas de données enrichis et des fonctionnalités de notification en temps réel. Leader dans ce domaine, Allium prend en charge 15 blockchains, dont les EVM et Bitcoin, plus de 100 schémas et plus de 250 TB de données pour alimenter toutes sortes d'applications crypto, de la comptabilité et de l'audit pour les traders au filtrage du wash trading pour les marketplaces NFT. Allium va à la rencontre de ses clients là où ils se trouvent, dans leur propre environnement de données, ce qui s'est traduit par plus de 1 PB de transfert de données par mois au cours du dernier trimestre, un volume qui continue de grimper suite à la récente reprise du marché crypto alimentée par l'optimisme autour des ETF.
Bien que l'augmentation massive des volumes de transfert de données ait contribué à la croissance rapide de l'activité d'Allium, elle a également posé un défi de taille pour sa rentabilité : comment concevoir une solution de stockage et de partage de données rentable qui réponde aux besoins de ses clients ? Plus précisément, comment partager des données avec leurs clients vers n'importe quel endroit (entre clouds et régions) tout en minimisant les coûts élevés de transfert sortant imposés par les fournisseurs de cloud.
Avant d'adopter la solution conjointe de Delta Sharing avec Cloudflare R2, Allium avait mis en œuvre d'autres plateformes mais les avait trouvées excessivement chères, avec des coûts estimés atteignant 53 800 $ par mois pour un transfert sortant de 1 PB de données, soit un total d'environ 645 000 $ par an.
« Au départ, nous utilisions le système de réplication de Snowflake, mais il manquait de contrôle et coûtait cher. Dans Snowflake, pour mettre des données à disposition dans différentes régions, nous devons les répliquer dans ces régions, ce qui entraîne automatiquement d'importants coûts de stockage ainsi que des frais de transfert sortant. Cette dépense augmente de manière exponentielle à chaque modification opérationnelle de schéma, ce qui arrive fréquemment à notre échelle », explique Ethan Chan, cofondateur et CEO d'Allium.
« Dans Snowflake, pour mettre des données à disposition dans différentes régions, nous devons les répliquer dans ces régions, ce qui entraîne automatiquement d'importants coûts de stockage ainsi que des frais de transfert sortant. Cette dépense augmente de manière exponentielle à chaque modification opérationnelle de schéma, ce qui arrive fréquemment à notre échelle. » — Ethan Chan, cofondateur et CEO d'Allium
L'association de Delta Sharing et de Cloudflare R2 a fourni à Allium une solution de partage de données économique et sécurisée, sans nécessiter de réplications complexes et coûteuses ni imposer de dépendance vis-à-vis d'un fournisseur. Allium contrôle désormais l'endroit où elle déplace et utilise ses données grâce au support multicloud de Delta Sharing, et a consolidé son stockage cloud avec Cloudflare R2 pour bâtir sa plateforme de partage de données de nouvelle génération.
Chan explique : « L'association de Delta Sharing et de Cloudflare R2 nous permet de fournir des données à nos clients de manière fiable et rentable. Nous fournissons des données blockchain de la plus haute qualité à nos clients dans leur environnement préféré, tout en minimisant nos coûts de stockage et de transfert sortant, ce qui nous permet d'économiser jusqu'à 645 000 $ par an. De plus, cela nous apporte le contrôle et la sécurité nécessaires pour faire évoluer nos offres de manière durable. »
Allium utilise cette intégration pour maximiser ses économies (voir le schéma ci-dessous) en conservant les données blockchain à l'aide de Delta UniForm (Delta Lake Universal Format), un moyen transparent d'unifier les formats de table Parquet sans créer de copies supplémentaires. Allium active les connecteurs Apache Iceberg et Delta qui lisent les données stockées dans Cloudflare R2. Ils implémentent également Delta Sharing pour partager de manière fluide et sécurisée leurs données entre régions et plateformes, le tout avec des frais de transfert sortant nuls pour les transferts sortants.
« L'association de Delta Sharing et de Cloudflare R2 nous permet de fournir des données à nos clients de manière fiable et rentable. Nous fournissons des données blockchain de la plus haute qualité à nos clients dans leur environnement préféré, tout en minimisant nos coûts de stockage et de transfert sortant, ce qui nous permet d'économiser jusqu'à 645 000 $ par an. » — Ethan Chan, cofondateur et CEO d'Allium

Allium a également récemment élargi sa gamme de produits pour partager ses données en temps réel Ethereum, désormais disponibles sur le Databricks Marketplace. Ce jeu de données permet aux utilisateurs de l'écosystème des cryptomonnaies de partager des informations précieuses sur la dynamique d'Ethereum. Disponible à l'achat, il comprend plusieurs détails sur la blockchain d'Ethereum, notamment les contrats intelligents, les marchés des NFT et de la finance décentralisée (DeFi), et bien plus encore.
Un autre exemple de type de client pouvant bénéficier de Delta Sharing et de Cloudflare R2 est un agrégateur de données utilisant un modèle d'architecture en étoile (« hub and spoke ») très répandu. Un agrégateur de données est spécialisé dans la collecte et la fusion de données provenant de diverses sources en un jeu de données unifié et cohérent. Un scénario de partage de données en étoile (« hub and spoke ») est défini comme un modèle un-à-plusieurs, où une organisation partage ses données avec de nombreux clients. Ces agrégateurs de données se spécialisent dans la collecte, la fusion et le partage de jeux de données avec différents clients dans plusieurs régions, clouds et plateformes. Cependant, ces organisations sont confrontées à un défi commun : comment faire évoluer le partage de données de manière rentable et prévisible. Idéalement, elles peuvent bénéficier d'économies d'échelle, de sorte que lorsque le nombre de clients augmente, le coût de partage n'augmente que de manière marginale. De plus, elles ne veulent pas dépendre de l'adoption de la réplication des données par leurs clients pour réaliser des économies, mais souhaitent plutôt contrôler la gestion des coûts de manière prévisible.
Les secteurs qui utilisent généralement des agrégateurs de données comprennent les services financiers, la santé et les sciences de la vie, ainsi que les médias et le divertissement. Le partage de données permet de répondre à des besoins commerciaux essentiels tels que la prise de décision, l'analyse de marché, la recherche et le soutien aux opérations globales de l'entreprise. Par exemple, les agrégateurs de données jouent un rôle crucial dans le fonctionnement de diverses applications et services financiers, tels que les applications de budget, les plateformes d'investissement, les solutions de prêt, et bien plus encore, en accédant et en analysant de manière sécurisée les informations financières des utilisateurs. Consultez le tableau ci-dessous pour découvrir quelques cas d'usage spécifiques à ces secteurs.
| Secteur | Cas d'usage de l'agrégateur de données | Détails du cas d'usage |
|---|---|---|
| Médias et divertissement | Archivage de contenu | Les agrégateurs peuvent être utilisés pour archiver le contenu de manière systématique, ce qui permet aux entreprises de médias de partager plus facilement leur contenu avec leurs partenaires et clients afin d'accéder à leur contenu historique et de le réutiliser pour de nouveaux publics ou de nouvelles plateformes. |
| Services financiers | Évaluation du crédit et des risques | Les agrégateurs de données fournissent des informations sur le comportement financier des utilisateurs, telles que les habitudes de dépenses, les niveaux de revenus et les obligations de dette. Ces informations sont partagées et peuvent être utilisées par les prêteurs et les institutions financières pour évaluer le risque de crédit et les aider à prendre des décisions de prêt basées sur les cotes de crédit globales. |
| Santé et sciences de la vie | Efficacité commerciale | Les agrégateurs de données de santé peuvent fournir des données de prescription clinique aux hôpitaux, aux prestataires de soins de santé, aux entreprises pharmaceutiques et aux instituts de recherche à des fins d'analyse et d'utilisation de diverses manières. Cela peut inclure l'identification de nouveaux marchés à pénétrer, la mesure de la dynamique des canaux de vente ou les habitudes d'achat dans les pharmacies de détail ou les hôpitaux. |
Les coûts de transfert sortant (egress) du cloud évoluent généralement proportionnellement au volume de données interrogées à partir du partage de données. Le diagramme ci-dessous montre que lorsque le nombre de requêtes (et le volume de données) augmente, le coût de transfert sortant augmente également. Les clients peuvent utiliser cette approche pour comparer différentes solutions de stockage et quantifier le rapport coût-bénéfice de l'utilisation de la solution de Cloudflare R2, qui n'entraîne aucun coût de transfert sortant. Comme le montre le diagramme ci-dessous, la solution de Cloudflare R2 peut générer des économies significatives par rapport à d'autres solutions de stockage cloud.
Par exemple, sur la base d'hypothèses de tarification standard, l'analyse ci-dessous indique que les actifs de données dont les activités de transfert de données dépassent 26 % entre différents clouds ou 85 % entre régions sur une base mensuelle peuvent bénéficier d'économies mensuelles significatives sur les coûts de stockage et de transfert sortant.1

Delta Sharing et Cloudflare R2 sont désormais disponibles en version préliminaire publique. Pour implémenter la solution conjointe, vous n'avez pas besoin de migrer toutes vos données vers Cloudflare R2 (voir le blog associé, Concevoir une collaboration globale sur les données avec Delta Sharing). Il vous suffit de répliquer une seule fois les données partagées vers R2, en trois étapes simples (voir le diagramme ci-dessous) :

Consultez la documentation technique pour plus de détails. Vous pouvez également faire part de vos commentaires à notre équipe à l'adresse datacollaboration@databricks.com.
En utilisant Delta Sharing avec Cloudflare R2, vous pouvez désormais bénéficier d'une nouvelle approche pour partager des données et l'IA entre plateformes, clouds et régions, avec zéro coût de transfert sortant, sans dépendance vis-à-vis d'un fournisseur et sans compromis sur la sécurité et la gouvernance.
Découvrez comment intégrer Delta Sharing dans votre stratégie de collaboration de données grâce aux dernières ressources :
1 Le calcul des économies de coûts est basé sur l'hypothèse que 10 % des données sont actualisées mensuellement et que les données sont répliquées sur Cloudflare R2 à des fins de partage tout en conservant la copie originale dans S3.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.