Minimiza el costo y la complejidad de compartir datos entre nubes
por Tianyi Huang, Giselle Goicochea, Philip Jones y Harshal Brahmbhatt
Delta Sharing ha evolucionado a OpenSharing, el primer protocolo abierto y neutral respecto al proveedor para compartir de forma segura activos de AI, incluidos Agent Skills, modelos de AI y datos no estructurados. Lee el anuncio.
Un agradecimiento especial a Phillip Jones, Senior Product Manager, y a Harshal Brahmbhatt, Systems Engineer de Cloudflare, por sus contribuciones a este blog.
Las organizaciones de todos los sectores quieren compartir sus datos y activos de AI de una manera única y unificada, independientemente de las nubes o regiones. Sin embargo, muchas organizaciones aún tienen dificultades para compartir datos con clientes, equipos y socios, debido a problemas y limitaciones de compatibilidad de plataformas, altos costos de salida de datos y una falta de gobernanza y seguridad. Databricks y la Linux Foundation desarrollaron Delta Sharing como el primer enfoque abierto para el intercambio seguro de datos. Los clientes han estado utilizando Delta Sharing para compartir datos de manera fácil y segura entre plataformas, nubes y regiones, sin necesidad de replicación.
Hoy, nos complace anunciar que la integración de Delta Sharing con Cloudflare R2 está en Public Preview para ayudar a los clientes que comparten datos entre nubes y regiones a ahorrar en costos de salida de datos. Databricks ahora es compatible con Delta Sharing desde Cloudflare R2, la oferta de almacenamiento de objetos distribuido y sin costos de salida de Cloudflare. Los clientes conjuntos ahora pueden aprovechar la ausencia de tarifas de salida de datos sin la costosa replicación entre regiones y sin dependencia de un solo proveedor.
Databricks se asoció con Cloudflare para ayudar a las organizaciones a compartir sus datos con clientes y socios de una manera única y unificada, independientemente de la nube o la región. Cloudflare R2 es un almacenamiento distribuido sin costos de salida ofrecido por Cloudflare que permite a los clientes compartir los conjuntos de datos más actualizados con sus socios, proveedores y líneas de negocio sin comprometer la seguridad y la privacidad.
Matthew Prince, cofundador y CEO de Cloudflare, explicó el valor de la asociación: "La combinación de la enorme red global de Cloudflare y el almacenamiento sin costos de salida, junto con las potentes capacidades de procesamiento e intercambio de Databricks, brindará a nuestros clientes conjuntos las capacidades de intercambio de datos más rápidas, seguras y accesibles de todo el mundo".
Al usar Delta Sharing con Cloudflare R2, los clientes ahora tienen el control de dónde mover y usar sus datos y AI (conjuntos de datos en tiempo real, modelos y notebooks), compartiendo lo último en plataformas, nubes y regiones sin necesidad de replicación, sin costos de salida de datos, sin dependencia de un proveedor y sin comprometer la seguridad y la gobernanza.
"La combinación de la enorme red global de Cloudflare y el almacenamiento sin costos de salida, junto con las potentes capacidades de procesamiento e intercambio de Databricks, brindará a nuestros clientes conjuntos las capacidades de intercambio de datos más rápidas, seguras y accesibles de todo el mundo". — Matthew Prince, CEO y cofundador de Cloudflare
“Delta Sharing proporciona el primer protocolo abierto para compartir datos a través de diversas plataformas informáticas, nubes y regiones. Estamos entusiasmados con la forma en que esto impulsará el intercambio abierto y ayudará a todos nuestros clientes a colaborar más fácilmente”, explicó Matei Zaharia, cofundador y CTO de Databricks, sobre la asociación con Cloudflare.
"Delta Sharing proporciona el primer protocolo abierto para compartir datos a través de diversas plataformas informáticas, nubes y regiones. Estamos entusiasmados con la forma en que esto impulsará el intercambio abierto y ayudará a todos nuestros clientes a colaborar más fácilmente". — Matei Zaharia, cofundador y CTO de Databricks
En los últimos 15 años, la industria financiera se ha transformado con la introducción de la tecnología blockchain y el uso de criptomonedas en diversos sectores. Esta evolución ha generado una cantidad cada vez mayor de datos de transacciones de blockchains públicas, disponibles para que los inversores y operadores obtengan información crucial en tiempo real.
Allium es un cliente de Databricks que ofrece una plataforma de datos sencilla con datos de blockchain rápidos y precisos. Ayudan a clientes que van desde instituciones financieras hasta empresas nativas de criptomonedas a liberar todo el poder de sus datos. Allium ofrece una infraestructura de datos dedicada y productos que incluyen bases de datos de blockchain administradas, esquemas de datos enriquecidos y capacidades de notificación en tiempo real. Son líderes en este espacio, dando servicio a 15 blockchains, incluidas EVMs y Bitcoin, más de 100 esquemas y más de 250 TB de tamaño de datos para potenciar todo tipo de aplicaciones cripto, desde contabilidad y auditoría para operadores hasta filtrado de wash trading para mercados de NFT. Allium se adapta a las necesidades de sus clientes dondequiera que estén, en su propio entorno de datos, lo que resultó en más de 1 PB de transferencia de datos mensual en el último trimestre, y este volumen continúa aumentando tras la reciente recuperación de las criptomonedas impulsada por el optimismo en torno a los ETF.
Si bien el aumento masivo en los volúmenes de transferencia de datos ha contribuido al rápido crecimiento comercial de Allium, también ha añadido un desafío significativo a sus resultados financieros: cómo crear una solución de almacenamiento e intercambio de datos rentable que satisfaga las necesidades de sus clientes. Específicamente, cómo pueden compartir datos con sus clientes en cualquier ubicación (entre nubes y regiones) y minimizar los costosos cargos de salida de datos de los proveedores de la nube.
Antes de adoptar la solución conjunta de Delta Sharing con Cloudflare R2, Allium había implementado otras plataformas, pero descubrió que eran prohibitivamente costosas, con costos estimados que alcanzaban los $53,800 mensuales para una salida de datos de 1 petabyte, lo que sumaba aproximadamente $645,000 anuales.
“Al principio aprovechamos el sistema de replicación de Snowflake, pero carecía de control y era costoso. En Snowflake, ofrecer datos a diferentes regiones requiere que los repliquemos en esa región, por lo que automáticamente incurre en muchos costos de almacenamiento, así como en algunos costos de salida de datos. Este gasto aumenta exponencialmente para cualquier cambio de esquema operativo, lo que ocurre con frecuencia a nuestra escala”, explica Ethan Chan, cofundador y CEO de Allium.
"En Snowflake, ofrecer datos a diferentes regiones requiere que los repliquemos en esa región, por lo que automáticamente incurre en muchos costos de almacenamiento, así como en algunos costos de salida de datos. Este gasto aumenta exponencialmente para cualquier cambio de esquema operativo, lo que ocurre con frecuencia a nuestra escala". — Ethan Chan, cofundador y CEO de Allium
La combinación de Delta Sharing con Cloudflare R2 ha proporcionado a Allium una solución de intercambio de datos segura y rentable, sin necesidad de replicaciones costosas y complejas ni de dependencia de un proveedor. Allium ahora tiene el control de dónde mueve y usa sus datos gracias al soporte multicloud de Delta Sharing, y ha consolidado su almacenamiento en la nube con Cloudflare R2 para crear su plataforma de intercambio de datos de próxima generación.
Chan explica: "La combinación de Delta Sharing y Cloudflare R2 nos permite entregar datos a nuestros clientes de manera confiable y rentable. Entregamos datos de blockchain de la más alta calidad a nuestros clientes en su entorno preferido, al tiempo que minimizamos nuestros costos de almacenamiento y salida de datos, ahorrando hasta $645,000 al año. Además, esto nos brinda el control y la seguridad necesarios para escalar nuestras ofertas de manera sostenible".
Allium utiliza esta integración para maximizar sus ahorros de costos (ver el diagrama a continuación) al persistir los datos de blockchain utilizando Delta UniForm (formato universal de Delta Lake), una forma fluida de unificar formatos de tabla Parquet sin crear copias adicionales. Allium habilita conectores de Apache Iceberg y Delta que leen los datos almacenados en Cloudflare R2. También implementan Delta Sharing para compartir sus datos de manera fluida y segura entre regiones y plataformas, todo con cero costos de salida para transferencias salientes.
"La combinación de Delta Sharing y Cloudflare R2 nos permite entregar datos a nuestros clientes de manera confiable y rentable. Entregamos datos de blockchain de la más alta calidad a nuestros clientes en su entorno preferido, al tiempo que minimizamos nuestros costos de almacenamiento y salida de datos, ahorrando hasta $645,000 al año". — Ethan Chan, cofundador y CEO de Allium

Allium también expandió recientemente su línea de productos para compartir sus Ethereum Realtime Data, ahora disponibles en el Databricks Marketplace. Este conjunto de datos ayuda a los usuarios del espacio de las criptomonedas a compartir información valiosa sobre la dinámica de Ethereum. Disponible para su compra, incluye varios detalles sobre la blockchain de Ethereum, como contratos inteligentes, mercados de NFT y finanzas descentralizadas (DeFi), y más.
Otro ejemplo de un tipo de cliente que puede beneficiarse del uso de Delta Sharing y Cloudflare R2 es un agregador de datos que utiliza un patrón arquitectónico común de tipo "hub and spoke" (centro y radios). Un agregador de datos se especializa en recopilar y fusionar datos de diversas fuentes en un conjunto de datos unificado y cohesivo. Un escenario de intercambio de datos "hub and spoke" se define como uno a muchos, donde una organización comparte con muchos clientes. Estos agregadores de datos se especializan en recopilar, fusionar y compartir conjuntos de datos con varios clientes en diferentes regiones, nubes y plataformas. Sin embargo, estas organizaciones se enfrentan a un desafío común: cómo escalar el intercambio de datos de manera rentable y predecible. Lo ideal es que puedan beneficiarse de las economías de escala, de modo que a medida que aumenta su número de clientes, el costo de compartir solo aumente de forma marginal. Además, no quieren depender de que sus clientes adopten la replicación de datos para ahorrar costos, sino tener el control exclusivo de la gestión de los costos con un enfoque predecible.
Las industrias que suelen utilizar agregadores de datos incluyen los servicios financieros, el sector de la salud y las ciencias de la vida, y los medios de comunicación y el entretenimiento. Compartir datos ayuda a impulsar necesidades comerciales críticas, como la toma de decisiones, el análisis de mercado, la investigación y el soporte de las operaciones comerciales generales. Por ejemplo, los agregadores de datos desempeñan un papel crucial en el funcionamiento de diversas aplicaciones y servicios financieros, como aplicaciones de presupuesto, plataformas de inversión, soluciones de préstamo y más, al acceder y analizar de forma segura la información financiera de los usuarios. Consulte la siguiente tabla para conocer algunos casos de uso específicos de la industria.
| Industria | Caso de uso del agregador de datos | Detalles del caso de uso |
|---|---|---|
| Medios de comunicación y entretenimiento | Archivado de contenido | Los agregadores se pueden utilizar para archivar contenido de forma sistemática, lo que facilita que las empresas de medios compartan su contenido con socios y clientes para acceder a su contenido histórico y adaptarlo a nuevas audiencias o plataformas. |
| Servicios financieros | Evaluación de riesgo y calificación crediticia | Los agregadores de datos brindan información sobre el comportamiento financiero de los usuarios, como patrones de gasto, niveles de ingresos y obligaciones de deuda. Esta información se comparte y puede ser utilizada por prestamistas e instituciones financieras para evaluar el riesgo crediticio y ayudarlos a tomar decisiones de préstamo basadas en las calificaciones crediticias generales. |
| Salud y ciencias de la vida | Efectividad comercial | Los agregadores de datos de salud pueden proporcionar datos de recetas clínicas a hospitales, proveedores de atención médica, empresas farmacéuticas e instituciones de investigación para su análisis y uso de muchas formas diferentes. Esto podría incluir la identificación de nuevos mercados en los que ingresar, la medición de la dinámica de los canales de ventas o los patrones de compra en farmacias minoristas u hospitales. |
Los costos de salida de la nube (egress) generalmente aumentan de manera proporcional con el volumen de datos consultados desde el recurso compartido de datos. El siguiente diagrama muestra que a medida que aumenta el número de consultas (y el volumen de datos), también lo hace el costo de salida. Los clientes pueden utilizar este enfoque para comparar diferentes soluciones de almacenamiento y cuantificar la relación costo-beneficio de usar la solución de Cloudflare R2, que no introduce ningún costo de salida. Como destaca el siguiente diagrama, la solución de Cloudflare R2 puede generar ahorros significativos en comparación con otras soluciones de almacenamiento en la nube.
Por ejemplo, según los supuestos de precios estándar, el siguiente análisis indica que los activos de datos cuyas actividades de transferencia de datos superan el 26% entre diferentes nubes o el 85% entre regiones de forma mensual pueden beneficiarse de ahorros mensuales significativos tanto en los costos de almacenamiento como en los de salida.1

Delta Sharing y Cloudflare R2 ya están disponibles en vista previa pública (Public Preview). Para implementar la solución conjunta, no tiene que migrar todos sus datos a Cloudflare R2 (consulte el blog relacionado, Architecting Global Data Collaboration with Delta Sharing). Solo necesita replicar los datos compartidos una vez en R2, en tres sencillos pasos (consulte el siguiente diagrama):

Consulte la documentación técnica para obtener más detalles. También puede enviar sus comentarios a nuestro equipo a datacollaboration@databricks.com.
Al utilizar Delta Sharing con Cloudflare R2, ahora puede beneficiarse de un nuevo enfoque para compartir datos e AI en diferentes plataformas, nubes y regiones, con cero costos de salida, sin dependencia de un proveedor y sin comprometer la seguridad y la gobernanza.
Obtenga más información sobre cómo integrar Delta Sharing en su estrategia de colaboración de datos con los recursos más recientes:
1 El cálculo del ahorro de costos se basó en el supuesto de que el 10% de los datos se actualiza mensualmente y los datos se replican en Cloudflare R2 con fines de intercambio, manteniendo la copia original en S3.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.