Permita a su organización escalar al compartir datos de manera segura y eficiente entre nubes, plataformas y regiones
por Matei Zaharia, Bilal Obeidat, Tianyi Huang y Giselle Goicochea
Delta Sharing ha evolucionado a OpenSharing, el primer protocolo abierto y neutral con respecto al proveedor para compartir de forma segura activos de IA, incluidos Agent Skills, modelos de IA y datos no estructurados. Lee el anuncio.
En el panorama digital interconectado de hoy, el intercambio de datos y la colaboración entre organizaciones y plataformas son cruciales para las operaciones comerciales modernas. Delta Sharing, un innovador protocolo abierto de intercambio de datos, permite a las organizaciones compartir y acceder a datos de forma segura en diversas plataformas, priorizando la seguridad y la escalabilidad sin las limitaciones de un proveedor o formato de datos específico.
Este blog está dedicado a presentar las opciones de replicación de datos dentro de Delta Sharing mediante la exploración de guías de arquitectura adaptadas a escenarios específicos de intercambio de datos. Basándonos en nuestra experiencia con muchos clientes de Delta Sharing, nuestro objetivo es reducir los costos de salida de datos (egress) y mejorar el rendimiento al proporcionar alternativas específicas de replicación de datos. Aunque el intercambio en tiempo real (live sharing) sigue siendo adecuado para muchos escenarios de intercambio de datos entre regiones, existen casos en los que replicar todo el conjunto de datos y establecer un proceso de actualización de datos para las réplicas regionales locales resulta más rentable. Delta Sharing facilita esto mediante el uso del almacenamiento Cloudflare R2, Change Data Feed (CDF) Delta Sharing y las funcionalidades de Delta Deep Cloning. Como resultado de estas capacidades, Delta Sharing es muy valorado por los clientes por empoderar a los usuarios y brindar una flexibilidad excepcional para satisfacer sus necesidades de intercambio de datos.
Databricks y la Linux Foundation desarrollaron Delta Sharing para proporcionar el primer enfoque de código abierto para el intercambio de datos en datos, analítica e IA. Los clientes pueden compartir datos en tiempo real entre plataformas, nubes y regiones con una sólida seguridad y gobernanza. Ya sea que utilices el proyecto de código abierto mediante alojamiento propio o el servicio totalmente administrado de Delta Sharing en Databricks, ambos ofrecen una solución flexible, rentable e independiente de la plataforma para la entrega global de datos. Los clientes de Databricks reciben beneficios adicionales dentro de un entorno administrado que minimiza la sobrecarga administrativa y se integra de forma nativa con Databricks Unity Catalog. Esta integración ofrece una experiencia optimizada para el intercambio de datos dentro y fuera de las organizaciones.
Delta Sharing en Databricks ha experimentado una adopción generalizada en diversos escenarios de colaboración desde su disponibilidad general en agosto de 2022.
En este blog, exploraremos dos patrones de arquitectura comunes en los que Delta Sharing ha desempeñado un papel fundamental para habilitar y mejorar escenarios comerciales críticos:
Como parte de este blog, también demostraremos que la arquitectura de implementación de Delta Sharing es flexible y se puede ampliar sin problemas para cumplir con nuevos requisitos de intercambio de datos.
En este caso de uso, ilustraremos un patrón de implementación común de Delta Sharing entre nuestros clientes cuando existe la necesidad comercial de compartir algunos de los datos entre regiones, como tener un equipo de QA en regiones separadas o un equipo de informes interesado en los datos de actividad comercial a nivel global. Por lo general, compartir tablas dentro de la empresa implica:
En este escenario, tanto la unidad de negocio del proveedor de datos como la del destinatario comparten la misma cuenta de Unity Catalog, pero tienen diferentes metastores en Databricks.

El diagrama anterior ilustra una arquitectura de alto nivel de la solución Delta Sharing, destacando los pasos clave en el proceso de Delta Sharing:
Esta opción requiere compartir el historial de la tabla y habilitar el Change Data Feed (CDF), que debe habilitarse explícitamente en el código de configuración estableciendo la propiedad de la tabla delta.enableChangeDataFeed = true mediante los comandos Create/Alter table.
Además, al agregar la tabla al recurso compartido (Share), asegúrate de que se agregue con la opción CDF, como se muestra en el ejemplo siguiente.
Una vez que se agregan o actualizan los datos, se puede acceder a los cambios como en este ejemplo
En el lado del destinatario, se puede acceder a los cambios y fusionarlos en una copia local de los datos de manera similar a como se muestra en este notebook. La propagación de los cambios desde la tabla compartida a una réplica local se puede orquestar mediante un trabajo de flujo de trabajo (workflow job) de Databricks.
R2 es una excelente opción para todos los escenarios de Delta Sharing porque los clientes pueden aprovechar al máximo el potencial de compartir sin preocuparse por cargos de salida de datos (egress) impredecibles. Esto se analiza en detalle más adelante en este blog.
Otra opción de caso especial para el intercambio dentro de la empresa es utilizar Delta Deep Clone cuando se comparte dentro de la misma cuenta de nube de Databricks. El clonado profundo (Deep Cloning) es una funcionalidad de Delta que copia tanto los datos de la tabla de origen como los metadatos de la tabla existente en el destino del clon. Además, el comando de clonado profundo tiene la capacidad de identificar nuevos datos y actualizarlos en consecuencia. Aquí está la sintaxis:
El comando anterior se ejecuta en el lado del destinatario, donde source_table_name es la tabla compartida y table_name es la copia local de los datos a la que pueden acceder los usuarios.
Se puede programar un trabajo simple de Databricks Workflows para una actualización incremental de los datos con las actualizaciones recientes utilizando el siguiente comando:
El mismo caso de uso se puede ampliar fácilmente para compartir datos con socios y clientes externos en la plataforma de Databricks o en cualquier otra plataforma. Este es otro patrón extendido común en el que los socios y clientes externos, que no utilizan Databricks, desean acceder a estos datos a través de Excel, Power BI, Pandas y otros softwares compatibles como Oracle.
Otro patrón de escenario común surge cuando una empresa se enfoca en compartir datos con clientes, particularmente en casos que involucran empresas agregadoras de datos o cuando la función comercial principal es recopilar datos en nombre de los clientes. Un agregador de datos, como entidad, se especializa en recopilar y fusionar datos de diversas fuentes en un conjunto de datos unificado y cohesivo. Estos recursos compartidos de datos son fundamentales para atender diversas necesidades comerciales, como la toma de decisiones empresariales, el análisis de mercado, la investigación y el respaldo de las operaciones comerciales generales.
El modelo de intercambio de datos en este patrón hace lo siguiente:
En general, esto se puede lograr si el proveedor establece un espacio de trabajo de Databricks en cada nube y replica los datos mediante CDF en una tabla compartida (como se analizó anteriormente) en las tres nubes para mejorar el rendimiento y reducir los costos de salida de datos. Luego, dentro de cada región de la nube, los datos se pueden compartir con los clientes y socios correspondientes.
Sin embargo, se puede emplear un enfoque nuevo, más eficiente y directo utilizando R2 a través de Cloudflare con Databricks, actualmente en vista previa privada.
La integración de Cloudflare R2 con Databricks permitirá a las organizaciones compartir datos en vivo y colaborar con ellos de manera segura, sencilla y económica. Con Cloudflare y Databricks, los clientes conjuntos pueden eliminar la complejidad y los costos dinámicos que obstaculizan el pleno potencial de las iniciativas de IA y analítica multinube. Específicamente, no habrá tarifas de salida de datos ni necesidad de transferencias de datos complejas o costosas replicaciones de conjuntos de datos entre regiones.
El uso de esta opción requiere los siguientes pasos:
Como se explicó anteriormente, estos enfoques demuestran varios métodos de replicación de datos bajo demanda, cada uno con sus ventajas distintivas y requisitos específicos, lo que los hace adecuados para diversos casos de uso.

Los tres mecanismos anteriores permiten a los usuarios de Delta Sharing crear una copia local para minimizar las tarifas de salida de datos, especialmente entre nubes y regiones. La siguiente tabla proporciona un resumen rápido para diferenciar estas opciones.
| Herramienta de replicación de datos | Aspectos clave | Recomendación |
|---|---|---|
| Change data feed en una tabla compartida |
| Usar para el intercambio externo con socios/clientes entre regiones |
| Cloudflare R2 con Databricks |
| Muy recomendado para Delta Sharing a gran escala en términos de cantidad de recursos compartidos y más de 2 regiones |
| Delta Deep Clone |
| Recomendado al compartir internamente entre regiones |
Delta Sharing es abierto, flexible y rentable, y en Databricks admite una amplia gama de activos de datos, incluidos notebooks, volúmenes y modelos de IA. Además, varias optimizaciones han mejorado significativamente el rendimiento de los protocolos de Delta Sharing. La inversión continua de Databricks en las capacidades de Delta Sharing, que incluye un monitoreo mejorado, escalabilidad, facilidad de uso y observabilidad, subraya su compromiso de mejorar la experiencia del usuario y garantizar que Delta Sharing se mantenga a la vanguardia de la colaboración de datos en el futuro.
A lo largo de este blog, hemos brindado orientación arquitectónica basada en nuestra experiencia con muchos clientes de Delta Sharing. Nuestro enfoque principal está en la gestión de costos y el rendimiento. Si bien el intercambio en vivo es adecuado para muchos escenarios de intercambio de datos entre regiones, hemos explorado casos en los que replicar todo el conjunto de datos y establecer un proceso de actualización de datos para las réplicas regionales locales resulta más rentable. Delta Sharing facilita esto mediante el uso de las funcionalidades de Delta Sharing de R2 y CDF, lo que brinda a los usuarios una mayor flexibilidad.
En el caso de uso de intercambio de datos interregional dentro de la empresa, Delta Sharing se destaca al compartir tablas grandes con patrones de acceso variados. La replicación local, facilitada por el intercambio de CDF, garantiza un rendimiento y una gestión de costos óptimos. Además, R2 a través de Cloudflare con Databricks ofrece una opción eficiente para Delta Sharing a gran escala en múltiples regiones y nubes.
Para obtener más información sobre cómo integrar Delta Sharing en su estrategia de colaboración de datos, consulte los recursos más recientes:
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.