por Matei Zaharia, Michael Armbrust, Steve Weis, Todd Greenstein y Cyrielle Simeone
Delta Sharing ha evolucionado a OpenSharing, el primer protocolo abierto y neutral con respecto al proveedor para compartir de forma segura activos de IA, incluidos Agent Skills, modelos de IA y datos no estructurados. Lea el anuncio.
Actualización: Delta Sharing ya está disponible de forma general en AWS y Azure.
Obtenga un avance exclusivo del nuevo libro electrónico de O'Reilly para obtener la guía paso a paso que necesita para comenzar a usar Delta Lake.
El intercambio de datos se ha vuelto fundamental en la economía moderna, ya que las empresas buscan intercambiar datos de forma segura con sus clientes, proveedores y socios. Por ejemplo, un minorista puede querer publicar datos de ventas para sus proveedores en tiempo real, o un proveedor puede querer compartir el inventario en tiempo real. Pero hasta ahora, el intercambio de datos se ha visto gravemente limitado porque las soluciones de intercambio están vinculadas a un solo proveedor. Esto genera fricción tanto para los proveedores como para los consumidores de datos, quienes naturalmente utilizan diferentes plataformas.
Hoy lanzamos un nuevo proyecto de código abierto que simplifica el intercambio entre organizaciones: Delta Sharing, un protocolo abierto para el intercambio seguro en tiempo real de grandes conjuntos de datos, que permite el intercambio seguro de datos entre productos por primera vez. Estamos desarrollando Delta Sharing con socios de los principales proveedores de software y datos del mundo.
Para ver por qué las soluciones de intercambio de datos actuales generan fricción, piense en un minorista que desea compartir datos con un analista de uno de sus proveedores. Hoy en día, el minorista podría usar uno de los varios almacenes de datos en la nube que ofrecen intercambio de datos, pero luego el analista tendría que trabajar con sus equipos de IT, seguridad y compras para implementar el mismo producto de almacén de datos en su empresa, un proceso que puede llevar meses. Además, una vez implementado el almacén de datos, lo primero que haría el analista sería exportar los datos a su herramienta de ciencia de datos favorita, como pandas o Tableau.
Con Delta Sharing, los usuarios de datos pueden conectarse directamente a los datos compartidos a través de pandas, Tableau o docenas de otros sistemas que implementan el protocolo abierto, sin tener que implementar primero una plataforma específica. Esto reduce su tiempo de acceso de meses a minutos y reduce enormemente el trabajo de los proveedores de datos que desean llegar a la mayor cantidad de usuarios posible.
Estamos trabajando con un ecosistema dinámico de socios en Delta Sharing, incluidos los equipos de productos de los principales proveedores de nube, BI y datos:

Ecosistema de Delta Sharing
En esta publicación, explicaremos cómo funciona Delta Sharing y por qué nos entusiasma tanto un enfoque abierto para el intercambio de datos.
Delta Sharing está diseñado para que tanto los proveedores como los consumidores puedan usarlo fácilmente con sus datos y flujos de trabajo existentes. Lo diseñamos con cuatro objetivos en mente:
Delta Sharing es un protocolo REST simple que comparte de forma segura el acceso a parte de un conjunto de datos en la nube. Aprovecha los sistemas modernos de almacenamiento en la nube, como S3, ADLS o GCS, para transferir de manera confiable grandes conjuntos de datos. Hay dos partes involucradas: los proveedores de datos y los destinatarios.
Como proveedor de datos, Delta Sharing le permite compartir tablas existentes o partes de ellas (por ejemplo, versiones de tablas específicas o particiones) almacenadas en su lago de datos en la nube en formato Delta Lake. Una tabla de Delta Lake es esencialmente una colección de archivos Parquet, y es fácil envolver las tablas Parquet existentes en Delta Lake si es necesario. El proveedor de datos decide qué datos desea compartir y ejecuta un servidor de intercambio frente a ellos que implementa el protocolo Delta Sharing y gestiona el acceso de los destinatarios. Hemos lanzado como código abierto un servidor de intercambio de referencia; y ofrecemos uno alojado en Databricks, tal como imaginamos que harán otros proveedores.
Como destinatario de datos, todo lo que necesita es uno de los muchos clientes de Delta Sharing que admiten el protocolo. Hemos lanzado conectores de código abierto para pandas, Apache Spark, Rust y Python, y estamos trabajando con socios en muchos más.

El intercambio real está cuidadosamente diseñado para ser eficiente al aprovechar la funcionalidad de los sistemas de almacenamiento en la nube y Delta Lake. El protocolo funciona de la siguiente manera:
El diseño de Delta Sharing ofrece muchos beneficios tanto para los proveedores como para los consumidores:
Como se mencionó anteriormente, nos entusiasma establecer un enfoque abierto para compartir datos. Los proveedores de datos, como Nasdaq, nos han dicho de manera unánime que es demasiado difícil entregar datos a diversos consumidores, ya que todos ellos utilizan diferentes herramientas de análisis.
"Apoyamos Delta Sharing y su visión de un protocolo abierto que simplificará el intercambio seguro de datos y la colaboración entre organizaciones. Delta Sharing mejorará la forma en que trabajamos con nuestros socios, reducirá los costos operativos y permitirá que más usuarios accedan a una gama completa del conjunto de datos de Nasdaq para descubrir información y desarrollar estrategias financieras”, afirmó Bill Dague, director de Datos Alternativos de Nasdaq.
Con Delta Sharing, decenas de sistemas populares podrán conectarse directamente a los datos compartidos para que cualquier usuario pueda utilizarlos, lo que reduce la fricción para todos los participantes. Estamos trabajando con decenas de socios para definir el estándar de Delta Sharing, y te invitamos a participar.
Muchas de estas empresas expresaron su apoyo al lanzamiento de hoy:
Herramientas de BI: Tableau, Qlik, Power BI, Looker
Analítica: AtScale, Dremio, Starburst, Microsoft Azure, Google BigQuery
Gobernanza: Collibra, Immuta, Alation, Privacera
Proveedores de datos: FactSet, Nasdaq, Precisely, Safegraph, Atlassian, AWS, Foursquare, ICE, Qandl, S&P, SequenceBio
Los clientes de Databricks tendrán una integración nativa de Delta Sharing en nuestro Unity Catalog, lo que proporcionará una experiencia optimizada para compartir datos tanto dentro como fuera de las organizaciones. Los administradores podrán gestionar los datos compartidos mediante una nueva sintaxis SQL CREATE SHARE o API REST y auditar todos los accesos de forma centralizada. Los destinatarios podrán consumir los datos desde cualquier plataforma. Regístrate para unirte a nuestra lista de espera para obtener acceso a la versión preliminar y actualizaciones.

Esta primera versión de Delta Sharing es solo el comienzo. A medida que desarrollemos el proyecto, planeamos extenderlo para compartir otros objetos, como flujos de datos, vistas SQL o archivos arbitrarios como modelos de aprendizaje automático. Creemos que el futuro del intercambio de datos es abierto y nos entusiasma llevar este enfoque a otros flujos de trabajo de intercambio.
Para probar la versión de código abierto de Delta Sharing, sigue las instrucciones en delta.io/sharing. O, si eres cliente de Databricks, regístrate para recibir actualizaciones sobre nuestro servicio. ¡Nos entusiasma mucho conocer tus comentarios!
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.