Ir al contenido principal
Anuncios

Presentamos Delta Sharing: un protocolo abierto para compartir datos de forma segura

por Matei Zaharia, Michael Armbrust, Steve Weis, Todd Greenstein y Cyrielle Simeone

Delta Sharing ha evolucionado a OpenSharing, el primer protocolo abierto y neutral con respecto al proveedor para compartir de forma segura activos de IA, incluidos Agent Skills, modelos de IA y datos no estructurados. Lea el anuncio.

Actualización: Delta Sharing ya está disponible de forma general en AWS y Azure.

Obtenga un avance exclusivo del nuevo libro electrónico de O'Reilly para obtener la guía paso a paso que necesita para comenzar a usar Delta Lake.

El intercambio de datos se ha vuelto fundamental en la economía moderna, ya que las empresas buscan intercambiar datos de forma segura con sus clientes, proveedores y socios. Por ejemplo, un minorista puede querer publicar datos de ventas para sus proveedores en tiempo real, o un proveedor puede querer compartir el inventario en tiempo real. Pero hasta ahora, el intercambio de datos se ha visto gravemente limitado porque las soluciones de intercambio están vinculadas a un solo proveedor. Esto genera fricción tanto para los proveedores como para los consumidores de datos, quienes naturalmente utilizan diferentes plataformas.

Hoy lanzamos un nuevo proyecto de código abierto que simplifica el intercambio entre organizaciones: Delta Sharing, un protocolo abierto para el intercambio seguro en tiempo real de grandes conjuntos de datos, que permite el intercambio seguro de datos entre productos por primera vez. Estamos desarrollando Delta Sharing con socios de los principales proveedores de software y datos del mundo.

Para ver por qué las soluciones de intercambio de datos actuales generan fricción, piense en un minorista que desea compartir datos con un analista de uno de sus proveedores. Hoy en día, el minorista podría usar uno de los varios almacenes de datos en la nube que ofrecen intercambio de datos, pero luego el analista tendría que trabajar con sus equipos de IT, seguridad y compras para implementar el mismo producto de almacén de datos en su empresa, un proceso que puede llevar meses. Además, una vez implementado el almacén de datos, lo primero que haría el analista sería exportar los datos a su herramienta de ciencia de datos favorita, como pandas o Tableau.

Con Delta Sharing, los usuarios de datos pueden conectarse directamente a los datos compartidos a través de pandas, Tableau o docenas de otros sistemas que implementan el protocolo abierto, sin tener que implementar primero una plataforma específica. Esto reduce su tiempo de acceso de meses a minutos y reduce enormemente el trabajo de los proveedores de datos que desean llegar a la mayor cantidad de usuarios posible.

Estamos trabajando con un ecosistema dinámico de socios en Delta Sharing, incluidos los equipos de productos de los principales proveedores de nube, BI y datos:

 Ecosistema de Delta Sharing - Apache Spark, Pandas, Presto, Trino, Rust, Hive, Tableau, Power BI, Qlik, Looker, Databricks, Microsoft Azure, Google BigQuery, Starburst, Dremio, AtScale, Immuta, Privacera, Alation, Collibra, Nasdaq, S&P, ICE, NYSE, AWS, FactSet, Precisely, Atlassian, Foursquare, Sequence Bio

Ecosistema de Delta Sharing

En esta publicación, explicaremos cómo funciona Delta Sharing y por qué nos entusiasma tanto un enfoque abierto para el intercambio de datos.

Objetivos de Delta Sharing

Delta Sharing está diseñado para que tanto los proveedores como los consumidores puedan usarlo fácilmente con sus datos y flujos de trabajo existentes. Lo diseñamos con cuatro objetivos en mente:

  • Compartir datos en vivo directamente sin copiarlos: Queremos facilitar el intercambio de datos existentes en tiempo real. Hoy en día, la mayoría de los datos empresariales se almacenan en sistemas de lago de datos (data lake) y lakehouse en la nube. Delta Sharing funciona sobre estos; en particular, le permite compartir de forma segura cualquier conjunto de datos existente en los formatos Delta Lake o Apache Parquet.
  • Admitir una amplia gama de clientes: Los destinatarios deberían poder consumir datos directamente desde las herramientas de su elección sin tener que instalar una nueva plataforma. El protocolo Delta Sharing está diseñado para que las herramientas lo admitan directamente de forma sencilla. Se basa en Parquet, que la mayoría de las herramientas ya admiten, por lo que implementar un conector para este es fácil.
  • Sólida seguridad, auditoría y gobernanza: El protocolo está diseñado para ayudarle a cumplir con los requisitos de privacidad y cumplimiento. Delta Sharing le permite otorgar, rastrear y auditar el acceso a los datos compartidos desde un único punto de control.
  • Escalar a conjuntos de datos masivos: El intercambio de datos necesita cada vez más admitir conjuntos de datos a escala de terabytes, como datos industriales o financieros detallados, lo que representa un desafío para las soluciones heredadas. Delta Sharing aprovecha el costo y la elasticidad de los sistemas de almacenamiento en la nube para compartir conjuntos de datos masivos de manera económica y confiable.

¿Cómo funciona Delta Sharing?

Delta Sharing es un protocolo REST simple que comparte de forma segura el acceso a parte de un conjunto de datos en la nube. Aprovecha los sistemas modernos de almacenamiento en la nube, como S3, ADLS o GCS, para transferir de manera confiable grandes conjuntos de datos. Hay dos partes involucradas: los proveedores de datos y los destinatarios.

Como proveedor de datos, Delta Sharing le permite compartir tablas existentes o partes de ellas (por ejemplo, versiones de tablas específicas o particiones) almacenadas en su lago de datos en la nube en formato Delta Lake. Una tabla de Delta Lake es esencialmente una colección de archivos Parquet, y es fácil envolver las tablas Parquet existentes en Delta Lake si es necesario. El proveedor de datos decide qué datos desea compartir y ejecuta un servidor de intercambio frente a ellos que implementa el protocolo Delta Sharing y gestiona el acceso de los destinatarios. Hemos lanzado como código abierto un servidor de intercambio de referencia; y ofrecemos uno alojado en Databricks, tal como imaginamos que harán otros proveedores.

Como destinatario de datos, todo lo que necesita es uno de los muchos clientes de Delta Sharing que admiten el protocolo. Hemos lanzado conectores de código abierto para pandas, Apache Spark, Rust y Python, y estamos trabajando con socios en muchos más.

Delta Sharing es un protocolo REST simple que comparte de forma segura el acceso a parte de un conjunto de datos en la nube. Aprovecha los sistemas modernos de almacenamiento en la nube, como S3, ADLS o GCS, para transferir de manera confiable grandes conjuntos de datos.

El intercambio real está cuidadosamente diseñado para ser eficiente al aprovechar la funcionalidad de los sistemas de almacenamiento en la nube y Delta Lake. El protocolo funciona de la siguiente manera:

  1. El cliente del destinatario se autentica en el servidor de intercambio (a través de un token de portador u otro método) y solicita consultar una tabla específica. El cliente también puede proporcionar filtros sobre los datos (por ejemplo, “country=US”) como una sugerencia para leer solo un subconjunto de los datos.
  2. El servidor verifica si el cliente tiene permiso para acceder a los datos, registra la solicitud y luego determina qué datos enviar de vuelta. Este será un subconjunto de los objetos de datos en S3 u otros sistemas de almacenamiento en la nube que realmente componen la tabla.
  3. Para transferir los datos, el servidor genera URL prefirmadas de corta duración que permiten al cliente leer estos archivos Parquet directamente desde el proveedor de la nube, de modo que la transferencia pueda realizarse en paralelo con un ancho de banda masivo, sin pasar por el servidor de intercambio. Esta potente función disponible en todas las principales nubes hace que compartir conjuntos de datos muy grandes sea rápido, económico y confiable.

Beneficios del diseño

El diseño de Delta Sharing ofrece muchos beneficios tanto para los proveedores como para los consumidores:

  • Los proveedores de datos pueden compartir fácilmente una tabla completa, o solo una versión o partición de la tabla, porque a los clientes solo se les otorga acceso a un subconjunto específico de los objetos que contiene.
  • Los proveedores de datos pueden actualizar los datos de manera confiable en tiempo real utilizando las transacciones ACID en Delta Lake, y los destinatarios siempre verán una vista consistente.
  • Los destinatarios de datos no necesitan estar en la misma plataforma que el proveedor, ni siquiera en la nube; el intercambio funciona entre nubes e incluso desde la nube para usuarios locales.
  • El protocolo Delta Sharing es muy fácil de implementar para los clientes si ya entienden Parquet. La mayoría de nuestras implementaciones de prototipos con motores de código abierto y herramientas de BI solo tardaron de 1 a 2 semanas en construirse.
  • La transferencia es rápida, económica, confiable y paralelizable utilizando el sistema en la nube subyacente.

Un ecosistema abierto

Como se mencionó anteriormente, nos entusiasma establecer un enfoque abierto para compartir datos. Los proveedores de datos, como Nasdaq, nos han dicho de manera unánime que es demasiado difícil entregar datos a diversos consumidores, ya que todos ellos utilizan diferentes herramientas de análisis.

"Apoyamos Delta Sharing y su visión de un protocolo abierto que simplificará el intercambio seguro de datos y la colaboración entre organizaciones. Delta Sharing mejorará la forma en que trabajamos con nuestros socios, reducirá los costos operativos y permitirá que más usuarios accedan a una gama completa del conjunto de datos de Nasdaq para descubrir información y desarrollar estrategias financieras”, afirmó Bill Dague, director de Datos Alternativos de Nasdaq.

Con Delta Sharing, decenas de sistemas populares podrán conectarse directamente a los datos compartidos para que cualquier usuario pueda utilizarlos, lo que reduce la fricción para todos los participantes. Estamos trabajando con decenas de socios para definir el estándar de Delta Sharing, y te invitamos a participar.
Muchas de estas empresas expresaron su apoyo al lanzamiento de hoy:

Herramientas de BI: Tableau, Qlik, Power BI, Looker
Analítica: AtScale, Dremio, Starburst, Microsoft Azure, Google BigQuery
Gobernanza: Collibra, Immuta, Alation, Privacera
Proveedores de datos: FactSet, Nasdaq, Precisely, Safegraph, Atlassian, AWS, Foursquare, ICE, Qandl, S&P, SequenceBio

Delta Sharing en Databricks

Los clientes de Databricks tendrán una integración nativa de Delta Sharing en nuestro Unity Catalog, lo que proporcionará una experiencia optimizada para compartir datos tanto dentro como fuera de las organizaciones. Los administradores podrán gestionar los datos compartidos mediante una nueva sintaxis SQL CREATE SHARE o API REST y auditar todos los accesos de forma centralizada. Los destinatarios podrán consumir los datos desde cualquier plataforma. Regístrate para unirte a nuestra lista de espera para obtener acceso a la versión preliminar y actualizaciones.

Hoja de ruta para el protocolo Delta Sharing en Databricks

Hoja de ruta

Esta primera versión de Delta Sharing es solo el comienzo. A medida que desarrollemos el proyecto, planeamos extenderlo para compartir otros objetos, como flujos de datos, vistas SQL o archivos arbitrarios como modelos de aprendizaje automático. Creemos que el futuro del intercambio de datos es abierto y nos entusiasma llevar este enfoque a otros flujos de trabajo de intercambio.

Primeros pasos con Delta Sharing

Para probar la versión de código abierto de Delta Sharing, sigue las instrucciones en delta.io/sharing. O, si eres cliente de Databricks, regístrate para recibir actualizaciones sobre nuestro servicio. ¡Nos entusiasma mucho conocer tus comentarios!

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.