Ir al contenido principal

Presentamos Delta Sharing: un protocolo abierto para compartir datos de forma segura

Delta-Sharing-Social

Actualización: Delta Sharing ya está disponible de forma general en AWS y Azure.

Obtén un adelanto del nuevo ebook de O'Reilly con la guía paso a paso que necesitas para empezar a usar Delta Lake.

 

El intercambio de datos se ha vuelto fundamental en la economía moderna, ya que las empresas buscan intercambiar datos de forma segura con sus clientes, proveedores y socios. Por ejemplo, un minorista puede querer publicar datos de ventas a sus proveedores en tiempo real, o un proveedor puede querer compartir el inventario en tiempo real. Pero hasta ahora, el intercambio de datos se ha visto gravemente limitado porque las soluciones para compartir están vinculadas a un único proveedor. Esto crea fricción tanto para los proveedores como para los consumidores de datos, que naturalmente utilizan diferentes plataformas.

Hoy, lanzamos un nuevo proyecto de código abierto que simplifica el intercambio entre organizaciones: Delta Sharing, un protocolo abierto para el intercambio seguro y en tiempo real de grandes conjuntos de datos, que permite el intercambio seguro de datos entre productos por primera vez. Estamos desarrollando Delta Sharing con socios de los principales proveedores de software y datos del mundo.

Para entender por qué las soluciones actuales para compartir datos generan fricción, piense en un minorista que quiere compartir datos con un analista de uno de sus proveedores. Hoy, el minorista podría usar uno de varios data warehouses en la nube que ofrecen intercambio de datos, pero luego el analista tendría que trabajar con sus equipos de TI, seguridad y adquisiciones para implementar el mismo producto de data warehouse en su empresa, un proceso que puede tardar meses. Además, una vez que se implementa el data warehouse, lo primero que haría el analista es exportar los datos a su herramienta de ciencia de datos favorita, como pandas o Tableau.

Con Delta Sharing, los usuarios de datos pueden conectarse directamente a los datos compartidos a través de pandas, Tableau o docenas de otros sistemas que implementan el protocolo abierto, sin tener que implementar primero una plataforma específica. Esto reduce su tiempo de acceso de meses a minutos y disminuye enormemente el trabajo para los proveedores de datos que quieren llegar a la mayor cantidad de usuarios posible.

Estamos trabajando con un ecosistema vibrante de socios en Delta Sharing, que incluye a los equipos de producto de los principales proveedores de nube, BI y datos:

 Ecosistema de Delta Sharing

En esta publicación, explicaremos cómo funciona Delta Sharing y por qué estamos tan entusiasmados con un enfoque abierto para el intercambio de datos.

Objetivos de Delta Sharing

Delta Sharing está diseñado para que tanto los proveedores como los consumidores puedan usarlo fácilmente con sus datos y flujos de trabajo existentes. Lo diseñamos con cuatro objetivos en mente:

  • Comparte datos en vivo directamente sin copiarlos: Queremos facilitar el intercambio de datos existentes en tiempo real. Hoy en día, la mayor parte de los datos empresariales se almacena en sistemas de lago de datos y lakehouse en la nube. Delta Sharing funciona sobre estos; en particular, te permite compartir de forma segura cualquier conjunto de datos existente en los formatos Delta Lake o Apache Parquet.
  • Compatibilidad con una amplia gama de clientes: los destinatarios deberían poder consumir datos directamente desde las herramientas de su elección sin necesidad de instalar una nueva plataforma. El protocolo de Delta Sharing está diseñado para que las herramientas lo admitan directamente con facilidad. Se basa en Parquet, que la mayoría de las herramientas ya admiten, por lo que es fácil implementar un conector.
  • Seguridad, auditoría y gobernanza sólidas: El protocolo está diseñado para ayudarte a cumplir con los requisitos de privacidad y cumplimiento. Delta Sharing le permite conceder, supervisar y auditar el acceso a los datos compartidos desde un único punto de aplicación.
  • Escala a conjuntos de datos masivos: El intercambio de datos necesita cada vez más admitir conjuntos de datos a escala de terabytes, como los datos industriales o financieros detallados, lo que supone un reto para las soluciones heredadas. Delta Sharing aprovecha el costo y la elasticidad de los sistemas de almacenamiento en la nube para compartir conjuntos de datos masivos de forma económica y confiable.

¿Cómo funciona Delta Sharing?

Delta Sharing es un protocolo REST simple que comparte de forma segura el acceso a una parte de un dataset en la nube. Aprovecha los sistemas modernos de almacenamiento en la nube, como S3, ADLS o GCS, para transferir grandes conjuntos de datos de manera confiable. Hay dos partes involucradas: proveedores de datos y destinatarios.

Como proveedor de datos, Delta Sharing le permite compartir tablas existentes o partes de ellas (p. ej., versiones de tablas o particiones específicas) almacenadas en su data lake en la nube en formato Delta Lake. Una tabla de Delta Lake es, en esencia, una colección de archivos Parquet, y es fácil convertir las tablas Parquet existentes a Delta Lake si es necesario. El proveedor de datos decide qué datos quiere compartir y ejecuta un servidor de uso compartido que implementa el protocolo Delta Sharing y gestiona el acceso para los destinatarios. Hemos publicado como código abierto un servidor de uso compartido de referencia; y proporcionamos uno alojado en Databricks, tal como imaginamos que lo harán otros proveedores.

Como destinatario de datos, todo lo que necesitas es uno de los muchos clientes de Delta Sharing que admiten el protocolo. Hemos lanzado conectores de código abierto para pandas, Apache Spark, Rust y Python, y estamos trabajando con socios en muchos más.

El intercambio real está cuidadosamente diseñado para ser eficiente, aprovechando la funcionalidad de los sistemas de almacenamiento en la nube y de Delta Lake. El protocolo funciona de la siguiente manera:

  1. El cliente del destinatario se autentica en el servidor de uso compartido (a través de un token de portador u otro método) y solicita consultar una tabla específica. El cliente también puede proporcionar filtros sobre los datos (p. ej., “country=US”) como sugerencia para leer solo un subconjunto de los datos.
  2. El servidor verifica si el cliente tiene permiso para acceder a los datos, registra la solicitud y, luego, determina qué datos devolver. Este será un subconjunto de los objetos de datos en S3 u otros sistemas de almacenamiento en la nube que conforman la tabla.
  3. Para transferir los datos, el servidor genera URL prefirmadas de corta duración que permiten al cliente leer estos archivos Parquet directamente desde el proveedor de la nube, de modo que la transferencia se pueda realizar en paralelo con un gran ancho de banda, sin necesidad de hacer streaming a través del servidor de uso compartido. Esta potente función, disponible en las principales nubes, hace que compartir conjuntos de datos muy grandes sea rápido, económico y confiable.

Beneficios del diseño

El diseño de Delta Sharing ofrece muchos beneficios tanto para los proveedores como para los consumidores:

  • Los proveedores de datos pueden compartir fácilmente una tabla completa, o solo una versión o partición de la tabla, ya que a los clientes solo se les da acceso a un subconjunto específico de los objetos que contiene.
  • Los proveedores de datos pueden actualizar los datos de manera confiable en tiempo real mediante las transacciones ACID en Delta Lake, y los destinatarios siempre verán una vista consistente.
  • Los destinatarios de los datos no necesitan estar en la misma plataforma que el proveedor, ni siquiera en la nube; el intercambio funciona entre nubes e incluso desde la nube para los usuarios on-premise.
  • El protocolo Delta Sharing es muy fácil de implementar para los clientes si ya entienden Parquet. El desarrollo de la mayoría de nuestras implementaciones de prototipos con motores de código abierto y herramientas de BI solo tardó de 1 a 2 semanas.
  • La transferencia es rápida, económica, confiable y paralelizable usando el sistema en la nube subyacente.

Un ecosistema abierto

Como se mencionó anteriormente, estamos entusiasmados con la idea de establecer un enfoque abierto para el uso compartido de datos. Los proveedores de datos, como Nasdaq, nos han dicho de manera uniforme que es muy difícil entregar datos a diversos consumidores, y todos ellos utilizan diferentes herramientas de análisis.

"Apoyamos a Delta Sharing y su visión de un protocolo abierto que simplificará el uso compartido seguro de datos y la colaboración entre organizaciones. Delta Sharing mejorará la forma en que trabajamos con nuestros socios, reducirá los costos operativos y permitirá que más usuarios accedan a una gama completa de la suite de datos de Nasdaq para descubrir información valiosa y desarrollar estrategias financieras”, dijo Bill Dague, director de Datos Alternativos de Nasdaq.

Con Delta Sharing, docenas de sistemas populares podrán conectarse directamente a los datos compartidos para que cualquier usuario pueda utilizarlos, lo que reduce la fricción para todos los participantes. Estamos trabajando con docenas de socios para definir el estándar Delta Sharing y lo invitamos a participar.
Muchas de estas empresas ampliaron su apoyo para el lanzamiento de hoy:

Herramientas de BI: Tableau, Qlik, Power BI, Looker
Análisis: AtScale, Dremio, Starburst, Microsoft Azure, Google BigQuery
Gobernanza: Collibra, Immuta, Alation, Privacera
Proveedores de datos: FactSet, Nasdaq, Precisely, Safegraph, Atlassian, AWS, Foursquare, ICE, Qandl, S&P, SequenceBio

Delta Sharing en Databricks

Los clientes de Databricks tendrán una integración nativa de Delta Sharing en nuestro Unity Catalog, lo que proporciona una experiencia optimizada para compartir datos tanto dentro de las organizaciones como entre ellas. Los administradores podrán gestionar los recursos compartidos utilizando una nueva sintaxis SQL CREATE SHARE o API de REST y auditar todos los accesos de forma centralizada. Los destinatarios podrán consumir los datos desde cualquier plataforma. Regístrate para unirte a nuestra lista de espera y obtener acceso anticipado y actualizaciones.

Hoja de ruta

Esta primera versión de Delta Sharing es solo el comienzo. A medida que desarrollemos el proyecto, planeamos extenderlo para compartir otros objetos, como flujos (streams), vistas SQL o archivos arbitrarios, como los modelos de machine learning. Creemos que el futuro del intercambio de datos es abierto y estamos encantados de llevar este enfoque a otros flujos de trabajo de intercambio.

Primeros pasos con Delta Sharing

Para probar la versión de código abierto de Delta Sharing, siga las instrucciones en delta.io/sharing. O, si es cliente de Databricks, regístrese para recibir actualizaciones sobre nuestro servicio. ¡Nos emociona mucho conocer su opinión!

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.

¿Qué sigue?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

Five Simple Steps for Implementing a Star Schema in Databricks With Delta Lake

Produto

September 12, 2024/8 min de leitura

Cinco etapas simples para implementar um esquema de estrela na Databricks com Delta Lake