Actualización: Delta Sharing ya está disponible de forma general en AWS y Azure.
Obtén un adelanto del nuevo ebook de O'Reilly con la guía paso a paso que necesitas para empezar a usar Delta Lake.
El intercambio de datos se ha vuelto fundamental en la economía moderna, ya que las empresas buscan intercambiar datos de forma segura con sus clientes, proveedores y socios. Por ejemplo, un minorista puede querer publicar datos de ventas a sus proveedores en tiempo real, o un proveedor puede querer compartir el inventario en tiempo real. Pero hasta ahora, el intercambio de datos se ha visto gravemente limitado porque las soluciones para compartir están vinculadas a un único proveedor. Esto crea fricción tanto para los proveedores como para los consumidores de datos, que naturalmente utilizan diferentes plataformas.
Hoy, lanzamos un nuevo proyecto de código abierto que simplifica el intercambio entre organizaciones: Delta Sharing, un protocolo abierto para el intercambio seguro y en tiempo real de grandes conjuntos de datos, que permite el intercambio seguro de datos entre productos por primera vez. Estamos desarrollando Delta Sharing con socios de los principales proveedores de software y datos del mundo.
Para entender por qué las soluciones actuales para compartir datos generan fricción, piense en un minorista que quiere compartir datos con un analista de uno de sus proveedores. Hoy, el minorista podría usar uno de varios data warehouses en la nube que ofrecen intercambio de datos, pero luego el analista tendría que trabajar con sus equipos de TI, seguridad y adquisiciones para implementar el mismo producto de data warehouse en su empresa, un proceso que puede tardar meses. Además, una vez que se implementa el data warehouse, lo primero que haría el analista es exportar los datos a su herramienta de ciencia de datos favorita, como pandas o Tableau.
Con Delta Sharing, los usuarios de datos pueden conectarse directamente a los datos compartidos a través de pandas, Tableau o docenas de otros sistemas que implementan el protocolo abierto, sin tener que implementar primero una plataforma específica. Esto reduce su tiempo de acceso de meses a minutos y disminuye enormemente el trabajo para los proveedores de datos que quieren llegar a la mayor cantidad de usuarios posible.
Estamos trabajando con un ecosistema vibrante de socios en Delta Sharing, que incluye a los equipos de producto de los principales proveedores de nube, BI y datos:
Ecosistema de Delta Sharing
En esta publicación, explicaremos cómo funciona Delta Sharing y por qué estamos tan entusiasmados con un enfoque abierto para el intercambio de datos.
Delta Sharing está diseñado para que tanto los proveedores como los consumidores puedan usarlo fácilmente con sus datos y flujos de trabajo existentes. Lo diseñamos con cuatro objetivos en mente:
Delta Sharing es un protocolo REST simple que comparte de forma segura el acceso a una parte de un dataset en la nube. Aprovecha los sistemas modernos de almacenamiento en la nube, como S3, ADLS o GCS, para transferir grandes conjuntos de datos de manera confiable. Hay dos partes involucradas: proveedores de datos y destinatarios.
Como proveedor de datos, Delta Sharing le permite compartir tablas existentes o partes de ellas (p. ej., versiones de tablas o particiones específicas) almacenadas en su data lake en la nube en formato Delta Lake. Una tabla de Delta Lake es, en esencia, una colección de archivos Parquet, y es fácil convertir las tablas Parquet existentes a Delta Lake si es necesario. El proveedor de datos decide qué datos quiere compartir y ejecuta un servidor de uso compartido que implementa el protocolo Delta Sharing y gestiona el acceso para los destinatarios. Hemos publicado como código abierto un servidor de uso compartido de referencia; y proporcionamos uno alojado en Databricks, tal como imaginamos que lo harán otros proveedores.
Como destinatario de datos, todo lo que necesitas es uno de los muchos clientes de Delta Sharing que admiten el protocolo. Hemos lanzado conectores de código abierto para pandas, Apache Spark, Rust y Python, y estamos trabajando con socios en muchos más.
El intercambio real está cuidadosamente diseñado para ser eficiente, aprovechando la funcionalidad de los sistemas de almacenamiento en la nube y de Delta Lake. El protocolo funciona de la siguiente manera:
El diseño de Delta Sharing ofrece muchos beneficios tanto para los proveedores como para los consumidores:
Como se mencionó anteriormente, estamos entusiasmados con la idea de establecer un enfoque abierto para el uso compartido de datos. Los proveedores de datos, como Nasdaq, nos han dicho de manera uniforme que es muy difícil entregar datos a diversos consumidores, y todos ellos utilizan diferentes herramientas de análisis.
"Apoyamos a Delta Sharing y su visión de un protocolo abierto que simplificará el uso compartido seguro de datos y la colaboración entre organizaciones. Delta Sharing mejorará la forma en que trabajamos con nuestros socios, reducirá los costos operativos y permitirá que más usuarios accedan a una gama completa de la suite de datos de Nasdaq para descubrir información valiosa y desarrollar estrategias financieras”, dijo Bill Dague, director de Datos Alternativos de Nasdaq.
Con Delta Sharing, docenas de sistemas populares podrán conectarse directamente a los datos compartidos para que cualquier usuario pueda utilizarlos, lo que reduce la fricción para todos los participantes. Estamos trabajando con docenas de socios para definir el estándar Delta Sharing y lo invitamos a participar.
Muchas de estas empresas ampliaron su apoyo para el lanzamiento de hoy:
Herramientas de BI: Tableau, Qlik, Power BI, Looker
Análisis: AtScale, Dremio, Starburst, Microsoft Azure, Google BigQuery
Gobernanza: Collibra, Immuta, Alation, Privacera
Proveedores de datos: FactSet, Nasdaq, Precisely, Safegraph, Atlassian, AWS, Foursquare, ICE, Qandl, S&P, SequenceBio
Los clientes de Databricks tendrán una integración nativa de Delta Sharing en nuestro Unity Catalog, lo que proporciona una experiencia optimizada para compartir datos tanto dentro de las organizaciones como entre ellas. Los administradores podrán gestionar los recursos compartidos utilizando una nueva sintaxis SQL CREATE SHARE o API de REST y auditar todos los accesos de forma centralizada. Los destinatarios podrán consumir los datos desde cualquier plataforma. Regístrate para unirte a nuestra lista de espera y obtener acceso anticipado y actualizaciones.
Esta primera versión de Delta Sharing es solo el comienzo. A medida que desarrollemos el proyecto, planeamos extenderlo para compartir otros objetos, como flujos (streams), vistas SQL o archivos arbitrarios, como los modelos de machine learning. Creemos que el futuro del intercambio de datos es abierto y estamos encantados de llevar este enfoque a otros flujos de trabajo de intercambio.
Para probar la versión de código abierto de Delta Sharing, siga las instrucciones en delta.io/sharing. O, si es cliente de Databricks, regístrese para recibir actualizaciones sobre nuestro servicio. ¡Nos emociona mucho conocer su opinión!
Produto
June 12, 2024/11 min de leitura
Produto
September 12, 2024/8 min de leitura


