Ir al contenido principal

Los tres principales casos de uso de intercambio de datos con Delta Sharing

Data Intelligence Platforms

Publicado: January 14, 2022

Producto8 min de lectura

Actualización: Delta Sharing ya tiene disponibilidad general en AWS y Azure.

 

El intercambio de datos se ha convertido en un componente esencial para impulsar el valor empresarial, ya que las empresas de todos los tamaños buscan intercambiar datos de forma segura con sus clientes, proveedores y socios. Según una encuesta reciente de Gartner, las organizaciones que promueven el intercambio de datos superarán a sus pares en la mayoría de las métricas de valor empresarial.

Las soluciones existentes para compartir datos presentan varios desafíos que limitan el intercambio de datos dentro de las organizaciones o entre ellas y no permiten aprovechar el verdadero valor de los datos. En los últimos 30 años, las soluciones para compartir datos se han presentado de dos formas: soluciones de desarrollo propio o soluciones comerciales de terceros. Con las soluciones de desarrollo propio, el intercambio de datos se ha basado en tecnologías heredadas, como SFTP y las API de REST, que se han vuelto difíciles de gestionar, mantener o escalar con los nuevos requisitos de datos. Como alternativa, las soluciones comerciales para compartir datos solo le permiten compartir datos con otros que utilicen la misma plataforma, lo que limita el intercambio de datos y puede ser costoso.

Estos desafíos nos han llevado, en Databricks, a repensar el futuro del intercambio de datos como algo abierto. Durante el Data + AI Summit 2021, anunciamos Delta Sharing, el primer protocolo abierto del mundo para el intercambio de datos seguro, escalable y en tiempo real. Nuestra visión detrás de Delta Sharing es crear una solución para compartir datos que simplifique el intercambio seguro de datos en vivo entre organizaciones, independientemente de la plataforma en la que residen o se consumen los datos. Con Delta Sharing, las organizaciones pueden compartir fácilmente conjuntos de datos existentes a gran escala basados en los formatos Apache Parquet y Delta Lake sin mover los datos y dar a los equipos de datos la flexibilidad para consultar, visualizar y enriquecer los datos compartidos con las herramientas de su elección.

Ecosistema de Delta Sharing
Ecosistema de Delta Sharing

Desde el lanzamiento de la vista previa privada, hemos visto un enorme interés por parte de los clientes de todas las industrias para colaborar y desarrollar una solución de intercambio de datos adecuada para su propósito y abierta a todos. Los clientes ya han compartido petabytes de datos mediante Delta Sharing. El ecosistema de socios de Delta Sharing también ha crecido desde el anuncio, con clientes tanto comerciales como de código abierto que tienen conectores de Delta Sharing integrados, como PowerBI, Pandas y Apache Spark™, y muchos otros se lanzarán pronto.

A través de nuestras conversaciones con los clientes, hemos identificado tres casos de uso comunes: comercialización de datos, intercambio de datos con socios y clientes externos e intercambio de datos de línea de negocio. En esta entrada de blog, exploramos cada uno de los principales casos de uso y compartimos algunas de las perspectivas que nos comentan nuestros clientes.

Caso de uso 1: Comercialización de datos

Ejemplo de cliente: Un proveedor de datos financieros estaba interesado en reducir las ineficiencias operativas con sus canales de entrega de datos heredados y en facilitar a los clientes finales el acceso sin interrupciones a grandes conjuntos de datos nuevos.

Desafíos

El proveedor de datos lanzó recientemente nuevos conjuntos de datos textuales de gran tamaño, con terabytes de datos que se producen regularmente. Proporcionar un acceso rápido y fácil a estos grandes conjuntos de datos ha sido un desafío persistente para el proveedor de datos, ya que los conjuntos de datos eran difíciles de ingerir en grandes cantidades para los destinatarios de los datos. Con la solución actual, el proveedor tenía que replicar los datos en servidores SFTP externos, lo que presentaba muchos puntos de fallo potenciales y aumentaba la latencia.

Para el destinatario, ingerir y gestionar estos datos no era fácil debido a su tamaño y escala. Los destinatarios de los datos debían configurar la infraestructura para la ingesta, la cual a su vez requería la aprobación de los administradores de TI y de bases de datos, lo que provocaba retrasos que podían durar semanas, o incluso más, hasta que el consumidor final pudiera empezar a utilizar los datos.

Cómo ayuda Delta Sharing

Con Delta Sharing, el proveedor de datos ahora puede compartir grandes conjuntos de datos de manera fluida y superar los problemas de escalabilidad con los servidores SFTP. Estos grandes conjuntos de datos textuales de tamaño terabyte, que tenían que ser extraídos en lotes a SFTP, ahora se pueden acceder en tiempo real a través de Delta Sharing. Ahora, el proveedor puede simplemente otorgar y administrar el acceso a los destinatarios de los datos en lugar de replicar los datos, lo que reduce la complejidad y la latencia. Con la escalabilidad mejorada, el proveedor de datos observa un aumento significativo en la adopción por parte de los clientes, ya que los consumidores de datos tienen acceso a datos en tiempo real en lugar de tener que extraer los conjuntos de datos con regularidad.

Caso de uso 2: Uso compartido de datos con socios o clientes externos

Ejemplo de cliente: Un gran minorista necesitaba compartir fácilmente los datos de los productos (p. ej., ventas de SKU de cereales) con sus socios sin necesidad de estar en la misma plataforma de intercambio de datos o de computación en la nube que ellos. El minorista quería crear conjuntos de datos particionados basados en los SKU para que los socios accedieran fácilmente a los datos pertinentes en tiempo real.

Desafíos

El minorista utilizaba SFTP y API propios para compartir datos con sus socios, lo que se había vuelto inmanejable. Esta solución requirió una cantidad considerable de recursos de desarrollo para su mantenimiento y operación. El minorista analizó otras soluciones para compartir datos, pero estas soluciones exigían que sus socios estuvieran en la misma plataforma, lo que no es factible para todas las partes debido a consideraciones de costos y a la sobrecarga operativa de replicar los datos en diferentes regiones.

Cómo ayuda Delta Sharing

Delta Sharing fue una propuesta interesante para que el minorista administrara y compartiera datos de manera eficiente entre las plataformas en la nube sin necesidad de replicar los datos en todas las regiones. Al minorista le resultó fácil gestionar, crear y auditar los recursos compartidos de datos para sus más de 100 socios a través de Delta Sharing. Para cada socio, el minorista puede crear particiones fácilmente y compartir los datos de forma segura sin necesidad de estar en la misma plataforma de datos. Además de facilitar la gestión de los recursos compartidos, Delta Sharing también minimiza el costo, ya que el proveedor de datos solo incurre en el costo de salida de datos del proveedor de la nube subyacente y no tiene que pagar ningún cargo de computación por el intercambio de datos.

Caso de uso 3: Uso compartido de datos internos con la línea de negocio

Ejemplo de cliente: un fabricante quiere que los científicos de datos de sus más de 15 divisiones y subsidiarias tengan acceso a datos con permisos para crear modelos predictivos. El fabricante quiere hacer esto con sólidas capacidades de gobernanza, controles y auditoría debido a la sensibilidad de los datos.

Desafíos

El fabricante tiene muchas implementaciones de lagos de datos, lo que dificulta que los equipos de toda la organización accedan a los datos de forma segura y eficiente. La gestión de todos estos datos en la organización se realiza de manera personalizada, sin controles estrictos sobre los permisos y la gobernanza. Además, muchos de estos conjuntos de datos son de tamaño petabyte, lo que genera preocupación sobre la capacidad de compartir estos datos de forma escalable. La gerencia dudaba en compartir datos sin los controles de acceso y la gobernanza de datos adecuados. Como resultado, el fabricante estaba perdiendo oportunidades únicas para desbloquear valor y permitir que los equipos de ciencia de datos obtuvieran más información exclusiva.

Cómo ayuda Delta Sharing

Con Delta Sharing, el fabricante ahora tiene la capacidad de gobernar y compartir datos entre distintas entidades internas sin tener que mover los datos. Delta Sharing le permite al fabricante otorgar, realizar un seguimiento y auditar el acceso a los datos compartidos desde un único punto de control. Sin tener que mover estos grandes conjuntos de datos, el fabricante no tiene que preocuparse por administrar diferentes servicios para replicar los datos. Delta Sharing le permitió al fabricante compartir datos de forma segura mucho más rápido de lo que esperaba, lo que generó beneficios inmediatos, ya que los usuarios finales pudieron comenzar a trabajar con conjuntos de datos únicos que antes se encontraban aislados. El fabricante también está entusiasmado por utilizar el conector de Delta Sharing integrado con PowerBI, que es su herramienta de preferencia para la visualización de datos.

Primeros pasos con Delta Sharing

Delta Sharing simplifica el uso compartido de datos con otras organizaciones, sin importar qué plataformas de datos utilicen. Nos complace compartir la primera solución abierta y segura, sin dependencia de un proveedor, que ayuda a los equipos de datos a compartir datos fácilmente y a gestionar la privacidad, la seguridad y el cumplimiento normativo entre organizaciones.

Para probar Delta Sharing en Databricks, comuníquese con su ejecutivo de cuentas de Databricks o regístrese para obtener acceso anticipado. Para muchos de nuestros clientes, la gobernanza es una prioridad principal al compartir datos. Delta Sharing está integrado de forma nativa con Unity Catalog, lo que permite a los clientes añadir controles de gobernanza y seguridad detallados, facilitando y haciendo seguro el intercambio de datos a nivel interno o externo. Una vez que haya habilitado Unity Catalog en su cuenta de Databricks, pruebe los notebooks de inicio rápido que se encuentran a continuación para empezar a usar Delta Sharing en Databricks:

  1. Creación de un recurso compartido y otorgamiento de acceso a un destinatario de datos
  2. Conectarse a un recurso compartido y acceder a los datos

 

Para probar la versión de código abierto de Delta Sharing, siga las instrucciones en delta.io/sharing.

¿Le interesa participar en el proyecto de código abierto de Delta Sharing?

Nos encantaría recibir sus comentarios sobre el proyecto Delta Sharing e ideas o contribuciones para nuevas funciones. Participe en la comunidad de Delta Sharing siguiendo las instrucciones aquí.

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.

¿Qué sigue?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks