Ir al contenido principal
Anuncios

Anuncio de la disponibilidad general de Delta Sharing

por Matei Zaharia, Celia Kung, Xiaotong Sun, Steve Mahoney, Itai Weiss, Sachin Thakur y Jay Bhankharia

Delta Sharing ha evolucionado a OpenSharing, el primer protocolo abierto y neutral respecto al proveedor para compartir de forma segura activos de IA, incluidos Agent Skills, modelos de IA y datos no estructurados. Lee el anuncio.

Hoy nos complace anunciar que Delta Sharing ya está disponible de forma general (GA) en AWS y Azure. Con el lanzamiento de GA, puedes esperar el más alto nivel de estabilidad, soporte y preparación empresarial de Databricks para cargas de trabajo críticas en la plataforma Databricks Lakehouse.

En este blog, exploramos cómo las organizaciones aprovechan Delta Sharing para maximizar el valor comercial de sus datos, algunas de las características clave disponibles en el lanzamiento de GA y cómo empezar a usar Delta Sharing en la plataforma Databricks Lakehouse.

Los clientes ganan con el estándar abierto para el intercambio de datos desde el lakehouse

El intercambio de datos se ha vuelto importante en la economía digital a medida que las empresas buscan intercambiar datos de manera fácil y segura con sus clientes, socios, proveedores y líneas de negocio (LOB) internas para colaborar mejor y liberar el valor de esos datos. Sin embargo, la falta de un protocolo de intercambio de datos basado en estándares ha dado lugar a soluciones vinculadas a un único proveedor o producto comercial, lo que introduce riesgos de dependencia del proveedor (vendor lock-in). Estos desafíos de los clientes nos llevaron, en Databricks, a crear una solución abierta de intercambio de datos, Delta Sharing.

Delta Sharing proporciona una solución abierta para compartir de forma segura datos en tiempo real desde tu lakehouse a cualquier plataforma informática. Los destinatarios de los datos no tienen que estar en la plataforma Databricks Lakehouse, ni en la misma nube, ni en ninguna nube en absoluto. Los proveedores de datos pueden compartir conjuntos de datos existentes a gran escala basados en los formatos Apache Parquet o Delta Lake, sin replicar ni copiar conjuntos de datos a otro sistema. Los destinatarios de los datos se benefician de tener siempre acceso a la última versión de los datos con la capacidad de consultar, visualizar, transformar, ingerir o enriquecer los datos compartidos con las herramientas de su elección, lo que reduce el tiempo de obtención de valor (time-to-value). Dado que la gobernanza y la seguridad son las principales preocupaciones de muchas organizaciones, Delta Sharing está integrado de forma nativa con Unity Catalog, lo que te permite administrar, gobernar, auditar y realizar un seguimiento del uso de los datos compartidos en una sola plataforma.

Delta Sharing: un estándar abierto para el intercambio seguro de activos de datos
Delta Sharing: un estándar abierto para el intercambio seguro de activos de datos

Desde el lanzamiento de Delta Sharing en vista previa privada el año pasado, cientos de clientes han adoptado Delta Sharing y, hoy en día, se comparten petabytes de datos a través de Delta Sharing.

Nasdaq: "Delta Sharing nos ayudó a agilizar nuestro proceso de entrega de datos para grandes conjuntos de datos. Esto permite a nuestros clientes aportar su propio entorno de cómputo para leer datos depurados y actualizados con poco o ningún trabajo de integración, y nos permite seguir ampliando nuestro catálogo de productos de datos únicos y de alta calidad" - William Dague, director de Datos Alternativos

Shell: "Reconocemos que la apertura de los datos desempeñará un papel clave para alcanzar las ambiciones de cero emisiones netas de carbono de Shell. Delta Sharing proporciona a Shell un protocolo estándar, controlado y seguro para compartir grandes cantidades de datos fácilmente con nuestros socios para trabajar hacia estos objetivos sin necesidad de que nuestros socios estén en la misma plataforma de intercambio de datos" - Bryce Bartmann, asesor principal de Tecnología Digital

SafeGraph: "Como empresa de datos, dar a nuestros clientes acceso a nuestros conjuntos de datos es fundamental. La plataforma Databricks Lakehouse con Delta Sharing realmente agiliza ese proceso, lo que nos permite llegar de forma segura a una base de usuarios mucho más amplia, independientemente de la nube o la plataforma" - Felix Cheung, VP de Ingeniería

YipitData: "Con Delta Sharing, nuestros clientes pueden acceder a conjuntos de datos depurados casi al instante e integrarlos con las herramientas de análisis de su elección. El diálogo con nuestros clientes pasa de ser un intercambio técnico de bajo valor sobre la ingesta a una discusión analítica de alto valor en la que impulsamos experiencias exitosas para los clientes. A medida que evolucionan las relaciones con nuestros clientes, podemos entregar sin problemas nuevos conjuntos de datos y actualizar los existentes a través de Delta Sharing para mantener a los clientes informados sobre las tendencias clave en sus industrias." - Anup Segu, líder técnico de Ingeniería de Datos

Pumpjack Dataworks: "Aprovechar las potentes capacidades de Delta Sharing de Databricks permite a Pumpjack Dataworks tener una experiencia de incorporación más rápida, eliminando la necesidad de exportar, importar y remodelar datos, lo que aporta un valor inmediato a nuestros clientes. Resultados más rápidos generan mayores oportunidades comerciales para nuestros clientes y sus socios" - Corey Zwart, CTO

¿Qué hay de nuevo en Delta Sharing con GA?

Aunque Delta Sharing cuenta con una serie de características increíbles en el lanzamiento de GA, a continuación se presentan algunas de las características clave que incluimos en este lanzamiento:

Intercambio fluido de Databricks a Databricks

Para los clientes de Databricks, Delta Sharing hace que el intercambio de datos en el lakehouse sea extremadamente sencillo, eficiente y seguro. Con solo unos pocos clics en la UI o comandos SQL, los proveedores de datos pueden compartir fácilmente sus datos existentes con los destinatarios en Databricks, sin replicar los datos. Por ejemplo, un proveedor de datos que utiliza Databricks en AWS puede compartir datos existentes con un destinatario que utiliza Databricks en Azure o viceversa. Puedes explorar la guía del usuario para obtener todos los detalles. En el intercambio de Databricks a Databricks, el proveedor de datos no necesita administrar las credenciales de token para los destinatarios que usan Databricks; la conexión para compartir se establece de forma segura a través de la plataforma Databricks. Todo lo que necesitas es una cuenta de Databricks para iniciar sesión y la plataforma se encarga del resto. Además del intercambio de datos entre cuentas, otro caso de uso importante es el intercambio de datos interno. Si tienes múltiples metastores de Unity Catalog bajo la misma cuenta en diferentes regiones, puedes compartir datos fácilmente entre esos metastores usando Delta Sharing sin copiar ningún dato. Ejemplo de flujo de trabajo SQL desde la perspectiva de un proveedor de datos:

Ejemplo de flujo de trabajo SQL desde la perspectiva de un destinatario de datos:

Compartir Change Data Feed

Delta Sharing ahora admite compartir Change Data Feed (CDF). Además de compartir una tabla, un proveedor de datos puede optar por incluir el CDF de la tabla, lo que permite a los destinatarios consultar los cambios entre versiones o marcas de tiempo específicas de la tabla. Con esta característica, los destinatarios pueden consultar solo los datos nuevos o los cambios incrementales en lugar de toda la tabla cada vez. Un proveedor de datos puede compartir fácilmente una tabla con CDF, y un destinatario de datos puede consultar los cambios de la tabla con una sintaxis simple:

Características de seguridad mejoradas

En el lanzamiento de GA de Delta Sharing, también tenemos un conjunto de características de seguridad para que el intercambio sea aún más seguro. Un ejemplo de esas características de seguridad es la lista de acceso de IP. Los proveedores de datos ahora pueden configurar una lista de acceso de IP para cada uno de sus destinatarios utilizando conectores abiertos. Esto garantiza que la descarga de credenciales y el acceso a los datos solo se puedan iniciar desde la dirección IP de destino. También agregamos algunos permisos más relacionados con Delta Sharing (por ejemplo, CREATE SHARE, CREATE RECIPIENT) e introdujimos el concepto de propietario (owner) para objetos de Delta Sharing como Share y Recipient. Con estas primitivas, Delta Sharing en Databricks ofrece un modelo de control de acceso más flexible, y los usuarios que no son administradores también pueden realizar operaciones de intercambio.

Primeros pasos con Delta Sharing en Databricks

Vea la demostración a continuación para obtener más información sobre cómo Delta Sharing puede ayudarle a compartir datos en vivo de manera fluida desde su lakehouse a cualquier plataforma de computación.

Si ya es cliente de Databricks, siga la guía para comenzar (AWS | Azure). Lea las notas de la versión para obtener más información sobre lo que se incluye en este lanzamiento de GA. Si no es un cliente existente de Databricks, regístrese para obtener una prueba gratuita con un espacio de trabajo Premium o Enterprise.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.