Ir al contenido principal
Anuncios

Presentamos OpenSharing: la próxima evolución de Delta Sharing para la era agéntica

El primer protocolo abierto de la industria para compartir datos, modelos, agentes y habilidades en cualquier nube, proveedor y formato

por Huey Han, Harish Gaur, Akram Chetibi y Mengxi Chen

Cuando Databricks fue pionero con Delta Sharing en 2021, nos propusimos resolver un problema que todos los equipos de datos conocían muy bien: compartir datos en tiempo real entre los límites de la organización era lento, frágil y requería demasiadas concesiones. O bien se copiaban los datos (lo que creaba réplicas desactualizadas y problemas de cumplimiento) o bien te limitabas a compartir únicamente con socios que estuvieran en tu misma plataforma, lo que restringía significativamente la innovación.

Delta Sharing cambió eso. Un único protocolo abierto. Sin copia de datos. Sin silos de plataformas. Y en los cinco años transcurridos desde entonces, se ha convertido en el protocolo abierto de intercambio de datos sin copia más adoptado, con más de 28 000 destinatarios de datos y un 33 % de los intercambios fluyendo entre plataformas a través de conectores abiertos. Empresas líderes como SAP, Atlassian, Mercedes-Benz, The Trade Desk, LSEG, S&P Global y muchas más han adoptado Delta Sharing para compartir datos y colaborar en ellos.

Pero el mundo ha avanzado. El auge de la AI agéntica ha cambiado fundamentalmente lo que las empresas necesitan compartir. Hoy damos el siguiente paso.

Nos entusiasma anunciar OpenSharing, la próxima evolución de Delta Sharing y el primer protocolo abierto de la industria diseñado para la era agéntica. OpenSharing convierte a Delta Sharing en un proyecto de código abierto independiente, ampliando su alcance desde el intercambio de datos a toda la pila de AI: modelos, agentes, en cualquier nube, cualquier proveedor y cualquier formato.

Por qué los protocolos de intercambio deben evolucionar para la AI

Delta Sharing se diseñó para un mundo de tablas y archivos. Pero ahora las organizaciones deben intercambiar contexto semántico, habilidades de AI, datos no estructurados y agentes autónomos a través de los límites de la nube, los proveedores y las empresas. Los protocolos de intercambio actuales siguen limitados a formatos específicos de cada proveedor, no pueden gestionar la lógica de AI y dependen de redes frágiles que tardan semanas en configurarse para cada nuevo socio.

El resultado: la colaboración se ralentiza, los silos de datos persisten y el valor oculto en los datos empresariales no se aprovecha.

OpenSharing resuelve esto. Es un único protocolo abierto que comparte datos y AI en cualquier formato, cualquier nube y cualquier límite organizativo, con soporte nativo para Delta Lake, Apache Iceberg y Parquet, de modo que los datos permanecen donde están y fluyen hacia quien los necesite.

"Delta Sharing demostró que la industria elegiría lo abierto frente a lo cerrado. OpenSharing extiende ese principio a toda la pila de AI, al tiempo que amplía el ecosistema multiplataforma a los destinatarios de Iceberg y a los proveedores locales. La era agéntica merece una base abierta, y OpenSharing la ofrece". — Matei Zaharia, cofundador y CTO de Databricks.

OpenSharing en Databricks

OpenSharing existe en dos capas. El protocolo de código abierto (ahora alojado por la Linux Foundation) es la especificación publicada que cualquier proveedor o miembro de la comunidad puede implementar. Databricks OpenSharing es la implementación empresarial del protocolo abierto, creada sobre otras funciones de Databricks como Unity Catalog para el gobierno y el registro de auditoría, Marketplace para el descubrimiento y más.

Nos entusiasma lanzar un conjunto de funciones para OpenSharing en Databricks.

Uso compartido de agentes Genie: comparta una experiencia de AI gobernada, no solo datos

Por primera vez, las organizaciones pueden compartir experiencias de AI gobernadas (no solo conjuntos de datos) a través de los límites organizativos.

Genie Agents son los entornos de análisis conversacional basados en AI de Databricks. Con OpenSharing, un proveedor ahora puede compartir Genie Agents (incluido su contexto semántico subyacente, métricas comerciales y lógica de AI reutilizable) con cualquier socio o cliente, con gobierno de extremo a extremo a través de Unity Catalog. Opcionalmente, los proveedores pueden controlar cómo acceden los destinatarios a los datos, lo que incluye ocultar instrucciones patentadas de Genie, restringir el acceso a los datos únicamente al Genie Agent, establecer cuotas diarias de prompts y limitar la exportación de filas. Estos controles abren nuevas oportunidades de monetización para los proveedores de datos, como precios basados en el uso en lugar de una licencia de datos completa.

SecureConnect y Global Distribution: redes multinube más sencillas, menores costos de salida

El intercambio de datos entre distintas nubes siempre ha presentado dos problemas distintos. OpenSharing en Databricks ahora resuelve ambos.

El primero es la red. Cuando el almacenamiento del proveedor se encuentra detrás de una red privada (lo que casi siempre ocurre en intercambios de datos confidenciales o industrias reguladas), incorporar a un nuevo destinatario puede requerir semanas de listas de permitidos de IP manuales, coordinación de firewalls y comunicaciones constantes con los administradores de la nube. Para los proveedores con decenas o cientos de destinatarios, esto no es escalable. SecureConnect resuelve este problema: un proxy gestionado por Databricks que enruta el acceso al almacenamiento en nombre de todos los destinatarios. Configúrelo una vez y no necesitará realizar cambios en el firewall por destinatario, nunca más. Lea el blog del anuncio.

SecureConnect

El segundo es el costo de salida. Las consultas entre nubes generan tarifas de salida que se acumulan a escala, convirtiéndose en un costo significativo e impredecible que hace que el intercambio multinube a gran escala sea económicamente inviable. Global Distribution resuelve esto con la replicación automática entre regiones y nubes. Los destinatarios consultan una réplica local de forma rápida y sin tarifas de salida. Los proveedores obtienen una estructura de costos predecible. Los equipos globales obtienen acceso de baja latencia independientemente de dónde residan los datos de origen.

Interoperabilidad abierta de clientes y ecosistema de almacenamiento local: adáptese a las necesidades de sus socios

OpenSharing se basa en la convicción de que los ecosistemas de datos prosperan cuando son verdaderamente abiertos, no solo de nombre, sino en la práctica. Eso significa admitir los formatos, sistemas de almacenamiento y clientes que sus socios ya utilizan.

Ecosistema de almacenamiento: gobierne todo, dondequiera que esté

No todos los datos empresariales pueden (o deben) trasladarse a la nube. Los mandatos regulatorios, la gravedad de los datos, la latencia en el extremo (edge) y la pura economía hacen que algunos de los datos más valiosos del mundo permanezcan de forma local (on-premises). OpenSharing llega a ellos.
El Databricks Storage Ecosystem lleva la Databricks Data Intelligence Platform directamente a entornos locales, de nube privada y perimetrales (edge), con la tecnología de OpenSharing. Los socios de almacenamiento implementan el servidor OpenSharing, conectando sus entornos de datos a Unity Catalog sin mover un solo byte. Sin migración. Sin duplicación. Lea el anuncio.
Entre los socios de lanzamiento se incluyen MinIO (GA), Everpure (Private Preview), Qumulo (Private Preview próximamente) y VAST Data (Private Preview próximamente), y Cohesity, Commvault, NetApp y Nutanix se incorporarán a finales de año. En conjunto, estos socios gestionan cientos de exabytes de datos empresariales.

Interoperabilidad con Iceberg
Delta Sharing ya es compatible con una amplia gama de plataformas y conectores, incluidos Databricks, Tableau, Power BI, Apache Spark y Snowflake. OpenSharing ahora ha añadido soporte para la API de Apache Iceberg REST Catalog, lo que permite compartir datos con cualquier cliente compatible con Iceberg. Los proveedores también pueden compartir tablas de catálogos externos, incluidos AWS Glue, Hive Metastore y Snowflake Horizon, incorporando datos externos al ecosistema gobernado de OpenSharing sin replicación.

Uso compartido de Iceberg

Cómo funciona OpenSharing

Aprovechando la misma sencillez que hizo que Delta Sharing fuera un éxito, OpenSharing amplía el protocolo para admitir toda la pila de activos de AI:

  1. El proveedor de datos crea un recurso compartido en Unity Catalog, definiendo qué conjuntos de datos, modelos, agentes o Genie Agents se van a compartir y estableciendo permisos de acceso detallados.
  2. El destinatario recibe credenciales seguras y consulta el recurso compartido directamente desde sus herramientas existentes, la nube o el cliente de Iceberg, sin necesidad de estar en Databricks.
  3. Unity Catalog aplica la gobernanza de extremo a extremo: audita cada acceso, aplica controles a nivel de fila y columna, y garantiza que las políticas de cumplimiento acompañen a cada activo compartido.
  4. Los datos nunca se mueven: los destinatarios consultan datos en tiempo real directamente desde el almacenamiento en la nube del proveedor, lo que garantiza una única fuente de verdad.

Para implementaciones empresariales en Databricks, SecureConnect y Global Distribution se superponen a este flujo, gestionando la red multinube y la replicación de forma automática, sin cambios en la forma en que los proveedores o destinatarios interactúan con sus recursos compartidos.

¿Listo para comenzar con OpenSharing?

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.