Con un crecimiento de uso interanual de más del 300 % durante 2 años consecutivos, Delta Sharing es el protocolo abierto más adoptado para el intercambio de datos e IA. Los principales proveedores de datos, incluidos SAP, Walmart, Atlassian y LSEG, usan Delta Sharing para compartir datos con sus socios y clientes a través de nubes y plataformas. Hoy, nos complace anunciar que Delta Sharing de Databricks tiene compatibilidad de primera clase para el formato Apache Iceberg.
Los proveedores de datos ahora pueden compartir datos de forma segura y en vivo desde Databricks a cualquier cliente que sea compatible con la API de catálogo REST de Apache Iceberg. Los destinatarios en plataformas como Snowflake, Trino, Flink y Spark en todas las nubes pueden usar esta capacidad, lo que se suma al ecosistema abierto de Delta Sharing.
Además, estamos lanzando una Vista Previa Privada que permite a los proveedores de datos usar Delta Sharing para compartir tablas de Iceberg administradas por catálogos fuera de Databricks, incluidos AWS Glue, Hive Metastore, Snowflake Horizon y más.
Juntos, pueden compartir cualquier tabla nueva o existente (Delta o Iceberg, administrada o externa). Esto contribuye a una interoperabilidad abierta y completa. Pueden importar tablas de Iceberg desde cualquier catálogo externo, administrarlas a través de Databricks y Unity Catalog y, luego, compartirlas con cualquier destinatario, ya sea que esté en Databricks, en un cliente de Iceberg o en un cliente de Delta. Esto les permite aprovechar Unity Catalog como su capa unificada de gobernanza de datos, lo que les brinda un único lugar para todo el uso compartido.
En esta entrada de blog, explicaremos por qué es importante el intercambio de datos abierto. También profundizaremos en cómo funcionan los clientes de Delta Sharing a Iceberg a través de una demostración práctica.
Por qué esto es importante: uso compartido abierto frente a cerrado
La mayoría de las soluciones para compartir datos en realidad no comparten—son una trampa. Son fundamentalmente cerrados y están diseñados para garantizar la dependencia del proveedor, por lo que solo se puede compartir con otros que ya están dentro de sus ecosistemas cerrados. Esto limita sus opciones, reprime la innovación e impulsa una replicación de datos masiva e inútil.
Delta Sharing es el estándar abierto más adoptado para el intercambio seguro de datos. Utilizado por proveedores de datos líderes en su categoría, está diseñado para admitir diferentes nubes y plataformas. Delta Sharing se basa en tres principios fundamentales:
Agregar compatibilidad con el cliente de Iceberg refuerza este compromiso. Le permite compartir una tabla Delta mientras que los destinatarios la experimentan como una tabla Iceberg nativa. El intercambio se realiza a través de la API REST de Iceberg, por lo que los destinatarios pueden conectarse desde cualquier plataforma compatible con Iceberg. Esto le permite obtener lo mejor de ambos mundos: los proveedores de datos se benefician de las funciones avanzadas de Delta Sharing, como el intercambio de vistas, mientras que los destinatarios reciben tablas Iceberg nativas a través de la API REST de Iceberg.
Los destinatarios obtienen acceso seguro y en vivo a los datos de origen. Esto elimina los silos y te permite compartir datos abiertamente con cualquier persona.
Esta funcionalidad es ideal para las organizaciones que necesitan compartir datos externamente con socios y clientes que utilizan clientes de Iceberg, como los que operan en Snowflake o se integran con plataformas como Trino, Flink o Spark. Las empresas con múltiples unidades de negocio que operan en múltiples plataformas también se benefician al desbloquear el intercambio de datos fluido y bidireccional en entornos multinube o híbridos. Las industrias que ya aprovechan estos patrones incluyen la atención médica, el comercio minorista, las finanzas, la tecnología publicitaria (ad-tech) y más.
Como creemos en el acceso a datos totalmente abierto, no nos detenemos en compartir datos con clientes de Iceberg. Ahora estamos desarrollando la siguiente evolución: compartir tablas Iceberg externas que residen en catálogos externos como AWS Glue o Snowflake Horizon. Nos complace anunciar la Vista Previa Privada del soporte de Delta Sharing para tablas de Iceberg externas.
Quizás te preguntes: ¿Por qué compartir una tabla de Iceberg a través de Delta Sharing si se encuentra en AWS Glue o Snowflake? ¿Por qué no compartir directamente desde esa plataforma?
En primer lugar, al catalogar tus datos externos de Iceberg en Unity Catalog, obtienes una capa de gobernanza unificada en Unity Catalog, lo que te permite tener una visibilidad y gobernanza completas en todo tu patrimonio de datos. Además, usar Delta Sharing te permite obtener lo mejor de ambos mundos: te beneficias de las funcionalidades de primer nivel para compartir de Delta Sharing, mientras mantienes tus datos en formato Iceberg. Esto incluye, por ejemplo, la capacidad de compartir Vistas con Delta Share para un control de acceso detallado, que no es compatible de forma nativa con la API de IRC de Iceberg.
Con esta Private Preview, el Lakehouse de Databricks está abierto en ambas direcciones. Su Lakehouse puede compartir y recibir datos del creciente ecosistema de Iceberg.
Esta doble capacidad le brinda:
Imagina que tu empresa, Provider Corp, usa Databricks y Delta Lake para gestionar los datos de los clientes. Necesita compartir de forma segura una lista diaria de ventas de productos con Partner Inc, que utiliza Snowflake y prefiere el formato Iceberg.
Antes de esta característica: Provider Corp tendría que exportar los datos manualmente, transformarlos a un formato legible por Snowflake, subirlos al almacenamiento en la nube del socio y configurar un trabajo de sincronización complejo. Esto es lento, costoso, implica una sobrecarga administrativa significativa y conlleva el riesgo de que los datos se desactualicen.
Con Delta Sharing para clientes de Iceberg:
Esto hace que el intercambio de datos sea instantáneo, seguro y totalmente independiente del formato.
Consulta esta demo que muestra los pasos para compartir una tabla y leerla en Snowflake.
Empieza ahora
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Produto
June 12, 2024/11 min de leitura

