Intercambio de datos
¿Qué es el uso compartido de datos?
El uso compartido de datos es la capacidad de poner los mismos datos a disposición de uno o varios consumidores. La cantidad cada vez mayor de datos se ha convertido en un activo estratégico para cualquier empresa. Compartir datos. tanto dentro de las unidades de negocio como al consumir datos de fuentes externas, es una tecnología que facilita nuevas oportunidades de negocio. Compartir datos te permite colaborar con socios, establecer nuevas asociaciones y generar nuevas fuentes de ingresos con la monetización de datos.
Hay más para explorar
¿Cuáles son los tipos de intercambio de datos?
Existen muchos tipos diferentes de uso compartido de datos, incluido el uso compartido dentro de una organización y fuera de ella, el uso compartido uno a uno, con múltiples destinatarios, público y privado. Las empresas pueden usar mercados de datos públicos o privados para mejorar el uso compartido de los datos y la colaboración, así como salas limpias de datos seguras para datos confidenciales, como la información de identificación personal (PII).
¿Cuáles son los desafíos del uso compartido de datos?
El uso compartido de datos es esencial para las empresas modernas, pero puede ser un desafío. Uno de los desafíos más críticos es la seguridad. Compartir solo los datos correctos con las personas adecuadas dentro del contexto adecuado requiere que se sigan de manera consistente las políticas estratégicas, las herramientas efectivas y los procesos intencionales. La gobernanza de datos, garantizar que los datos se empleen de conformidad con normativas específicas, es otro desafío. Además, los problemas técnicos y estructurales de gestión de datos, como la gestión de múltiples sistemas y soluciones heredadas o patentadas, pueden obstaculizar el uso compartido de datos eficiente y eficaz.
¿Cuáles son los beneficios del intercambio de datos en una organización?
El uso compartido de datos es crucial para la evolución del modelo de negocio impulsado por datos. Gartner predice que para 2024, las organizaciones que promuevan el uso compartido de datos superarán a sus pares en la mayoría de las métricas de valor empresarial. El uso compartido de datos elimina los silos de datos, lo que resulta en una mayor eficiencia y transparencia y una mayor colaboración dentro de una organización, así como con los socios. El uso compartido de datos también proporciona a las organizaciones un acceso más rápido a información que ayuda a mejorar el rendimiento. Finalmente, el uso compartido de datos ofrece posibilidades para generar ingresos al permitir que una organización ofrezca nuevos productos o servicios de datos.
Tecnologías tradicionales de uso compartido de datos
Las tecnologías heredadas como SFTP (protocolo seguro de transferencia de archivos), correo electrónico o API (interfaz de programación de aplicaciones) permiten la implementación de soluciones propias independientes del proveedor que funcionarán tanto en las instalaciones como en la nube. Sin embargo, a menudo son costosas de gestionar y mantener, y son cada vez más difíciles de proteger y gobernar a medida que evolucionan los requisitos de datos modernos. Usar estas soluciones puede hacer que el uso compartido de datos sea complejo y consuma mucho tiempo, y no escalan para adaptarse a grandes conjuntos de datos.
El almacenamiento de objetos en la nube es ideal para la nube porque su escalabilidad permite un crecimiento ilimitado de datos. Está ampliamente disponible, es económico y confiable, pero tiene sus inconvenientes. Por ejemplo, los destinatarios deben estar en la misma nube para acceder a los datos, y los procesos de seguridad y gobernanza pueden ser complicados. Además, compartir grandes volúmenes de datos a través del almacenamiento en la nube requiere mucho tiempo, es engorroso y casi imposible de escalar.
Ofertas comerciales y de código cerrado para el uso compartido de datos
Las soluciones de uso compartido de datos están integradas en productos de proveedores como Oracle, Amazon Redshift o Snowflake. Estas soluciones son convenientes de usar dentro de un producto y permiten a los usuarios compartir datos fácilmente con cualquier persona que use la misma plataforma. Sin embargo, los usuarios no pueden compartir datos con usuarios de soluciones de la competencia y los proveedores a menudo limitan la escalabilidad. Con estas soluciones, los datos deben cargarse en la plataforma, lo que requiere extracción, transformación y carga (ETL) y crea copias de datos. Todas estas restricciones crean complejidad, problemas de control de versiones y costos más altos para compartir datos con destinatarios en diferentes plataformas de nube.
Soluciones modernas de intercambio de datos de código abierto
En el contexto actual de infraestructuras a veces complejas con múltiples plataformas, contar con una solución de código abierto para compartir datos puede ofrecer una valiosa flexibilidad. Las soluciones basadas en código abierto eliminan la dependencia de los productos de los proveedores y brindan una serie de beneficios adicionales, como integraciones desarrolladas por la comunidad con marcos populares de procesamiento de datos de código abierto. Los protocolos abiertos también permiten la fácil integración de clientes comerciales, como las herramientas de BI.
Mercados de datos
Los mercados de datos permiten el uso compartido y la monetización de datos, y son herramientas importantes para el uso compartido de datos y la colaboración. Los mercados pueden tomar diferentes formas, que incluyen las siguientes:
- Mercados de datos internos para el uso compartido de datos dentro de una empresa
- Mercados de datos privados para compartir datos con socios de confianza
- Mercados públicos de datos que conectan a proveedores y consumidores de datos
Los mercados públicos de datos ofrecen a los participantes la oportunidad de comprar y vender datos y servicios relacionados en un entorno seguro que ofrece alta calidad y consistencia directamente de los proveedores de datos. Las empresas pueden usar los mercados para adquirir datos de terceros para enriquecer sus datos existentes u ofrecer y monetizar nuevos productos y servicios de datos.
Salas limpias de datos
Las salas limpias de datos permiten a las empresas colaborar fácilmente en un entorno seguro y controlado con clientes y socios en cualquier nube, respetando la privacidad. Dentro de una sala limpia de datos, múltiples participantes pueden unir sus datos propios y realizar análisis sobre los datos sin el riesgo de exponer sus datos a otros participantes. Los participantes tienen control total de sus datos y pueden decidir qué participantes pueden realizar análisis de sus datos sin exponer ningún dato confidencial, como PII.
Delta Sharing
Delta Sharing es el primer protocolo abierto del mundo para el intercambio seguro de datos, lo que facilita a las organizaciones compartir datos con otras organizaciones, independientemente de las plataformas de cómputo que usen.
- Compartir datos en vivo directamente: comparte fácilmente datos existentes en vivo en tu Delta Lake sin copiarlos a otro sistema.
- Admite a diversos clientes: los destinatarios de datos pueden conectarse directamente a Delta Shares desde pandas, Apache Spark™, Rust y otros sistemas sin tener que implementar primero una plataforma de cómputo específica. Reduce la fricción para entregar tus datos a tus usuarios.
- Seguridad y gobernanza — Delta Sharing le permite gobernar, rastrear y auditar fácilmente el acceso a los datos.
- Escalabilidad: comparte conjuntos de datos a gran escala de forma confiable y eficiente, al aprovechar los sistemas de almacenamiento en la nube como S3, ADLS y GCS.
Delta Sharing en Databricks
Databricks se integra de forma nativa con Delta Sharing en Unity Catalog, y proporciona una experiencia optimizada para compartir datos tanto dentro como entre organizaciones. Los destinatarios no tienen que estar en la plataforma Databricks, en la misma nube o en una nube en absoluto.
Delta Sharing ofrece varios beneficios clave, que incluyen los siguientes:
- Compartición abierta entre plataformas
- Uso compartido de datos en tiempo real sin replicación
- Gobernanza centralizada
- La capacidad de compartir productos de datos, incluidos modelos de IA, paneles y cuadernos, con mayor flexibilidad
- Menor costo
- Reducción del tiempo de obtención de valor
Delta Sharing es un ecosistema abierto de código abierto y socios comerciales que sigue creciendo. Databricks ha ampliado recientemente las asociaciones de Delta Sharing para incluir a Cloudflare, Dell, Oracle y Twilio.

Obtén más información sobre el uso compartido de datos en Databricks
Con Delta Sharing, compartes datos en tiempo real de manera fácil y segura entre plataformas, nubes y regiones. Delta Sharing ya está transformando las actividades de uso compartido de datos para empresas en una amplia gama de industrias. Empieza hoy mismo con Databricks Delta Sharing.
Recursos adicionales
- Uso compartido de datos en Databricks
- Demostración del uso compartido de datos
- Seminario web: El uso compartido seguro y abierto le agrega un nuevo valor a tus datos
- Libro electrónico: Un nuevo enfoque para el uso compartido de datos (segunda edición)
- Delta Sharing - delta.io
- Presentamos Delta Sharing: un protocolo abierto para compartir datos de forma segura
- Seminario web de Delta Sharing Databricks ODSC


