Ir al contenido principal

Código abierto de Unity Catalog

Creando el único catálogo universal de la industria para datos e IA

Open Sourcing Unity Catalog

Publicado: 13 de junio de 2024

Producto12 min de lectura

Nos complace anunciar que estamos abriendo el código de Unity Catalog, el primer catálogo de código abierto de la industria para la gobernanza de datos e IA en la nube, formatos de datos y plataformas de datos. Estos son los pilares más importantes de la visión de Unity Catalog:

  • API e implementación de código abierto: Está construido sobre la especificación OpenAPI y una implementación de servidor de código abierto bajo la licencia Apache 2.0. También es compatible con la API de metastore de Apache Hive y la API de catálogo REST de Apache Iceberg.
  • Soporte multiformato: Es extensible y admite Delta Lake, Apache Iceberg a través de UniForm, Apache Parquet, CSV y todos los formatos existentes.
  • Soporte multi-motor: Con sus API abiertas, los datos catalogados en Unity pueden ser leídos por prácticamente todos los motores de cómputo.
  • Multimodal: Admite todos sus activos de datos e IA, incluidas tablas, archivos, funciones y modelos de IA.
  • Ecosistema vibrante: Este es un esfuerzo comunitario y estamos extremadamente entusiasmados de contar con el apoyo de Amazon Web Services, Microsoft Azure, Google Cloud, Nvidia, Salesforce, DuckDB, LangChain, dbt Labs, Fivetran, Confluent, Unstructured, Onehouse, Immuta, Informatica y muchos más.

El proyecto está disponible en GitHub hoy como el primer paso en nuestro viaje para llevar la visión de Unity al código abierto. Unity Catalog está alojado en LF AI & Data, una fundación paraguas de la Linux Foundation que apoya la innovación de código abierto en inteligencia artificial (IA) y datos, donde estamos entusiasmados de trabajar con las comunidades de código abierto en los próximos años para hacer realidad esta visión.

¿Por qué código abierto?

Con la adopción generalizada de Unity Catalog, podría preguntarse por qué lo estamos abriendo y por qué ahora. Esto se debe a que hemos escuchado constantemente de las organizaciones que necesitan una base abierta para sus aplicaciones de datos e IA, no solo para hoy, sino para las innovaciones de las próximas décadas.

Desafortunadamente, la mayoría de las plataformas de datos actuales son jardines vallados. Muchos almacenes de datos en la nube utilizan "tablas nativas" que no están en formatos abiertos. Otras plataformas requieren que los clientes paguen por cómputo siempre activo, incluso al leer datos de motores externos. Y muchas plataformas restringen los formatos de datos y clientes que admiten.

Esto da como resultado datos aislados y una gobernanza fragmentada en todos los activos. Y sin una interfaz multimodal para datos tabulares, y mucho menos para activos de IA, las organizaciones necesitan unir múltiples soluciones dispares. Databricks ya adoptó una postura firme en la industria al ser la única plataforma importante donde todas las tablas están en formatos abiertos por defecto, y al abrir las tablas de Delta a los clientes de Iceberg con UniForm el año pasado. Al abrir el código de Unity Catalog, estamos brindando a las organizaciones una base abierta para sus cargas de trabajo actuales y futuras.

¿Por qué un catálogo multimodal de datos e IA?

En esta era de rápidos avances en IA, todas las empresas se han dado cuenta de que necesitarán gobernar datos y activos de IA juntos, ya sea administrando datos no estructurados para sistemas de IA compuestos o creando un catálogo de herramientas para aplicaciones de LLM agenticas. En Databricks, vimos esta necesidad de infraestructura integrada de datos e IA desde el principio, y lanzamos Unity Catalog hace tres años para unir estos dos mundos en un modelo de gobernanza consistente. Hoy, vemos a miles de clientes aprovechando la gobernanza unificada, que incluye:

  • Un espacio de nombres único para organizar y compartir tablas, datos no estructurados y activos de IA
  • Registros de auditoría centralizados de todas las actividades de datos e IA
  • Linaje unificado en cargas de trabajo de datos e IA
  • Colaboración interorganizacional a través del protocolo de Delta Sharing de código abierto.

Nuestros últimos lanzamientos en IA, como el concepto de Catálogos de Herramientas para agentes de IA generativa, también están diseñados para encajar en este modelo de gobernanza unificada.

Lanzamiento de Unity Catalog 0.1

Hoy, lanzamos la versión 0.1 de Unity Catalog de código abierto. Si bien algunas de nuestras API y funciones aún estarán en evolución, este lanzamiento muestra varias capacidades importantes de Unity Catalog:

  • Se pueden administrar juntas tablas, volúmenes (datos no estructurados) y herramientas/funciones de IA.
  • Las tablas pueden estar en múltiples formatos, incluidos Delta Lake, Iceberg a través de UniForm, Parquet, CSV y JSON.
  • Unity Catalog implementa la API de catálogo REST de Iceberg para el acceso desde el ecosistema del motor Iceberg, aprovechando la experiencia de Tabular.
  • La API admite la emisión de credenciales para controlar el acceso de los clientes al almacenamiento en la nube subyacente para tablas y volúmenes, centralizando la gobernanza en el servidor de catálogo.

Una imagen del blog de Unity Catalog.

¿Qué significa esto para los clientes de Databricks?

Si ya es cliente de Databricks, no hay nada que deba hacer de manera diferente. Las implementaciones existentes de Unity Catalog de los clientes implementan las mismas API abiertas, lo que permite a los clientes externos leer de todas las tablas (incluidas las tablas administradas y externas), volúmenes y funciones en Unity Catalog alojado desde el primer día, con sus controles de acceso existentes. Este cambio simplemente significa que un ecosistema más grande de clientes funcionará con su catálogo existente.

Las API REST de Unity permiten a nuestros socios y a la comunidad de código abierto crear integraciones potentes que permitirán a los clientes trabajar en sus tablas, datos no estructurados y herramientas/funciones de IA desde diversas aplicaciones, sin tarifas de acceso externas.

"AT&T está comprometido a hacer que nuestros datos sean interoperables con nuestras plataformas. Con el anuncio de la apertura del código de Unity Catalog, nos alienta el paso de Databricks para hacer posible la gobernanza del lakehouse y la gestión de metadatos a través de estándares abiertos. La flexibilidad para utilizar herramientas interoperables con nuestros activos de datos e IA, con una gobernanza consistente, es fundamental para la estrategia de la plataforma de datos de AT&T."

— Matt Dugan, Vicepresidente de Plataformas de Datos, AT&T

 

"Nasdaq se enorgullece de aprovechar Unity Catalog de Databricks como parte de nuestra estrategia holística de gestión de datos. La decisión de Databricks de abrir el código de Unity Catalog proporciona una solución que ayuda a eliminar los silos de datos y esperamos escalar aún más nuestra plataforma, mejorar nuestra gobernanza y modernizar nuestras aplicaciones de datos mientras continuamos brindando valor a nuestros clientes."

— Lenny Rosenfeld, Vicepresidente de Plataformas de Acceso de Capital, Nasdaq

 

"En Rivian, la adopción de la Plataforma Databricks nos ha permitido utilizar datos e IA en la construcción de nuestros EAV de próxima generación. Estamos entusiasmados con la apertura del código de Unity Catalog por parte de Databricks y el lanzamiento de API abiertas para lograr la interoperabilidad en nuestro panorama de datos sin preocupaciones de dependencia del proveedor. Combinado con el soporte para todos nuestros activos de datos (datos estructurados y no estructurados, modelos de ML y herramientas de Gen AI), fue una decisión fácil estandarizar en Unity Catalog."

— Jason Shiverick, Director de Plataformas de IA, Rivian

 

Ecosistema de código abierto

Estamos entusiasmados de asociarnos con proveedores líderes de la nube, plataformas de datos e IA, y motores de cómputo para avanzar en el estándar de Unity Catalog en los próximos meses. Incluyen a los principales proveedores de software y proyectos de código abierto en IA, análisis de datos, datos no estructurados y gobernanza, que podrán conectarse fácilmente a los servidores de código abierto de Unity Catalog y a Databricks.

Unity Catalog - Abierto e Interoperable

 


"AWS da la bienvenida al movimiento de Databricks para abrir el código de Unity Catalog. AWS está comprometido a trabajar con la industria en soluciones de código abierto que brinden opciones e interoperabilidad a los clientes."

— Chris Grusz, Director Gerente de Alianzas Tecnológicas, AWS

 

"Microsoft está comprometido con la comunidad de código abierto y en empoderar a los clientes con opciones. Databricks ha sido un socio estratégico durante años y es genial ver que abren el código de Unity Catalog. Creemos que los estándares verdaderamente abiertos con amplia participación de la industria son lo mejor para los clientes. Nuestra colaboración con Databricks continúa elevando a Microsoft Azure como la mejor opción para cargas de trabajo de datos e IA."

— Jessica Hawk, CVP de Datos, IA y Aplicaciones Digitales, Microsoft  

 

"Google está comprometido con soluciones abiertas y flexibles que empoderan a los clientes para maximizar el valor de sus datos. La estrategia de Databricks de abrir el estándar Unity Catalog para datos e IA se alinea muy bien con nuestra estrategia."

— Ritika Suri, Directora de Alianzas Tecnológicas de Datos e IA, Google Cloud

Hoja de ruta futura

Este es solo el punto de partida para el proyecto de código abierto Unity Catalog. Unity Catalog es utilizado por miles de clientes en producción y es el resultado de años de ingeniería, por lo que estamos migrando esta funcionalidad al proyecto de código abierto en etapas, priorizando el acceso y la interoperabilidad del cliente para empezar.

En los próximos meses, agregaremos soporte mejorado para las API que son críticas para sus cargas de trabajo de datos e IA, incluyendo:

  • API de escritura de tablas independientes del formato
  • Vistas
  • Delta Sharing
  • Modelos (con integración de MLflow)
  • Funciones remotas
  • API de control de acceso
  • Y más

Empieza hoy mismo

Puedes unirte a la comunidad de código abierto de Unity Catalog en unitycatalog.io. Para los clientes de Databricks, mantente atento al ecosistema en rápida evolución de herramientas de datos e IA que se integran con Unity Catalog.


"Salesforce Data Cloud se construye desde cero sobre Estándares Abiertos con Apache Parquet y Apache Iceberg. Nuestras innovaciones de copia cero permiten a los clientes desbloquear datos, obtener información y orquestar acciones en Customer 360. La adopción de Apache Iceberg por parte de Databricks a través de UniForm y Unity Catalog aborda desafíos clave de interoperabilidad entre Delta Lake e Iceberg. Estamos entusiasmados de tener a Databricks como miembro de nuestra Red de Socios de Copia Cero y esperamos innovaciones conjuntas con el nuevo Unity Catalog abierto, brindando un valor convincente a los clientes en datos estructurados, datos no estructurados y modelos de IA."

— Ravi Loganathan, Vicepresidente Ejecutivo de Ingeniería de Software, Salesforce  

 

"Los datos empresariales son esenciales para desarrollar aplicaciones de IA generativa precisas. NVIDIA trabaja en estrecha colaboración con nuestro ecosistema de socios para apoyar ofertas de código abierto como Unity Catalog, que puede ayudar a los clientes a curar pipelines de desarrollo eficientes y potentes."

— Pat Lee, VP de Alianzas Estratégicas Empresariales, NVIDIA

 

"Delta Kernel ha simplificado enormemente la construcción de la Extensión Delta de DuckDB, permitiendo un fácil acceso a Delta Lake desde DuckDB. Estamos encantados de asociarnos con Databricks en Delta Kernel y el estándar abierto Unity Catalog para datos e IA. Esta colaboración representa un paso significativo hacia la innovación de código abierto y el desarrollo de data lakehouses abiertos."

— Hannes Mühleisen, CEO, DuckDB Labs

 

"La decisión de Databricks de abrir el código de Unity Catalog es un desarrollo emocionante para la comunidad de datos e IA. Estamos entusiasmados de asociarnos con Databricks para integrar Unity Catalog con LangChain, lo que permite a nuestros usuarios compartidos construir agentes avanzados utilizando las funciones de Unity Catalog como herramientas."

— Harrison Chase, CEO y Fundador, LangChain

 

"Unstructured es la solución líder de ETL de datos no estructurados para LLMs, ayudando a las organizaciones a transformar sus datos de crudos a listos para RAG. Nuestra integración con Unity Catalog tiene perfecto sentido, ya que rompemos silos de datos y aceleramos el desarrollo de IA/ML en empresas. Estamos entusiasmados de asociarnos con Databricks para desarrollar este estándar abierto para casos de uso de IA y para estandarizar metadatos para datos no estructurados, ayudando a nuestros clientes a operar a la vanguardia de la IA."

— Brian Raymond, CEO y Fundador, UnstructuredIO

 

"En Eventual, hemos construido Daft, el motor de consulta distribuido de código abierto líder para datos multimodales. Creemos que unificar el cómputo para datos tabulares y no estructurados no es suficiente y que un catálogo multimodal es crucial para construir data lakehouses GenAI. Estamos entusiasmados de asociarnos con Databricks y otros innovadores de IA para desarrollar el estándar abierto Unity Catalog para cargas de trabajo modernas de datos+IA."

— Sammy Sidhu, CEO y Fundador, Eventual Computing

 

"En Granica, defendemos la democratización de datos y la libertad de la dependencia de proveedores. Nuestra tecnología Safe Room garantiza la privacidad, la confianza y la seguridad en los flujos de trabajo de IA generativa, al tiempo que admite estándares abiertos como Unity Catalog, Delta Lake y Apache Iceberg. La arquitectura neutral de Unity Catalog y sus sólidas soluciones de gobernanza se alinean con nuestra visión de proporcionar a los clientes flexibilidad y control sobre sus datos. Estamos entusiasmados de contribuir a este ecosistema abierto, impulsando la innovación y permitiendo a los clientes trabajar sin problemas con sus datos en las mejores plataformas."

— Rahul Ponnala, CEO y Co-fundador, Granica

 

"Abrir el código de Unity Catalog es un paso fundamental hacia un ecosistema de datos más colaborativo e innovador. Al hacer que esta tecnología sea accesible, Databricks está fomentando un entorno donde toda la comunidad puede contribuir y beneficiarse de capacidades mejoradas de gobernanza y gestión de datos. Este movimiento se alinea con nuestra visión en Onehouse y Apache XTable (Incubating) de apoyar la interoperabilidad de formatos abiertos que impulsa el progreso y la innovación para todos."

— Vinoth Chandar, CEO y Co-fundador, Onehouse

 

"La misión de Confluent es poner los datos en movimiento y permitir que las organizaciones aprovechen sus datos en todas partes. Nos complace ver que Databricks realiza una contribución significativa a un ecosistema de datos abierto con la apertura de Unity Catalog. Tableflow en Confluent Cloud permitirá la entrega fácil de datos en tiempo real a lugares como un data lake, convirtiendo flujos de datos en tablas Iceberg con un solo clic. Al combinar nuestras capacidades de streaming líderes en la industria con las sólidas soluciones de gestión de datos de Databricks, los clientes podrán poner sus datos a trabajar de manera más efectiva que nunca."

— Shaun Clowes, CPO, Confluent

 

"Juntos, Databricks y dbt Cloud ayudan a los usuarios a romper silos de datos para colaborar de manera efectiva, simplificar ETL para reducir el TCO con Delta Lake y unificar la gobernanza con Unity Catalog. Estamos encantados de anunciar nuestro soporte para Unity Catalog y las API abiertas. Esta asociación subraya nuestro compromiso de proporcionar una experiencia de datos unificada, empoderando a nuestra comunidad para lograr una mayor comprensión e impulsar la innovación."

— Mark Porter, CTO dbt Labs

 

"Estamos encantados de ver que Databricks abre Unity Catalog como un estándar abierto para datos e IA. Este movimiento proporcionará a nuestros clientes una mayor elección y flexibilidad en su ecosistema de datos, asegurando una integración perfecta y maximizando la interoperabilidad con la plataforma de Fivetran al ingerir datos críticos en Databricks."

— Anjan Kundavaram, CPO, Fivetran

 

"La exposición de patrones de acceso nativos dentro de Unity Catalog ha transformado la forma en que nuestro negocio puede optimizar el acceso a los datos y aplicar reglas de gobernanza a escala, sin impacto en el rendimiento. La continua inversión de Databricks en una comunidad para acelerar servicios que facilitan la creación de controles de datos permite a nuestros clientes gobernar con mayor facilidad y gestionar el volumen masivo de nuevos consumidores de datos que se incorporan en la era de la IA."

— Matthew Carroll, CEO, Immuta

 

"Estamos entusiasmados de ver la oportunidad para nuestros clientes conjuntos, ya que Databricks abre Unity Catalog como un estándar abierto para datos e IA. Con Unity Catalog y la Plataforma Inteligente de Gestión de Datos de Informatica, los clientes pueden obtener una mayor elección, flexibilidad e interoperabilidad en sus ecosistemas de datos."

— Brett Roscoe, GM y SVP de Gobernanza de Datos en la Nube y Operaciones en la Nube, Informatica

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.