Ir al contenido principal

Anuncio de disponibilidad general de Lakehouse Federation

Descubre, consulta y gobierna todos tus datos, sin importar dónde residan

Lakehouse Federation

Publicado: 1 de agosto de 2024

Anuncios6 min de lectura

Hoy, nos complace anunciar que Lakehouse Federation en Unity Catalog ya está disponible Generalmente (GA) en AWS, Azure y GCP. Lakehouse Federation te permite descubrir, consultar y gobernar todos tus datos en un solo lugar. Con este lanzamiento GA, puedes esperar mayor estabilidad, seguridad y preparación empresarial para tus cargas de trabajo federadas.

En esta publicación de blog, repasamos las capacidades GA de Lakehouse Federation, exploramos cómo está impulsando análisis ágiles en las empresas líderes del mundo y discutimos los próximos pasos.

Introducción a Lakehouse Federation

Las organizaciones de todo el mundo, independientemente de su tamaño o industria, están aprovechando los datos y la IA para impulsar la innovación. Sin embargo, debido a razones históricas, organizacionales o tecnológicas, los datos a menudo permanecen dispersos en múltiples sistemas operativos y analíticos. Esta fragmentación genera varios desafíos:

  1. Dificultad para descubrir y acceder a todos los datos
  2. Ejecución lenta debido a cuellos de botella de ingeniería
  3. Cumplimiento débil en sistemas aislados

Lakehouse Federation aborda estos puntos débiles críticos y facilita que las organizaciones expongan, consulten y gobiernen sistemas de datos aislados como una extensión de su lakehouse. Con estas nuevas capacidades, puedes:

  1. Crear una vista unificada de tu patrimonio de datos: Clasifica y descubre automáticamente todos tus datos, estructurados y no estructurados, en un solo lugar y permite que todos en tu organización accedan y exploren de forma segura todos los datos disponibles a su alcance, sin importar dónde residan.
  2. Consulta y combina todos los datos de manera eficiente con un solo motor: Acelera el análisis ad hoc y la creación de prototipos en todos tus casos de uso de datos, análisis e IA con los datos más completos, sin necesidad de ingesta, con un solo motor. La planificación avanzada de consultas entre orígenes y el almacenamiento en caché garantizan un rendimiento de consulta óptimo, incluso al acceder y combinar datos de múltiples plataformas con una sola consulta.
  3. Salvaguarda los datos en todas las fuentes de datos: Utiliza un modelo de permisos para establecer y aplicar reglas de acceso y salvaguardar todos tus datos en todas las fuentes de datos. Aplica reglas como seguridad a nivel de fila y columna, políticas basadas en etiquetas, auditoría centralizada de manera consistente en todas las plataformas, rastrea el uso de datos y cumple con los requisitos de cumplimiento con linaje de datos y auditabilidad integrados.

Más de 5,000 clientes de Databricks están aprovechando Lakehouse Federation para unificar sus patrimonios de datos, garantizando un descubrimiento y gobernanza de datos consistentes.

Lakehouse Federation

"Lakehouse Federation nos ha permitido combinar todos nuestros activos de datos en múltiples almacenes de datos y bases de datos bajo Unity Catalog, simplificando el descubrimiento de datos y la gestión de acceso. Esto desbloquea una variedad de casos de uso, incluida la ingesta y las consultas ad hoc, lo que hace que nuestros análisis sean más fáciles que nunca." — Alexander Booth, Director Asistente de Investigación de los Texas Rangers

Disponibilidad General

Nos complace anunciar la Disponibilidad General para los conectores de MySQL, PostgreSQL, Amazon Redshift, Snowflake, Azure SQL Database, SQL Server y Azure Synapse.

Este lanzamiento marca un hito importante en varias áreas:

  1. Rendimiento mejorado: Con este lanzamiento, hemos aumentado significativamente la cobertura de expresiones y operadores que podemos enviar (es decir, delegar a la base de datos subyacente) a las conexiones de SQL Server, Postgres, MySQL, Snowflake, Redshift y Synapse. En la práctica, esto significará consultas de menor latencia y creación más rápida de Vistas Materializadas (MV), todo sin requerir que los usuarios modifiquen sus consultas.
  2. Estabilidad y observabilidad mejoradas: Hemos actualizado nuestro marco de federación y envío para que sea más resistente y maneje escenarios de falla sin afectar las cargas de trabajo del usuario.
    También hemos introducido Perfiles de Consulta mejorados para admitir metadatos y estadísticas específicas de la federación, brindando a los administradores mejores formas de monitorear y auditar.
  3. Nuevas opciones de seguridad: A partir de las fuentes del ecosistema de Azure y Snowflake, estamos agregando soporte para opciones de autenticación sin contraseña, soporte de Azure AD/Entra ID para Azure SQL y soporte de OAuth para Snowflake. En los próximos meses, también desarrollaremos capacidades similares para los ecosistemas de AWS y Google.
"Lakehouse Federation nos ha ayudado a consolidar nuestro panorama de datos con gobernanza consistente en un solo lugar y a generar importantes ganancias de eficiencia operativa. Los insights y la calidad de los datos ahora están integrados sin problemas, lo que nos permite enfocarnos en brindar a nuestros clientes los mejores insights para maximizar el valor de sus inversiones en publicidad." — Bob Wuisman, Director Global de Producción de Ebiquity plc.
GUÍA

Tu guía compacta para el análisis moderno

¿Qué sigue?

Federación de Catálogos

Federación de Hive
La federación de catálogos habilita funciones de Unity Catalog como máscaras de columna, comentarios de IA y linaje en tablas de Hive Metastore y Glue

Descubre, gobierna y accede a datos de Hive Metastore (HMS) y AWS Glue con Lakehouse Federation. Con Catalog Federation, podrás montar fácilmente cualquier HMS externo (o interno de Databricks) como un catálogo externo en Unity Catalog.

Para los usuarios de Databricks HMS (interno), esta es una forma sencilla y directa de comenzar con Unity Catalog y beneficiarse de las capacidades de gobernanza unificada que proporciona Unity Catalog.

Para los usuarios de HMS y AWS Glue externos, proporciona una forma estrechamente integrada de acceder a datos de metadatos externos directamente desde Unity Catalog sin cambiar tus flujos de trabajo. 

Catalog Federation está actualmente en Private Preview.

Nuevos Conectores

Ampliar la lista de orígenes de datos compatibles para Lakehouse Federation sigue siendo una prioridad principal en nuestra misión de ayudar a los clientes a unificar sus patrimonios de datos. Nos complace anunciar que los conectores de Google BigQuery, que completan el soporte de federación de almacenes de datos en los tres principales proveedores de nube, y Salesforce Data Cloud ahora están en Public Preview.

Conexiones de Lakehouse Federation
Nuevos conectores para Salesforce Data Cloud, Google Bigquery y Hive Metastore

Los conectores de Oracle y Teradata estarán disponibles pronto en vista previa.

Conexiones de Data Warehouse de Alto Rendimiento

Para ofrecer una experiencia de consulta más rápida en almacenes de datos, que tienden a contener tablas más grandes, estamos añadiendo capacidades para realizar transferencias de datos automáticas de alto rendimiento. 

En el futuro, comenzando con los conectores de Amazon Redshift & Snowflake, podrás consultar y materializar tablas de almacenes de datos rápidamente. Detrás de escena, Lakehouse Federation aprovechará las API más rápidas/masivas (por ejemplo, descarga a almacenamiento de objetos o ubicación provisional en paralelo) y obtendrá estos resultados en paralelo (sin cuellos de botella del controlador). ¡Todo sin ninguna intervención del usuario!

Compartir para Lakehouse Federation

Compartir para Lakehouse Federation

Finalmente, compartir datos de Lakehouse Federation será mucho más fácil. La próxima integración de Delta Sharing permitirá a los clientes compartir tablas federadas externamente sin que los destinatarios necesiten acceso a Databricks o al sistema de datos subyacente. Esto agilizará el intercambio de datos al eliminar la necesidad de copias redundantes en diferentes sistemas.

Comienza

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.