Estamos encantados de anunciar que las vistas materializadas y las tablas de streaming ya están disponibles públicamente en Databricks SQL en AWS y Azure. Las tablas de streaming proporcionan una ingesta incremental desde el almacenamiento en la nube y las colas de mensajes. Las vistas materializadas se actualizan de forma automática e incremental a medida que llegan datos nuevos. Juntas, estas dos capacidades habilitan pipelines de datos sin infraestructura que son sencillos de configurar y que entregan datos actualizados al negocio. En esta entrada de blog, exploraremos cómo estas nuevas capacidades permiten a los analistas y a los ingenieros de análisis ofrecer aplicaciones de datos y análisis de manera más eficaz en el data warehouse.
El almacenamiento y la ingeniería de datos son cruciales para cualquier organización que se base en datos. Los almacenes de datos sirven como la ubicación principal para el análisis y la generación de informes, mientras que la ingeniería de datos implica la creación de pipelines de datos para ingerir y transformar datos.
Sin embargo, los data warehouses tradicionales no están diseñados para la ingesta y la transformación de datos en streaming. Ingerir grandes volúmenes de datos con baja latencia en un almacén de datos tradicional es costoso y complejo porque los almacenes de datos heredados se diseñaron para el procesamiento por lotes. Como resultado, los equipos han tenido que implementar soluciones engorrosas que requerían configuraciones fuera del almacén y necesitaban usar el almacenamiento en la nube como una ubicación de preparación intermedia. Administrar estos sistemas es costoso, propenso a errores y de mantenimiento complejo.
La plataforma Lakehouse de Databricks rompe con este paradigma tradicional al proporcionar una solución unificada. Delta Live Tables (DLT) es el mejor lugar para hacer ingeniería de datos y streaming, y Databricks SQL ofrece una relación precio/rendimiento hasta 12 veces mejor para las cargas de trabajo de análisis en los lagos de datos existentes.
Además, ahora los socios como dbt pueden integrarse con estas capacidades nativas que describimos con más detalle más adelante en este anuncio.
Los almacenes de datos funcionan como la ubicación principal para el análisis y la entrega de datos para informes internos a través de aplicaciones de inteligencia de negocios (BI). Las organizaciones enfrentan varios desafíos al adoptar almacenes de datos:
Las tablas de streaming y las vistas materializadas empoderan a los analistas de SQL con las mejores prácticas de ingeniería de datos. Considere un ejemplo de ingesta continua de archivos recién llegados desde una ubicación de S3 y la preparación de una tabla de informes sencilla. Con Databricks SQL, el analista puede descubrir y previsualizar rápidamente los archivos en S3 y configurar un pipeline de ETL simple en minutos, utilizando solo unas pocas líneas de código como en el siguiente ejemplo:
1- Descubrir y previsualizar datos en S3
2- Ingesta de datos en streaming
3- Agregar datos de forma incremental utilizando una vista materializada
Las vistas materializadas reducen el costo y mejoran la latencia de las consultas al precalcular las consultas lentas y los cálculos de uso frecuente. En un contexto de ingeniería de datos, se utilizan para transformar datos. Pero también son valiosas para los equipos de analistas en un contexto de almacenamiento de datos porque se pueden utilizar para (1) acelerar las consultas de los usuarios finales y los dashboards de BI, y (2) compartir datos de forma segura. Construidas sobre Delta Live Tables, las MV reducen la latencia de las consultas al precalcular consultas que de otro modo serían lentas y los cálculos de uso frecuente.

Beneficios de las vistas materializadas:
La ingesta en DBSQL se realiza con tablas de streaming (ST). Puede considerar que las ST son ideales para incorporar datos en las tablas “bronze”. Las ST habilitan la ingesta continua y escalable desde cualquier fuente de datos, incluido el almacenamiento en la nube, los buses de mensajes (EventHub, Apache Kafka) y más.

Beneficios de las tablas de streaming:

Databricks SQL permite a los analistas de SQL y de datos ingerir, limpiar y enriquecer datos fácilmente para satisfacer las necesidades del negocio sin depender de herramientas de terceros. Todo se puede hacer completamente en SQL, lo que agiliza el flujo de trabajo.
Al aprovechar las vistas materializadas y las tablas de streaming, puede:

Adobe tiene un enfoque avanzado de la IA, con la misión de hacer que el mundo sea más creativo, productivo y personalizado con la inteligencia artificial como un copiloto que amplifica el ingenio humano. Como cliente principal de la versión preliminar de las vistas materializadas en Databricks SQL, ha visto enormes beneficios técnicos y empresariales que le ayudan a cumplir esta misión:
“La conversión a Vistas Materializadas ha dado como resultado una mejora drástica en el rendimiento de las consultas, con una disminución del tiempo de ejecución de 8 minutos a solo 3 segundos. Esto permite a nuestro equipo trabajar de manera más eficiente y tomar decisiones más rápidas basadas en la información obtenida de los datos. Además, los ahorros de costos adicionales realmente han ayudado”. — Karthik Venkatesan, gerente sénior de ingeniería de software de seguridad, Adobe

Fundada en 1948, Danske Spil es la lotería nacional de Dinamarca y fue uno de nuestros primeros clientes de la versión preliminar de las vistas materializadas de DB SQL. Søren Klein, líder del equipo de Ingeniería de Datos, comparte su perspectiva sobre lo que hace que las vistas materializadas sean tan valiosas para la organización:
“En Danske Spil, usamos las Vistas Materializadas para acelerar el rendimiento de nuestros datos de seguimiento del sitio web. Con esta característica, evitamos la creación de tablas innecesarias y la complejidad añadida, a la vez que obtenemos la velocidad de una vista persistente que acelera la solución de informes para el usuario final”. — Søren Klein, líder del equipo de ingeniería de datos, Danske Spil
Databricks y dbt Labs colaboran para simplificar la ingeniería de análisis en tiempo real en la arquitectura de lakehouse. La combinación del popular marco de trabajo de ingeniería de análisis de dbt con la plataforma Lakehouse de Databricks proporciona potentes capacidades:
El data warehousing y la ingeniería de datos son componentes críticos de cualquier empresa basada en datos. Sin embargo, gestionar soluciones separadas para cada aspecto es costoso, propenso a errores y difícil de mantener. La plataforma Lakehouse de Databricks incorpora las mejores capacidades de ingeniería de datos de forma nativa en Databricks SQL, lo que potencia a los usuarios de SQL con una solución unificada. Además, nuestra integración con socios como dbt permite a nuestros clientes en común aprovechar estas capacidades únicas para ofrecer información más rápida, análisis en tiempo real y flujos de trabajo de ingeniería de datos optimizados.
Puede empezar hoy mismo con Databricks y Databricks SQL, o consultar la documentación de las vistas materializadas y las tablas de streaming.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Plataforma > Produtos > Anúncios
24 de abril de 2024/3 min de lectura

