Ir al contenido principal

Presentación de las vistas materializadas y las tablas de streaming para Databricks SQL

Capacite a los analistas de datos para que puedan ingresar, transformar y entregar datos actualizados totalmente en SQL.

m

Publicado: 28 de junio de 2023

Anuncios8 min de lectura

Estamos encantados de anunciar que las vistas materializadas y las tablas de streaming ya están disponibles públicamente en Databricks SQL en AWS y Azure. Las tablas de streaming proporcionan una ingesta incremental desde el almacenamiento en la nube y las colas de mensajes. Las vistas materializadas se actualizan de forma automática e incremental a medida que llegan datos nuevos. Juntas, estas dos capacidades habilitan pipelines de datos sin infraestructura que son sencillos de configurar y que entregan datos actualizados al negocio. En esta entrada de blog, exploraremos cómo estas nuevas capacidades permiten a los analistas y a los ingenieros de análisis ofrecer aplicaciones de datos y análisis de manera más eficaz en el data warehouse.

Contexto

El almacenamiento y la ingeniería de datos son cruciales para cualquier organización que se base en datos. Los almacenes de datos sirven como la ubicación principal para el análisis y la generación de informes, mientras que la ingeniería de datos implica la creación de pipelines de datos para ingerir y transformar datos.

Sin embargo, los data warehouses tradicionales no están diseñados para la ingesta y la transformación de datos en streaming. Ingerir grandes volúmenes de datos con baja latencia en un almacén de datos tradicional es costoso y complejo porque los almacenes de datos heredados se diseñaron para el procesamiento por lotes. Como resultado, los equipos han tenido que implementar soluciones engorrosas que requerían configuraciones fuera del almacén y necesitaban usar el almacenamiento en la nube como una ubicación de preparación intermedia. Administrar estos sistemas es costoso, propenso a errores y de mantenimiento complejo.

La plataforma Lakehouse de Databricks rompe con este paradigma tradicional al proporcionar una solución unificada. Delta Live Tables (DLT) es el mejor lugar para hacer ingeniería de datos y streaming, y Databricks SQL ofrece una relación precio/rendimiento hasta 12 veces mejor para las cargas de trabajo de análisis en los lagos de datos existentes.

Además, ahora los socios como dbt pueden integrarse con estas capacidades nativas que describimos con más detalle más adelante en este anuncio.

Desafíos comunes que enfrentan los usuarios de almacenes de datos

Los almacenes de datos funcionan como la ubicación principal para el análisis y la entrega de datos para informes internos a través de aplicaciones de inteligencia de negocios (BI). Las organizaciones enfrentan varios desafíos al adoptar almacenes de datos:

  • Autoservicio: los analistas de SQL a menudo se enfrentan al desafío de depender de otros recursos y herramientas para solucionar problemas con los datos, lo que ralentiza el ritmo al que se pueden atender las necesidades del negocio.
  • Dashboards de BI lentos: los dashboards de BI creados con grandes volúmenes de datos suelen devolver los resultados con lentitud, lo que dificulta la interactividad y la usabilidad al responder a diversas preguntas.
  • Datos desactualizados: los dashboards de BI suelen presentar datos desactualizados, como los del día anterior, debido a que los trabajos de ETL se ejecutan solo por la noche.

Utilice SQL para incorporar y transformar datos sin herramientas de terceros

Las tablas de streaming y las vistas materializadas empoderan a los analistas de SQL con las mejores prácticas de ingeniería de datos. Considere un ejemplo de ingesta continua de archivos recién llegados desde una ubicación de S3 y la preparación de una tabla de informes sencilla. Con Databricks SQL, el analista puede descubrir y previsualizar rápidamente los archivos en S3 y configurar un pipeline de ETL simple en minutos, utilizando solo unas pocas líneas de código como en el siguiente ejemplo:

1- Descubrir y previsualizar datos en S3

2- Ingesta de datos en streaming

3- Agregar datos de forma incremental utilizando una vista materializada

¿Qué son las vistas materializadas?

Las vistas materializadas reducen el costo y mejoran la latencia de las consultas al precalcular las consultas lentas y los cálculos de uso frecuente. En un contexto de ingeniería de datos, se utilizan para transformar datos. Pero también son valiosas para los equipos de analistas en un contexto de almacenamiento de datos porque se pueden utilizar para (1) acelerar las consultas de los usuarios finales y los dashboards de BI, y (2) compartir datos de forma segura. Construidas sobre Delta Live Tables, las MV reducen la latencia de las consultas al precalcular consultas que de otro modo serían lentas y los cálculos de uso frecuente.

Presentación de vistas materializadas y tablas de streaming para Databricks SQL

Beneficios de las vistas materializadas:

  • Acelere los dashboards de BI. Debido a que las MV precalculan los datos, las consultas de los usuarios finales son mucho más rápidas porque no tienen que volver a procesar los datos consultando directamente las tablas base.
  • Reduce los costos de procesamiento de datos. Los resultados de las MV se actualizan de forma incremental, lo que evita la necesidad de reconstruir la vista por completo cuando llegan datos nuevos.
  • Mejorar el control de acceso a los datos para compartirlos de forma segura. Controle de manera más estricta los datos que pueden ver los consumidores al controlar el acceso a las tablas base.
LÍDER 5X

Gartner®: Databricks, líder en bases de datos en la nube

¿Qué son las tablas de streaming?

La ingesta en DBSQL se realiza con tablas de streaming (ST). Puede considerar que las ST son ideales para incorporar datos en las tablas “bronze”. Las ST habilitan la ingesta continua y escalable desde cualquier fuente de datos, incluido el almacenamiento en la nube, los buses de mensajes (EventHub, Apache Kafka) y más.

Presentación de vistas materializadas y tablas de streaming para Databricks SQL

Beneficios de las tablas de streaming:

  • Habilite casos de uso en tiempo real. Capacidad para admitir análisis/BI en tiempo real, machine learning y casos de uso operativos con datos de streaming.
  • Mejor escalabilidad. Manejar más eficientemente los grandes volúmenes de datos mediante el procesamiento incremental en lugar de grandes lotes.
  • Habilite a más profesionales. La sintaxis SQL simple hace que el streaming de datos sea accesible para todos los ingenieros de datos y analistas.

Historia de un cliente: cómo Adobe y Danske Spil aceleran las consultas de dashboards con vistas materializadas

Presentación de vistas materializadas y tablas de streaming para Databricks SQL

Databricks SQL permite a los analistas de SQL y de datos ingerir, limpiar y enriquecer datos fácilmente para satisfacer las necesidades del negocio sin depender de herramientas de terceros. Todo se puede hacer completamente en SQL, lo que agiliza el flujo de trabajo.

Al aprovechar las vistas materializadas y las tablas de streaming, puede:

  • Empodere a sus analistas: los analistas de datos y SQL pueden ingerir, limpiar y enriquecer datos fácilmente para satisfacer rápidamente las necesidades de su negocio. Debido a que todo se puede hacer completamente en SQL, no se necesitan herramientas de terceros.
  • Acelere los paneles de BI: cree vistas materializadas para acelerar el análisis de SQL y los informes de BI mediante el precálculo de los resultados con antelación.
  • Pásese al análisis en tiempo real: combine las MV con tablas de streaming para crear pipelines de datos incrementales para casos de uso en tiempo real. Puede configurar pipelines de datos de streaming para la incorporación y transformación directamente en el almacén de Databricks SQL.

Adobe tiene un enfoque avanzado de la IA, con la misión de hacer que el mundo sea más creativo, productivo y personalizado con la inteligencia artificial como un copiloto que amplifica el ingenio humano. Como cliente principal de la versión preliminar de las vistas materializadas en Databricks SQL, ha visto enormes beneficios técnicos y empresariales que le ayudan a cumplir esta misión:

“La conversión a Vistas Materializadas ha dado como resultado una mejora drástica en el rendimiento de las consultas, con una disminución del tiempo de ejecución de 8 minutos a solo 3 segundos. Esto permite a nuestro equipo trabajar de manera más eficiente y tomar decisiones más rápidas basadas en la información obtenida de los datos. Además, los ahorros de costos adicionales realmente han ayudado”. — Karthik Venkatesan, gerente sénior de ingeniería de software de seguridad, Adobe

Fundada en 1948, Danske Spil es la lotería nacional de Dinamarca y fue uno de nuestros primeros clientes de la versión preliminar de las vistas materializadas de DB SQL. Søren Klein, líder del equipo de Ingeniería de Datos, comparte su perspectiva sobre lo que hace que las vistas materializadas sean tan valiosas para la organización:

“En Danske Spil, usamos las Vistas Materializadas para acelerar el rendimiento de nuestros datos de seguimiento del sitio web. Con esta característica, evitamos la creación de tablas innecesarias y la complejidad añadida, a la vez que obtenemos la velocidad de una vista persistente que acelera la solución de informes para el usuario final”. — Søren Klein, líder del equipo de ingeniería de datos, Danske Spil

Fácil ingesta y transformación de streaming con dbt

Databricks y dbt Labs colaboran para simplificar la ingeniería de análisis en tiempo real en la arquitectura de lakehouse. La combinación del popular marco de trabajo de ingeniería de análisis de dbt con la plataforma Lakehouse de Databricks proporciona potentes capacidades:

  • dbt + Streaming Tables: la ingesta de streaming desde cualquier fuente ahora está integrada en los proyectos de dbt. Mediante SQL, los ingenieros de análisis pueden definir e ingerir datos de la nube o de streaming directamente en sus canalizaciones de dbt.
  • dbt + Vistas materializadas: la creación de pipelines eficientes es más fácil con dbt al aprovechar las potentes capacidades de actualización incremental de Databricks. Los usuarios pueden utilizar dbt para crear y ejecutar pipelines respaldados por MV, lo que reduce los costos de infraestructura con un cómputo incremental y eficiente.

Conclusiones

El data warehousing y la ingeniería de datos son componentes críticos de cualquier empresa basada en datos. Sin embargo, gestionar soluciones separadas para cada aspecto es costoso, propenso a errores y difícil de mantener. La plataforma Lakehouse de Databricks incorpora las mejores capacidades de ingeniería de datos de forma nativa en Databricks SQL, lo que potencia a los usuarios de SQL con una solución unificada. Además, nuestra integración con socios como dbt permite a nuestros clientes en común aprovechar estas capacidades únicas para ofrecer información más rápida, análisis en tiempo real y flujos de trabajo de ingeniería de datos optimizados.

Puede empezar hoy mismo con Databricks y Databricks SQL, o consultar la documentación de las vistas materializadas y las tablas de streaming.

 

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.

¿Qué sigue?

Data Warehousing

28 de junio de 2023/6 min de lectura

Novidade no Unity Catalog: Lakehouse Federation

Social Card

Plataforma > Produtos > Anúncios

24 de abril de 2024/3 min de lectura

Anunciando a disponibilidade geral de notebooks Databricks em SQL Warehouses