por Indrajit Roy
Databricks continúa liderando la innovación en ingeniería, ampliando constantemente los límites de lo posible en el espacio de Datos e IA. Nos complace anunciar que nuestro trabajo en Spark Declarative Pipelines se presentará en SIGMOD 2026 y ha recibido una mención de honor en la conferencia. Asistiremos a SIGMOD, del 1 al 5 de junio, como patrocinador Platino. SIGMOD se llevará a cabo en Bangalore, India, que también es un gran centro de I+D de Databricks.
Nuestros próximos artículos sobre ingeniería de datos muestran cómo Databricks ha simplificado el procesamiento incremental para los clientes. Hay dos formas de escribir programas incrementales en Spark Declarative Pipelines (SDP), y los clientes pueden combinarlas dentro de una canalización:
Aquí hay un adelanto del artículo de Enzyme y en qué ha estado trabajando el equipo:
Digamos que eres un analista en una empresa y quieres analizar el número total de pedidos vendidos en una región. La vista materializada a continuación proporciona la respuesta.
CREATE MATERIALIZED VIEW order_report as
SELECT region, sum(orders)
FROM customer_and_order_table
GROUP by region
A medida que se agregan nuevos pedidos, esperas que la vista materializada se mantenga actualizada. Este mantenimiento de datos es esencialmente el problema de mantenimiento incremental de vistas. Si bien mantener actualizada la MV de juguete anterior parece simple, imagina si la MV necesitara unir datos de múltiples tablas, tuviera funciones de ventana o hiciera llamadas a funciones LLM.
Las vistas materializadas (MV) son populares para la aceleración de consultas, acelerando los paneles en datos que residen en almacenes de datos. Al crear Spark Declarative Pipelines, decidimos ir más allá de la aceleración de consultas y aplicar vistas materializadas a los casos de uso extract-transform-load (ETL). Nuestra observación clave es que si las MV se pueden mantener de manera eficiente e incremental, simplificarán significativamente las cargas de trabajo ETL que de otro modo requerirían escribir código personalizado complejo.
Enzyme se suma a la rica literatura sobre el mantenimiento incremental de vistas materializadas y demuestra cómo escalar estas técnicas en cargas de trabajo de producción. Algunas de las innovaciones en las que trabajó el equipo son:

Figura 1: Enzyme tiene un rendimiento significativamente mejor que otra solución de la industria competidora (nombre anonimizado a CV-IVM debido a restricciones de licencia).
¿Interesado en aprender más? Consulta el artículo y si estás en SIGMOD, asiste a nuestra charla para más detalles.
Pasa por nuestro stand para conocer al equipo y aprender más sobre la innovación que está ocurriendo en Databricks. ¡Además, no pierdas la oportunidad de escuchar directamente a Ritwik Yadav durante su presentación en SIGMOD!
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.