La arquitectura Lambda es una forma de procesar grandes cantidades de datos (es decir, “Big Data”) que ofrece acceso a métodos de procesamiento por lotes y procesamiento de transmisión con un enfoque híbrido. La arquitectura Lambda se usa para resolver el problema del cálculo de funciones arbitrarias. La arquitectura Lambda en sí está compuesta por 3 capas:

Los nuevos datos llegan de forma continua al sistema de datos. Se envían simultáneamente a la capa por lotes y a la capa de velocidad. El sistema analiza todos los datos a la vez y, finalmente, los corrige en la capa de transmisión. Aquí podemos encontrar mucho ETL y un almacén de datos tradicional. Esta capa se crea con un cronograma predefinido, normalmente una o dos veces al día. La capa por lotes tiene dos funciones muy importantes:
Las salidas de la capa por lotes, en forma de vistas por lotes, y las que provienen de la capa de velocidad, en forma de vistas casi en tiempo real, se envían al servicio. Esta capa indexa las vistas por lotes para que se puedan consultar con baja latencia de forma ad hoc.
Esta capa gestiona los datos que aún no se entregan en la vista por lotes debido a la latencia de la capa por lotes. Además, solo maneja datos recientes para proporcionar una visión completa de los datos al usuario mediante la creación de vistas en tiempo real.
Estos son los principales beneficios de las arquitecturas lambda:
Delta Lake: fuente y destino unificados para procesamiento por lotes y de transmisión
