¿Qué es un Lakehouse?

Publicado: 30 de enero de 2020

Plataforma8 min de lectura

por Ben Lorica, Michael Armbrust, Reynold Xin, Matei Zaharia y Ali Ghodsi

En los últimos años en Databricks, hemos visto una nueva arquitectura de gestión de datos que surgió de forma independiente en muchos clientes y casos de uso: el lakehouse. En esta publicación, describimos esta nueva arquitectura y sus ventajas sobre los enfoques anteriores.

Los almacenes de datos tienen una larga historia en el soporte de decisiones y en las aplicaciones de inteligencia de negocios. Desde su creación a finales de la década de 1980, la tecnología de los almacenes de datos siguió evolucionando y las arquitecturas MPP dieron lugar a sistemas capaces de manejar mayores volúmenes de datos. Pero aunque los almacenes eran excelentes para los datos estructurados, muchas empresas modernas tienen que lidiar con datos no estructurados, datos semiestructurados y datos con gran variedad, velocidad y volumen. Los almacenes de datos no son adecuados para muchos de estos casos de uso y, desde luego, no son los más rentables.

A medida que las empresas empezaron a recopilar grandes cantidades de datos de muchas fuentes diferentes, los arquitectos empezaron a concebir un único sistema para albergar datos para muchos productos y cargas de trabajo analíticos diferentes. Hace aproximadamente una década, las empresas empezaron a construir lagos de datos, repositorios de datos sin procesar en una gran variedad de formatos. Aunque son adecuados para almacenar datos, los lagos de datos carecen de algunas características fundamentales: no admiten transacciones, no garantizan la calidad de los datos y su falta de consistencia/aislamiento hace que sea casi imposible mezclar anexos y lecturas, y trabajos por lotes y de streaming. Por estas razones, muchas de las promesas de los lagos de datos no se han materializado y, en muchos casos, han provocado la pérdida de muchas de las ventajas de los almacenes de datos.

La necesidad de un sistema flexible y de alto rendimiento no ha disminuido. Las empresas requieren sistemas para diversas aplicaciones de datos, como análisis de SQL, monitoreo en tiempo real, ciencia de datos y machine learning. La mayoría de los avances recientes en IA se han dado en mejores modelos para procesar datos no estructurados (texto, imágenes, video, audio), pero estos son precisamente los tipos de datos para los que un data warehouse no está optimizado. Un enfoque común es usar múltiples sistemas: un data lake, varios data warehouses y otros sistemas especializados, como bases de datos de streaming, de series temporales, de grafos y de imágenes. Tener una multitud de sistemas introduce complejidad y, lo que es más importante, genera demoras, ya que los profesionales de datos invariablemente necesitan mover o copiar datos entre los diferentes sistemas.

¿Qué es un Lakehouse?

Están comenzando a surgir nuevos sistemas que abordan las limitaciones de los lagos de datos. Un lakehouse es una arquitectura nueva y abierta que combina los mejores elementos de los data lakes y los data warehouses. Los lakehouses son posibles gracias a un nuevo diseño de sistema que implementa estructuras de datos y características de gestión de datos similares a las de un almacén de datos, directamente sobre un almacenamiento en la nube de bajo costo y en formatos abiertos. Son lo que obtendría si tuviera que rediseñar los almacenes de datos en el mundo moderno, ahora que se dispone de almacenamiento económico y de alta fiabilidad (en forma de almacenes de objetos).

Un lakehouse tiene las siguientes características clave:

Soporte para transacciones: En un lakehouse empresarial, muchos pipelines de datos suelen leer y escribir datos de forma concurrente. El soporte para transacciones ACID garantiza la consistencia cuando varias partes leen o escriben datos de forma concurrente, generalmente usando SQL.
Aplicación y gobernanza de esquemas: el Lakehouse debe tener una manera de admitir la aplicación y la evolución de esquemas, y ser compatible con arquitecturas de esquemas de DW, como los esquemas de estrella o de copo de nieve. El sistema debe poder analizar la integridad de los datos y debe tener mecanismos sólidos de gobernanza y auditoría.
Soporte de BI: los lakehouses permiten usar herramientas de BI directamente sobre los datos de origen. Esto reduce la obsolescencia y mejora la actualidad de los datos, reduce la latencia y disminuye el costo de tener que operacionalizar dos copias de los datos tanto en un data lake como en un warehouse.
El almacenamiento está desacoplado del cómputo: En la práctica, esto significa que el almacenamiento y el cómputo usan clústeres separados, por lo que estos sistemas pueden escalar para admitir a muchos más usuarios concurrentes y tamaños de datos más grandes. Algunos data warehouses modernos también tienen esta propiedad.
Apertura: los formatos de almacenamiento que utilizan son abiertos y estandarizados, como Parquet, y proporcionan una API para que una variedad de herramientas y motores, incluidas las bibliotecas de machine learning y Python/R, puedan acceder a los datos de manera eficiente directamente.
Soporte para diversos tipos de datos, desde datos no estructurados hasta datos estructurados: El lakehouse se puede utilizar para almacenar, refinar, analizar y acceder a los tipos de datos necesarios para muchas nuevas aplicaciones de datos, como imágenes, video, audio, datos semiestructurados y texto.
Soporte para diversas cargas de trabajo: incluyendo ciencia de datos, aprendizaje automático, y SQL y análisis. Es posible que se necesiten varias herramientas para soportar todas estas cargas de trabajo, pero todas ellas se basan en el mismo repositorio de datos.
Streaming de extremo a extremo: Los informes en tiempo real son la norma en muchas empresas. La compatibilidad con el streaming elimina la necesidad de sistemas separados dedicados a servir aplicaciones de datos en tiempo real.

Estos son los atributos clave de los lakehouses. Los sistemas de nivel empresarial requieren características adicionales. Las herramientas para la seguridad y el control de acceso son requisitos básicos. Las capacidades de gobernanza de datos, como la auditoría, la retención y el linaje, se han vuelto esenciales, especialmente a la luz de las recientes normativas sobre privacidad. También se necesitan herramientas que permitan el descubrimiento de datos, como los catálogos de datos y las métricas de uso de datos. Con un lakehouse, estas características empresariales solo necesitan implementarse, probarse y administrarse para un único sistema.

Lea el artículo de investigación completo sobre el funcionamiento interno del Lakehouse.

Algunos ejemplos iniciales

La plataforma Lakehouse de Databricks tiene las características arquitectónicas de un lakehouse. El servicio Azure Synapse Analytics de Microsoft, que se integra con Azure Databricks, permite un patrón de lakehouse similar. Otros servicios gestionados, como BigQuery y Redshift Spectrum, tienen algunas de las características del lakehouse mencionadas anteriormente, pero son ejemplos que se centran principalmente en BI y otras aplicaciones de SQL. Las empresas que quieran construir e implementar sus propios sistemas tienen acceso a formatos de archivo de código abierto (Delta Lake, Apache Iceberg, Apache Hudi) que son adecuados para construir un lakehouse.

La fusión de los data lakes y los data warehouses en un único sistema significa que los equipos de datos pueden avanzar más rápido, ya que pueden usar los datos sin necesidad de acceder a múltiples sistemas. El nivel de soporte de SQL y la integración con herramientas de BI en estos primeros lakehouses suelen ser suficientes para la mayoría de los almacenes de datos empresariales. Las vistas materializadas y los procedimientos almacenados están disponibles, pero es posible que los usuarios deban emplear otros mecanismos que no sean equivalentes a los que se encuentran en los almacenes de datos tradicionales. Esto último es particularmente importante para los "escenarios de migración directa (lift-and-shift)", que requieren sistemas que logren una semántica casi idéntica a la de los almacenes de datos comerciales más antiguos.

¿Y el soporte para otros tipos de aplicaciones de datos? Los usuarios de un lakehouse tienen acceso a una variedad de herramientas estándar (Spark, Python, R, bibliotecas de aprendizaje automático) para cargas de trabajo que no son de BI, como la ciencia de datos y el aprendizaje automático. La exploración y el refinamiento de datos son estándar para muchas aplicaciones de análisis y ciencia de datos. Delta Lake está diseñado para permitir que los usuarios mejoren de forma incremental la calidad de los datos en su lakehouse hasta que estén listos para el consumo.

Una nota sobre los bloques de construcción técnicos. Aunque los sistemas de archivos distribuidos se pueden usar para la capa de almacenamiento, los almacenes de objetos se usan con más frecuencia en los lakehouses. Los almacenes de objetos proporcionan almacenamiento de bajo costo y alta disponibilidad, que se destacan en las lecturas masivamente paralelas, un requisito esencial para los almacenes de datos modernos.

De BI a IA

El lakehouse es una nueva arquitectura de gestión de datos que simplifica radicalmente la infraestructura de datos empresariales y acelera la innovación en una era en la que el machine learning está preparado para revolucionar todas las industrias. En el pasado, la mayor parte de los datos que se utilizaban en los productos o en la toma de decisiones de una empresa eran datos estructurados de sistemas operativos, mientras que, en la actualidad, muchos productos incorporan IA en forma de visión por computadora y modelos de voz, minería de textos y otros. ¿Por qué usar un lakehouse en lugar de un lago de datos para la IA? Un lakehouse proporciona versionado de datos, gobernanza, seguridad y las propiedades ACID que son necesarias incluso para los datos no estructurados.

Los lakehouses actuales reducen los costos, pero su rendimiento aún puede estar por debajo de los sistemas especializados (como los almacenes de datos) que tienen años de inversiones e implementaciones en el mundo real. Los usuarios pueden preferir ciertas herramientas (herramientas de BI, IDE, notebooks) a otras, por lo que los lakehouses también tendrán que mejorar su UX y sus conectores con las herramientas más populares para poder atraer a una gran variedad de perfiles. Estos y otros problemas se abordarán a medida que la tecnología siga madurando y desarrollándose. Con el tiempo, los lakehouses cerrarán estas brechas, conservando las propiedades principales de ser más simples, más rentables y más capaces de servir a diversas aplicaciones de datos.

Lea las preguntas frecuentes sobre Data Lakehouse para obtener más detalles.