Un formato de archivo de almacenamiento en columnas de código abierto que ofrece una compresión y un rendimiento de consulta excepcionales para cargas de trabajo de análisis de big data.
Apache Parquet es un formato de archivo de datos de código abierto y orientado a columnas, diseñado para el almacenamiento y la recuperación eficientes de datos. Ofrece esquemas eficientes de compresión y codificación de datos con un rendimiento mejorado para manejar datos complejos de forma masiva. Apache Parquet está diseñado para ser un formato de intercambio común tanto para cargas de trabajo por lotes como interactivas. Es similar a otros formatos de archivo de almacenamiento columnar disponibles en Hadoop, como RCFile y ORC.
Apache Parquet se implementa con el algoritmo de descomposición y ensamblaje de registros, que admite las estructuras de datos complejas que se pueden usar para almacenar los datos. Parquet está optimizado para trabajar con grandes volúmenes de datos complejos y ofrece varios métodos eficientes de compresión y codificación de datos. Este enfoque es ideal, sobre todo, para aquellas consultas que necesitan leer ciertas columnas de una tabla grande. Parquet puede leer solo las columnas necesarias, lo que minimiza en gran medida la IO.
CSV es un formato simple y común que usan muchas herramientas, como Excel, Google Sheets y muchas otras. Aunque los archivos CSV son el formato predeterminado para las canalizaciones de procesamiento de datos, tienen algunas desventajas:
Parquet ha ayudado a sus usuarios a reducir los requisitos de almacenamiento en al menos un tercio en grandes conjuntos de datos. Además, mejoró enormemente el tiempo de escaneo y deserialización y, por lo tanto, los costos generales. La siguiente tabla compara el ahorro y la aceleración que se obtienen al convertir los datos de formato CSV a Parquet.
| Conjunto de datos | Tamaño en Amazon S3 | Tiempo de ejecución de la consulta | Datos escaneados | Costo |
| Datos almacenados como archivos CSV | 1 TB | 236 segundos | 1.15 TB | $5.75 |
| Datos almacenados en formato Apache Parquet | 130 GB | 6.78 segundos | 2.51 GB | $0.01 |
| Ahorros | 87% menos al usar Parquet | 34 veces más rápido | 99 % menos de datos escaneados | Ahorro del 99.7% |
El proyecto de código abierto Delta Lake se basa en el formato Parquet y lo amplía, agregando funcionalidades adicionales como transacciones ACID en el almacenamiento de objetos en la nube, viaje en el tiempo, evolución de esquemas y comandos DML simples (CREATE/UPDATE/INSERT/DELETE/MERGE). Delta Lake implementa muchas de estas características importantes mediante el uso de un registro de transacciones ordenado que hace posible la funcionalidad de almacenamiento de datos en el almacenamiento de objetos en la nube. Obtén más información en la publicación del blog de Databricks Profundizando en Delta Lake: desglosando el registro de transacciones.
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.