Ir al contenido principal

¿Qué es Apache Kudu?

Un motor de almacenamiento en columnas que cierra la brecha entre la ingesta rápida de datos y el análisis eficiente, combinando la velocidad de actualización de HBase con el rendimiento de consultas de Parquet.

10 Personas Data Engineering

Summary

  • Apache Kudu ofrece acceso aleatorio a escala de milisegundos, combinado con escaneos de columnas eficientes, lo que permite análisis en tiempo real y actualizaciones rápidas de datos estructurados dentro del ecosistema Hadoop.
  • Divide las tablas en tabletas mediante particionamiento hash o por rango con consenso RAFT para lograr escalabilidad horizontal y alta disponibilidad en hardware estándar.
  • Se integra perfectamente con Impala y Spark para consultas basadas en SQL, lo que admite cargas de trabajo de series temporales y casos de uso que requieren inserciones rápidas y escaneos analíticos en la misma capa de almacenamiento.

¿Qué es Apache Kudu?

Apache Kudu es un sistema de almacenamiento en columnas gratuito y de código abierto desarrollado para Apache Hadoop. Es un motor destinado a datos estructurados que admite acceso aleatorio de baja latencia a escala de milisegundos a filas individuales junto con excelentes patrones de acceso analítico. Es un motor de big data creado para establecer la conexión entre el ampliamente extendido sistema de archivos distribuido de Hadoop [HDFS] y la base de datos NoSQL HBase.

LÍDER 5X

Gartner®: Databricks, líder en bases de datos en la nube

Principales ventajas de Apache Kudu para darle soporte a la inteligencia de negocios [BI] en Hadoop

Permite la analítica en tiempo real de datos rápidos

Apache Kudu combina los beneficios de HBase y Parquet. Es tan rápido como HBase en la ingesta de datos y casi tan rápido como Parquet cuando se trata de consultas de analítica. Admite varios tipos de consultas, lo que le permite realizar las siguientes operaciones:

  • Buscar un determinado valor a través de su clave.
  • Buscar un rango de claves que se hayan ordenado por clave.
  • Realizar consultas arbitrarias en tantas columnas como sea necesario.

Totalmente distribuido y tolerante a fallas

Apache Kudu emplea el algoritmo de consenso RAFT, por lo que puede escalarse horizontalmente según sea necesario. Además, viene con soporte para la función de actualización en el lugar.

Aprovecha la próxima generación de hardware

Apache Kudu viene optimizado para SSD y está diseñado para aprovechar la próxima memoria persistente. Es capaz de escalar a decenas de núcleos por servidor e incluso beneficiarse de las operaciones SIMD para el cálculo paralelo de datos.

Proporciona la mutabilidad necesaria para BI en big data

Incluye una “dimensión que cambia lentamente”, también conocida como SCD. Esta capacidad permite al usuario realizar un seguimiento de los cambios dentro de los datos de referencia dimensional.

Kudu admite SQL si se emplea con Spark o Impala

¿Deseas acceder a los datos a través de SQL? Entonces, te alegrará saber que Apache Kudu tiene una estrecha integración con Apache Impala y Spark. Como consecuencia, podrás emplear estas herramientas para insertar, consultar, actualizar y eliminar datos de las tabletas Kudu al usar su sintaxis SQL. Además, puedes usar JDBC u ODBC para conectar aplicaciones nuevas o existentes sin importar el lenguaje en el que se escribieron, marcos e incluso herramientas de inteligencia empresarial a tus datos de Kudu, al usar Impala como herramienta para hacer esto.

Recursos adicionales

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.