Revenir au contenu principal

Qu'est-ce qu'Apache Kudu ?

Un moteur de stockage en colonnes qui comble le fossé entre l'ingestion rapide des données et l'analyse efficace, en combinant la vitesse de mise à jour d'HBase avec les performances de requête de Parquet.

10 Personas Data Engineering

Summary

  • Apache Kudu offre un accès aléatoire à l'échelle de la milliseconde, combiné à des analyses de colonnes efficaces, permettant ainsi l'analyse en temps réel et la mise à jour rapide des données structurées au sein de l'écosystème Hadoop.
  • Il divise les tables en tablettes à l'aide du partitionnement par hachage ou par plage avec consensus RAFT pour une scalabilité horizontale et une haute disponibilité sur du matériel standard.
  • Il s'intègre étroitement à Impala et Spark pour les requêtes SQL, prenant en charge les charges de travail de séries temporelles et les cas d'utilisation nécessitant à la fois des insertions rapides et des analyses approfondies sur la même couche de stockage.

Qu'est-ce qu'Apache Kudu ?

Apache Kudu est un système gratuit et open source de stockage en colonnes, développé pour Apache Hadoop. Destiné aux données structurées, ce moteur fournit un accès aléatoire à faible latence, à l'échelle de la milliseconde, à des rangées individuelles avec d'excellents modèles d'accès analytiques. C'est un moteur Big Data conçu pour établir une connexion entre le système de fichier distribué Hadoop (Hadoop Distributed File System ou HDFS), très répandu, et les bases de données NoSQL HBase.

UN LEADER 5X

Gartner® : Databricks, leader des bases de données cloud

Principaux avantages d'Apache Kudu pour la Business Intelligence (BI) sur Hadoop

Il permet d'appliquer de l'analytique en temps réel à des données très véloces

Apache Kudu réunit les atouts de HBase et Parquet. Il est aussi rapide que HBase pour l'acquisition des données et presque aussi rapide que Parquet en matière de requêtes analytiques. Il prend en charge plusieurs types de requêtes, ce qui vous permet de réaliser les opérations suivantes :

  • Recherche d'une certaine valeur à l'aide de sa clé
  • Recherche d'une plage de clés triées dans un ordre de clés
  • Requêtes arbitraires sur autant de colonnes que nécessaire

Il est entièrement distribué et tolérant aux pannes

Apache Kudu utilise l'algorithme de consensus RAFT et peut donc être redimensionné horizontalement selon les besoins. Il prend également en charge une fonction de mise à jour in situ.

Il permet de tirer parti de la prochaine génération de matériel

Apache Kudu est optimisé pour les SSD et conçu pour exploiter les avantages de la nouvelle technologie de mémoire persistante. Il peut s'étendre sur des dizaines de cœurs par serveur et même bénéficier des opérations SIMD pour effectuer des calculs parallèles sur les données.

Il apporte la mutabilité requise pour la BI sur le Big Data

Il intègre une « dimension à évolution lente », couramment abréviée en SCD. Cette fonctionnalité permet à l'utilisateur de garder une trace des modifications survenues au sein de données de référence dimensionnelles.

Kudu prend en charge SQL s'il est utilisé avec Spark et Impala

Vous voulez accéder aux données via SQL ? Alors vous serez ravi d'apprendre qu'Apache Kudu s'intègre étroitement avec Apache Impala et Spark. Vous pourrez donc utiliser ces outils pour insérer, interroger, mettre à jour et supprimer des données provenant de tablettes Kudu en utilisant la syntaxe correspondante. Vous pourrez également utiliser JDBC ou ODBC pour connecter des applications, nouvelles ou existantes, quel que soit le langage dans lequel elles ont été écrites. Connectez aussi des frameworks et des outils de business intelligence à vos données Kudu à l'aide d'Impala.

Ressources complémentaires

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.