Apache Kudu

Essayer Gratuitement Databricks

Qu'est-ce qu'Apache Kudu ?

Apache Kudu est un système gratuit et open source de stockage en colonnes, développé pour Apache Hadoop. Destiné aux données structurées, ce moteur fournit un accès aléatoire à faible latence, à l'échelle de la milliseconde, à des rangées individuelles avec d'excellents modèles d'accès analytiques. C'est un moteur Big Data conçu pour établir une connexion entre le système de fichier distribué Hadoop (Hadoop Distributed File System ou HDFS), très répandu, et les bases de données NoSQL HBase.

Principaux avantages d'Apache Kudu pour la Business Intelligence (BI) sur Hadoop

Il permet d'appliquer de l'analytique en temps réel à des données très véloces

Apache Kudu réunit les atouts de HBase et Parquet. Il est aussi rapide que HBase pour l'acquisition des données et presque aussi rapide que Parquet en matière de requêtes analytiques. Il prend en charge plusieurs types de requêtes, ce qui vous permet de réaliser les opérations suivantes :

Recherche d'une certaine valeur à l'aide de sa clé
Recherche d'une plage de clés triées dans un ordre de clés
Requêtes arbitraires sur autant de colonnes que nécessaire

Il est entièrement distribué et tolérant aux pannes

Apache Kudu utilise l'algorithme de consensus RAFT et peut donc être redimensionné horizontalement selon les besoins. Il prend également en charge une fonction de mise à jour in situ.

Il permet de tirer parti de la prochaine génération de matériel

Apache Kudu est optimisé pour les SSD et conçu pour exploiter les avantages de la nouvelle technologie de mémoire persistante. Il peut s'étendre sur des dizaines de cœurs par serveur et même bénéficier des opérations SIMD pour effectuer des calculs parallèles sur les données.

Il apporte la mutabilité requise pour la BI sur le Big Data

Il intègre une « dimension à évolution lente », couramment abréviée en SCD. Cette fonctionnalité permet à l'utilisateur de garder une trace des modifications survenues au sein de données de référence dimensionnelles.

Kudu prend en charge SQL s'il est utilisé avec Spark et Impala

Vous voulez accéder aux données via SQL ? Alors vous serez ravi d'apprendre qu'Apache Kudu s'intègre étroitement avec Apache Impala et Spark. Vous pourrez donc utiliser ces outils pour insérer, interroger, mettre à jour et supprimer des données provenant de tablettes Kudu en utilisant la syntaxe correspondante. Vous pourrez également utiliser JDBC ou ODBC pour connecter des applications, nouvelles ou existantes, quel que soit le langage dans lequel elles ont été écrites. Connectez aussi des frameworks et des outils de business intelligence à vos données Kudu à l'aide d'Impala.

Ressources complémentaires

Retour au glossaire