Apache Kudu ist ein kostenloses und spaltenorientiertes Open-Source-Speichersystem, das für Apache Hadoop entwickelt wurde. Es handelt sich um eine Engine für strukturierte Daten, die zufälligen Zugriff mit niedriger Latenz im Millisekundenbereich auf einzelne Zeilen sowie umfassende analytische Zugriffsmuster unterstützt. Diese Big-Data-Engine wurde entwickelt, um eine Verbindung zwischen dem weit verbreiteten Hadoop Distributed File System [HDFS] und der NoSQL-Datenbank HBase herzustellen.
Apache Kudu vereint die Vorzüge von HBase und Parquet. Apache Kudu liest Daten ebenso schnell wie HBase ein und führt Analyseabfragen fast so schnell wie Parquet durch. Apache Kudu unterstützt mehrere Abfragetypen, mit denen Sie die folgenden Vorgänge durchführen können:
Apache Kudu verwendet den RAFT-Konsensalgorithmus und kann daher horizontal beliebig nach oben oder unten skaliert werden. Darüber hinaus unterstützt es die Funktion „Update-in-Place“.
Apache Kudu ist für SSD optimiert und wurde so entwickelt, dass es die Vorteile des nächsten persistenten Speichers nutzen kann. Es lässt sich auf bis zu 10 Kerne pro Server skalieren und nutzt sogar SIMD-Operationen für datenparallele Berechnungen.
Apache Kudu verfügt über eine „Slowly Changing Dimension“ (SCD). Mit dieser Funktion können Benutzer Änderungen innerhalb von dimensionalen Referenzdaten nachverfolgen.
Sie möchten über SQL auf Daten zugreifen? Dann haben wir gute Nachrichten für Sie: Apache Kudu lässt sich problemlos in Apache Impala wie auch in Spark integrieren. So können Sie mit diesen Tools Daten in Kudu-Tablets einfügen, abfragen, aktualisieren und löschen, indem Sie deren SQL-Syntax verwenden. Darüber hinaus können Sie mit JDBC oder ODBC bestehende oder neue Anwendungen, unabhängig von der Sprache, in der sie geschrieben wurden, Frameworks und sogar Business-Intelligence-Tools mit Ihren Kudu-Daten verknüpfen. Verwenden Sie hierzu Impala.
