Direkt zum Hauptinhalt

Apache Kudu

DATABRICKS KOSTENLOS TESTEN

Was ist Apache Kudu?

Apache Kudu ist ein kostenloses und spaltenorientiertes Open-Source-Speichersystem, das für Apache Hadoop entwickelt wurde. Es handelt sich um eine Engine für strukturierte Daten, die zufälligen Zugriff mit niedriger Latenz im Millisekundenbereich auf einzelne Zeilen sowie umfassende analytische Zugriffsmuster unterstützt. Diese Big-Data-Engine wurde entwickelt, um eine Verbindung zwischen dem weit verbreiteten Hadoop Distributed File System [HDFS] und der NoSQL-Datenbank HBase herzustellen.

Logo von Apache Kudu

Die wichtigsten Vorteile von Apache Kudu zur Unterstützung von Business Intelligence (BI) auf Hadoop

Die wichtigsten Vorteile von Apache Kudu

Ermöglicht Echtzeitanalysen dank schneller Datenabfragen

Apache Kudu vereint die Vorzüge von HBase und Parquet. Apache Kudu liest Daten ebenso schnell wie HBase ein und führt Analyseabfragen fast so schnell wie Parquet durch. Apache Kudu unterstützt mehrere Abfragetypen, mit denen Sie die folgenden Vorgänge durchführen können:

  • Suchen Sie nach einem bestimmten Wert anhand seines Schlüssels.
  • Suchen Sie nach einem Bereich von Schlüsseln, die in einer Schlüsselreihenfolge sortiert wurden.
  • Führen Sie beliebige Abfragen über so viele Spalten wie nötig durch

Vollständig verteilt und fehlertolerant

Apache Kudu verwendet den RAFT-Konsensalgorithmus und kann daher horizontal beliebig nach oben oder unten skaliert werden. Darüber hinaus unterstützt es die Funktion „Update-in-Place“.

Nutzt die Vorteile der nächsten Hardware-Generation

Apache Kudu ist für SSD optimiert und wurde so entwickelt, dass es die Vorteile des nächsten persistenten Speichers nutzen kann. Es lässt sich auf bis zu 10 Kerne pro Server skalieren und nutzt sogar SIMD-Operationen für datenparallele Berechnungen.

Bietet die für BI für Big Data erforderliche Veränderbarkeit

Apache Kudu verfügt über eine „Slowly Changing Dimension“ (SCD). Mit dieser Funktion können Benutzer Änderungen innerhalb von dimensionalen Referenzdaten nachverfolgen.

Bei Verwendung mit Spark oder Impala unterstützt Kudu SQL

Sie möchten über SQL auf Daten zugreifen? Dann haben wir gute Nachrichten für Sie: Apache Kudu lässt sich problemlos in Apache Impala wie auch in Spark integrieren. So können Sie mit diesen Tools Daten in Kudu-Tablets einfügen, abfragen, aktualisieren und löschen, indem Sie deren SQL-Syntax verwenden. Darüber hinaus können Sie mit JDBC oder ODBC bestehende oder neue Anwendungen, unabhängig von der Sprache, in der sie geschrieben wurden, Frameworks und sogar Business-Intelligence-Tools mit Ihren Kudu-Daten verknüpfen. Verwenden Sie hierzu Impala.

Zusätzliche Ressourcen

Zurück zum Glossar