Was ist Apache Kudu?

Eine spaltenorientierte Speicher-Engine, die die Lücke zwischen schneller Datenerfassung und effizienter Analyse schließt und die Aktualisierungsgeschwindigkeit von HBase mit der Abfrageleistung von Parquet kombiniert.

von Databricks-Mitarbeiter

Apache Kudu ermöglicht wahlfreien Zugriff im Millisekundenbereich in Kombination mit effizienten Spaltenscans und damit Echtzeitanalysen und schnelle Aktualisierungen strukturierter Daten im Hadoop-Ökosystem.
Tabellen werden mithilfe von Hash- oder Bereichspartitionierung mit RAFT-Konsens in Tablets aufgeteilt, um horizontale Skalierbarkeit und hohe Verfügbarkeit auf Standardhardware zu gewährleisten.
Die enge Integration mit Impala und Spark ermöglicht SQL-basierte Abfragen und unterstützt Zeitreihen-Workloads sowie Anwendungsfälle, die sowohl schnelle Einfügungen als auch analytische Scans auf derselben Speicherebene erfordern.

Was ist Apache Kudu?

Apache Kudu ist ein kostenloses und spaltenorientiertes Open-Source-Speichersystem, das für Apache Hadoop entwickelt wurde. Es handelt sich um eine Engine für strukturierte Daten, die zufälligen Zugriff mit niedriger Latenz im Millisekundenbereich auf einzelne Zeilen sowie umfassende analytische Zugriffsmuster unterstützt. Diese Big-Data-Engine wurde entwickelt, um eine Verbindung zwischen dem weit verbreiteten Hadoop Distributed File System [HDFS] und der NoSQL-Datenbank HBase herzustellen.

Die wichtigsten Vorteile von Apache Kudu zur Unterstützung von Business Intelligence (BI) auf Hadoop

Ermöglicht Echtzeitanalysen dank schneller Datenabfragen

Apache Kudu vereint die Vorzüge von HBase und Parquet. Apache Kudu liest Daten ebenso schnell wie HBase ein und führt Analyseabfragen fast so schnell wie Parquet durch. Apache Kudu unterstützt mehrere Abfragetypen, mit denen Sie die folgenden Vorgänge durchführen können:

Suchen Sie nach einem bestimmten Wert anhand seines Schlüssels.
Suchen Sie nach einem Bereich von Schlüsseln, die in einer Schlüsselreihenfolge sortiert wurden.
Führen Sie beliebige Abfragen über so viele Spalten wie nötig durch

Vollständig verteilt und fehlertolerant

Apache Kudu verwendet den RAFT-Konsensalgorithmus und kann daher horizontal beliebig nach oben oder unten skaliert werden. Darüber hinaus unterstützt es die Funktion „Update-in-Place“.

Nutzt die Vorteile der nächsten Hardware-Generation

Apache Kudu ist für SSD optimiert und wurde so entwickelt, dass es die Vorteile des nächsten persistenten Speichers nutzen kann. Es lässt sich auf bis zu 10 Kerne pro Server skalieren und nutzt sogar SIMD-Operationen für datenparallele Berechnungen.

Bietet die für BI für Big Data erforderliche Veränderbarkeit

Apache Kudu verfügt über eine „Slowly Changing Dimension“ (SCD). Mit dieser Funktion können Benutzer Änderungen innerhalb von dimensionalen Referenzdaten nachverfolgen.

Bei Verwendung mit Spark oder Impala unterstützt Kudu SQL

Sie möchten über SQL auf Daten zugreifen? Dann haben wir gute Nachrichten für Sie: Apache Kudu lässt sich problemlos in Apache Impala wie auch in Spark integrieren. So können Sie mit diesen Tools Daten in Kudu-Tablets einfügen, abfragen, aktualisieren und löschen, indem Sie deren SQL-Syntax verwenden. Darüber hinaus können Sie mit JDBC oder ODBC bestehende oder neue Anwendungen, unabhängig von der Sprache, in der sie geschrieben wurden, Frameworks und sogar Business-Intelligence-Tools mit Ihren Kudu-Daten verknüpfen. Verwenden Sie hierzu Impala.

Zusätzliche Ressourcen

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Alle Blogs anzeigen

Was ist Apache Kudu?

Das Playbook für agentenbasierte KI für Unternehmen

Die wichtigsten Vorteile von Apache Kudu zur Unterstützung von Business Intelligence (BI) auf Hadoop

Ermöglicht Echtzeitanalysen dank schneller Datenabfragen

Vollständig verteilt und fehlertolerant

Nutzt die Vorteile der nächsten Hardware-Generation

Bietet die für BI für Big Data erforderliche Veränderbarkeit

Bei Verwendung mit Spark oder Impala unterstützt Kudu SQL

Zusätzliche Ressourcen

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Sign up