Che cos'è Apache Kudu?

Un motore di archiviazione colonnare che colma il divario tra l'acquisizione rapida dei dati e l'analisi efficiente, combinando la velocità di aggiornamento di HBase con le prestazioni di query di Parquet

di Staff di Databricks

Apache Kudu offre accesso casuale su scala di millisecondi combinato con scansioni colonnari efficienti, consentendo analisi in tempo reale e aggiornamenti rapidi sui dati strutturati all'interno dell'ecosistema Hadoop.
Suddivide le tabelle in tablet utilizzando il partizionamento hash o range con consenso RAFT per scalabilità orizzontale e alta disponibilità su hardware di base.
Si integra perfettamente con Impala e Spark per query basate su SQL, supportando carichi di lavoro di serie temporali e casi d'uso che richiedono sia inserimenti rapidi che scansioni analitiche sullo stesso livello di archiviazione.

Che cos'è Apache Kudu?

Apache Kudu è un sistema di archiviazione a colonne gratuito e open source sviluppato per Apache Hadoop. È un motore destinato ai dati strutturati che supporta l'accesso casuale a bassa latenza (con tempi di accesso nell'ordine dei millisecondi) a righe singole insieme a modelli di accesso analitici efficienti. È un motore per i Big Data creato per colmare il divario tra l'Hadoop Distributed File System [HDFS], ampiamente utilizzato, e il database NoSQL HBase.

Principali vantaggi di Apache Kudu nel supporto alla Business Intelligence [BI] su Hadoop

Consente l'analisi in tempo reale su Fast Data

Apache Kudu combina i vantaggi di HBase e Parquet. È veloce quanto HBase nell'inserimento dei dati e quasi quanto Parquet nelle query analitiche. Supporta più tipi di query, consentendo di eseguire le seguenti operazioni:

ricerca di un determinato valore tramite la sua chiave;
ricerca di un intervallo di chiavi che sono state disposte in un certo ordine;
esecuzione di query arbitrarie su un numero infinito di colonne.

Completamente distribuito e con tolleranza agli errori

Apache Kudu utilizza l'algoritmo di consenso RAFT e può quindi essere scalato orizzontalmente verso l'alto o verso il basso in base alle necessità. Inoltre, è dotato di supporto per la funzione di aggiornamento sul posto.

Pronto per la prossima generazione di hardware

Apache Kudu è ottimizzato per SSD ed è progettato per sfruttare al meglio le memorie persistenti di prossima generazione. Può scalare decine di core per server e avvalersi di operazioni SIMD per l'elaborazione di dati in parallelo.

Fornisce la mutabilità necessaria per la BI su Big Data

Include una "slowly changing dimension", o SCD. Questa funzionalità consente all'utente di tenere traccia delle modifiche all'interno di un dato dimensionale di riferimento.

Kudu supporta SQL se utilizzato in combinazione con Spark o Impala

Vuoi accedere ai dati tramite SQL? Sarai felice di sapere che Apache Kudu si integra perfettamente con Apache Impala e Spark. Potrai quindi utilizzare questi strumenti per inserire, interrogare, aggiornare e cancellare dati dai tablet Kudu utilizzando la loro sintassi SQL. Tramite Impala, potrai inoltre utilizzare JDBC o ODBC per collegare ai tuoi dati Kudu applicazioni esistenti o nuove, indipendentemente dal linguaggio in cui sono state scritte, framework e persino strumenti di Business Intelligence.

Risorse aggiuntive

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.

Visualizza tutti i blog

Che cos'è Apache Kudu?

Il playbook sull'AI agentiva per l'enterprise

Principali vantaggi di Apache Kudu nel supporto alla Business Intelligence [BI] su Hadoop

Consente l'analisi in tempo reale su Fast Data

Completamente distribuito e con tolleranza agli errori

Pronto per la prossima generazione di hardware

Fornisce la mutabilità necessaria per la BI su Big Data

Kudu supporta SQL se utilizzato in combinazione con Spark o Impala

Risorse aggiuntive

Ricevi gli ultimi articoli nella tua casella di posta

Sign up