Ir para o conteúdo principal

O que é Apache Kudu?

Um mecanismo de armazenamento colunar que preenche a lacuna entre a ingestão rápida de dados e a análise eficiente, combinando a velocidade de atualização do HBase com o desempenho de consulta do Parquet.

10 Personas Data Engineering

Summary

  • O Apache Kudu oferece acesso aleatório em escala de milissegundos combinado com varreduras colunares eficientes, permitindo análises em tempo real e atualizações rápidas em dados estruturados dentro do ecossistema Hadoop.
  • Divide tabelas em tablets usando particionamento por hash ou intervalo com consenso RAFT para escalabilidade horizontal e alta disponibilidade em hardware padrão.
  • Integra-se perfeitamente com Impala e Spark para consultas baseadas em SQL, suportando cargas de trabalho de séries temporais e casos de uso que exigem inserções rápidas e varreduras analíticas na mesma camada de armazenamento.

O que é o Apache Kudu?

Apache Kudu é um sistema de armazenamento em formato de colunas gratuito e de código aberto desenvolvido para o Apache Hadoop. É um mecanismo destinado a dados estruturados compatível com acesso aleatório de baixa latência em escala de milissegundos a linhas individuais, juntamente com ótimos padrões de acesso analítico. É um mecanismo de big data criado para estabelecer a conexão entre o Hadoop Distributed File System [HDFS] amplamente disseminado e o banco de dados HBase NoSQL.

UM LÍDER 5X

Gartner®: Databricks, líder em banco de dados em nuvem

Principais vantagens do Apache Kudu no suporte de business intelligence [BI] no Hadoop

Permite análises em tempo real de dados rápidos

O Apache Kudu combina as vantagens do HBase e do Parquet. É tão rápido quanto o HBase na ingestão de dados e quase tão rápido quanto o Parquet para queries analíticas. Ele oferece suporte a vários tipos de query, permitindo executar as seguintes operações:

  • Pesquisar um determinado valor por meio de sua chave.
  • Pesquisar um intervalo de chaves que foram classificadas em uma ordem de chaves.
  • Realizar queries arbitrárias em quantas colunas forem necessárias.

Tolerante a falhas e totalmente distribuído

O Apache Kudu usa o algoritmo de consenso RAFT e, como resultado, pode ser dimensionado horizontalmente para cima ou para baixo, conforme necessário. Além disso, ele vem com suporte para recurso de atualização no local.

Aproveita a próxima geração de hardware

O Apache Kudu vem otimizado para SSD e foi projetado para aproveitar a próxima memória persistente. Ele é capaz de escalar para 10s de núcleos por servidor e até se beneficiar de operações SIMD para computação paralela de dados.

Fornece a mutabilidade necessária para BI em big data

Apresenta uma “dimensão de alteração lenta”, também conhecida como SCD. Esse recurso permite que o usuário acompanhe as alterações dentro de dados de referência dimensionais.

O Kudu oferece suporte a SQL se usado com o Spark ou o Impala

Você quer acessar dados via SQL? Então, ficará feliz em saber que o Apache Kudu tem uma forte integração com o Apache Impala e Spark. Como resultado, você poderá usar essas ferramentas para inserir, consultar, atualizar e excluir dados de tabelas do Kudu usando sua sintaxe SQL. Além disso, você pode usar JDBC ou ODBC para conectar aplicações existentes ou novas, independentemente da linguagem em que tenham sido escritas, frameworks e até ferramentas de business intelligence para seus dados do Kudu, usando o Impala como ferramenta.

Recursos adicionais

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada