빠른 데이터 수집과 효율적인 분석 사이의 간극을 메우는 컬럼형 스토리지 엔진으로, HBase의 업데이트 속도와 Parquet의 쿼리 성능을 결합했습니다.
작성자: Databricks 직원
아파치 쿠두는 아파치 하둡용으로 개발한 무료, 오픈 소스 컬럼 기반 스토리지 시스템입니다. 각각의 행 에 낮은 레이턴시(low-latency) 랜덤 액세스, 밀리초 급의 액세스를 지원하며 우수한 분석 액세스 패턴을 제공하는 구조적 데이터용 엔진이며, 널리 보급된 Hadoop Distributed File System [HDFS] 및 HBase NoSQL Database를 연결하기 위해 만든 빅데이터 엔진이기도 합니다.

Apache Kudu는 HBase와 Parquet의 장점을 합쳐 제공합니다. 데이터 수집은 HBase만큼 빠르고, 분석 쿼리에 관해서는 Parquet의 속도에 비견할 만합니다. 또한 여러 가지 쿼리 유형을 지원하여 다 음과 같은 작업을 수행할 수 있게 해줍니다.
Apache Kudu는 RAFT 컨센서스 알고리즘을 사용하므로 필요에 따라 수평적으로 스케일 업 또는 다운 시킬수 있습니다. 또한 update-in-place 기능도 지원합니다.
Apache Kudu는 SSD에 최적화되어 있으며 다음 세대 비휘발성 메모리의 장점을 활용할 수 있도록 고안하였습니다. 서버당 수십 대의 코어에 맞춰 확장할 수 있으며, 데이터 병렬식(data-parallel) 연산에 SIMD 작업의 장점도 활용할 수 있습니다.
여기에는 일명 SCD라고 하는 'slowly changing dimension'(느린 차원 변경) 구조가 있습니다. 이 기능을 사용하면 사용자가 차원 참조 데이터 내의 변경 사항을 추적할 수 있습니다.
SQL을 통해 데이터에 액세스하고자 합니까? Apache Kudu는 Apache Impala는 물론 Spark와도 긴밀하게 통합된다는 반가운 소식을 알려드립니다. 따라서 이러한 툴을 사용하여 Kudu 태블릿의 데이터를 SQL 구문을 사용해 삽입, 쿼리, 업데이트하고 삭제할 수 있습니다. 뿐만 아니라, JDBC나 ODBC를 사용해 기존 또는 신규 애플리케이션(작성 언어, 프레임워크 불문)은 물론 비즈니스 인텔리전스 툴까지 Kudu 데이터에 연결할 수 있습니다. 이 경우 Impala를 툴로 활용하면 됩니다.
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.