주요 컨텐츠로 이동

아파치 쿠두란 무엇인가요?

빠른 데이터 수집과 효율적인 분석 사이의 간극을 메우는 컬럼형 스토리지 엔진으로, HBase의 업데이트 속도와 Parquet의 쿼리 성능을 결합했습니다.

10 Personas Data Engineering
데이터 + AI 기반Less than a minute

작성자: Databricks 직원

Summary

  • Apache Kudu는 밀리초 단위의 랜덤 액세스 속도와 효율적인 컬럼형 스캔 기능을 제공하여 Hadoop 생태계 내 구조화된 데이터에 대한 실시간 분석 및 빠른 업데이트를 지원합니다.
  • RAFT 합의 알고리즘을 사용하는 해시 또는 범위 파티셔닝을 통해 테이블을 태블릿으로 분할하여 일반 하드웨어 전반에 걸쳐 수평 확장성과 고가용성을 제공합니다.
  • Impala 및 Spark와 긴밀하게 통합되어 SQL 기반 쿼리를 지원하며, 시계열 워크로드와 동일한 스토리지 계층에서 빠른 삽입 및 분석 스캔이 모두 필요한 사용 사례를 지원합니다.

Apache Kudu란 무엇입니까?

아파치 쿠두는 아파치 하둡용으로 개발한 무료, 오픈 소스 컬럼 기반 스토리지 시스템입니다. 각각의 행에 낮은 레이턴시(low-latency) 랜덤 액세스, 밀리초 급의 액세스를 지원하며 우수한 분석 액세스 패턴을 제공하는 구조적 데이터용 엔진이며, 널리 보급된 Hadoop Distributed File System [HDFS] 및 HBase NoSQL Database를 연결하기 위해 만든 빅데이터 엔진이기도 합니다.Apache Kudu 로고

5X 리더

Gartner®: Databricks 클라우드 데이터베이스 리더

하둡에서 비즈니스 인텔리전스 [BI] 지원에 Apache Kudu가 가지는 주된 장점

Apache Kudu의 주된 장점

고속 데이터에 대한 실시간 분석 지원

Apache Kudu는 HBase와 Parquet의 장점을 합쳐 제공합니다. 데이터 수집은 HBase만큼 빠르고, 분석 쿼리에 관해서는 Parquet의 속도에 비견할 만합니다. 또한 여러 가지 쿼리 유형을 지원하여 다음과 같은 작업을 수행할 수 있게 해줍니다.

  • 특정 키를 이용해 해당 값을 검색합니다.
  • 정렬되어 있는 키를 이용해 일정 범위의 키를 조회합니다.
  • 필요한 만큼 얼마든지 많은 수의 열에 걸쳐 임의 쿼리를 수행합니다.

완전 분산형, 내결함성

Apache Kudu는 RAFT 컨센서스 알고리즘을 사용하므로 필요에 따라 수평적으로 스케일 업 또는 다운 시킬수 있습니다. 또한 update-in-place 기능도 지원합니다.

다음 세대 하드웨어의 장점 활용

Apache Kudu는 SSD에 최적화되어 있으며 다음 세대 비휘발성 메모리의 장점을 활용할 수 있도록 고안하였습니다. 서버당 수십 대의 코어에 맞춰 확장할 수 있으며, 데이터 병렬식(data-parallel) 연산에 SIMD 작업의 장점도 활용할 수 있습니다.

빅데이터에서 BI에 필요한 변경 가능성 제공

여기에는 일명 SCD라고 하는 'slowly changing dimension'(느린 차원 변경) 구조가 있습니다. 이 기능을 사용하면 사용자가 차원 참조 데이터 내의 변경 사항을 추적할 수 있습니다.

Kudu는 Spark나 Impala와 함께 사용하면 SQL 지원

SQL을 통해 데이터에 액세스하고자 합니까? Apache Kudu는 Apache Impala는 물론 Spark와도 긴밀하게 통합된다는 반가운 소식을 알려드립니다. 따라서 이러한 툴을 사용하여 Kudu 태블릿의 데이터를 SQL 구문을 사용해 삽입, 쿼리, 업데이트하고 삭제할 수 있습니다. 뿐만 아니라, JDBC나 ODBC를 사용해 기존 또는 신규 애플리케이션(작성 언어, 프레임워크 불문)은 물론 비즈니스 인텔리전스 툴까지 Kudu 데이터에 연결할 수 있습니다. 이 경우 Impala를 툴로 활용하면 됩니다.

추가 자료

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요