2025년 10월 10일

Variant를 소개합니다: Apache Parquet™, Delta Lake, Apache Iceberg™에서 반정형 데이터를 위한 새로운 오픈 표준

작성자: Gene Pang, David Cashman, Ryan Blue , Aniruth Narayanan

반정형 데이터를 위한 네이티브 데이터 유형인 Variant는 이제 Apache Parquet™ 커뮤니티에서 비준되었으며 Delta Lake, Apache Iceberg™ 및 Apache Spark™ 전반에서 지원됩니다.
Variant 데이터에서 흔히 발생하는 필드를 컬럼화하는 기술인 Shredding은 일반 Variant를 사용하는 것에 비해 읽기 성능을 8배, 문자열을 사용하는 것에 비해 30배 향상시킵니다.
Variant shredding은 DBR 17.2+(DBSQL 2025.30+)를 사용하는 Databricks에서 지원되며 JSON, CSV, XML 소스로부터 쉽게 수집할 수 있는 함수를 제공합니다.

반정형 데이터는 AI, 애플리케이션 로그, 원격 측정 등 모든 곳에 존재합니다. 이 데이터는 유용하지만, 스키마가 변경되면 저장하고 쿼리하기가 어렵습니다. 수년 동안 일반적인 관행은 이 데이터를 문자열로 저장하는 것이었습니다. 문자열은 유연했지만 엔진이 전체 문자열을 파싱하고 검색해야 했기 때문에 쿼리 성능이 저하되었습니다.

이제 Apache Parquet™에서 비준된 Variant 데이터 유형은 다른 접근 방식을 취합니다. 쿼리에 유연하고 성능이 뛰어난 압축된 바이너리 형식으로 데이터를 저장합니다. 이 접근 방식은 하나의 엔진이나 형식에 얽매이지 않습니다. Variant는 Apache Spark™, Delta Lake, Apache Iceberg™에서 지원되며 레이크하우스 전반의 반정형 데이터를 위한 개방형 표준입니다.

이 블로그 게시물에서는 다음 내용을 다룹니다.

Variant 오픈 표준에 대한 투자
Variant와 shredding의 작동 방식
반정형 데이터에 대한 빠른 성능

Databricks는 오픈 소스에서 Variant 관련 노력을 주도하고 있습니다.

작년에 저희는 오픈소스 커뮤니티와 협력하여 Apache Spark™ 및 Delta Lake에 Variant를 도입했습니다. 이 새로운 데이터 유형은 반정형 데이터를 문자열(성능 저하)이나 structs(낮은 유연성)로 저장하는 방식에 비해 유연성과 성능을 모두 제공합니다.

Variant의 출시는 Apache Iceberg™ 및 Apache Arrow™를 비롯한 다른 주요 오픈 소스 프로젝트로부터 빠르게 관심을 끌었습니다. 생태계를 통합하기 위해 저희는 Variant 유형을 Parquet에 직접 통합하고 Spark 구현을 Parquet-java 오픈소스 프로젝트로 이전하여 모든 엔진과 형식에 적용하는 방안을 제안했으며, 9,600줄이 넘는 코드를 기여했습니다. 이를 통해 모든 개방형 테이블 형식이 Variant 데이터 유형을 쉽게 활용할 수 있습니다.

이제 Parquet 커뮤니티 내에서 Variant가 승인되었으므로 전체 레이크하우스 생태계는 반정형 데이터를 위한 표준 개방형 데이터 유형을 갖게 되었습니다. Variant는 이미 개방형 테이블 형식에서 지원됩니다. Delta는 작년부터 Variant를 지원해 왔으며, 지난 5월에는 Variant 지원을 포함하는 Iceberg v3가 승인되었습니다. 따라서 Delta 또는 Iceberg를 활용하는 사용자는 이제 Variant의 유연성과 성능의 이점을 누릴 수 있습니다.

Databricks는 오픈 소스에서 Variant 관련 노력을 주도하고 있습니다.

Parquet Variant 아티팩트에는 다음이 포함됩니다.

Variant 바이너리 인코딩 사양
Variant 슈레딩 사양 (Variant 데이터를 더 효율적으로 저장하는 기법)
Parquet 릴리스 버전 2.12.0 및 Parquet Java 구현 1.16.0

Variant를 지원하는 Delta 및 Iceberg 프로토콜은 다음과 같습니다.

Apache Parquet™, Apache Spark™, Apache Iceberg™, Delta Lake, Apache Arrow™를 포함한 여러 오픈소스 커뮤니티에 기여해주신 모든 관련 개인 및 조직에 감사를 표합니다.

Variant와 shredding의 작동 방식

Variant는 바이너리 인코딩 형식을 사용하여 데이터 저장소를 위한 유연한 인터페이스를 제공합니다. 또한 Variant에는 성능 향상을 위해 Variant를 더 효율적으로 저장하는 기법인 슈레딩 체계가 있습니다.

바이너리 인코딩 형식

Variant 데이터 유형은 효율적인 바이너리 인코딩 체계를 활용하여 반정형 데이터를 나타냅니다. Variant 데이터는 데이터를 일반 텍스트 값(예: JSON)으로 저장하는 대신, 효율적인 탐색을 우선시하는 바이너리 형식으로 값과 구조를 인코딩합니다.

JSON 문자열을 탐색하려면 관련 필드를 찾기 위해 전체 JSON 객체를 읽고 처리해야 합니다. Variant 바이너리 인코딩을 사용하면 데이터 구조가 Variant 값 내의 다른 위치에 대한 오프셋을 사용하여 인코딩됩니다. 이러한 오프셋을 사용하면 전체 값을 읽거나 처리하지 않고도 Variant 구조를 탐색할 수 있습니다. 이 오프셋 기반 탐색은 반정형 데이터 처리 성능을 크게 향상시킵니다.

이 예는 경로 order.item.name으로 이동하려면 오프셋을 사용하여 Variant 값의 몇 부분만 검사하면 된다는 것을 보여줍니다. 이렇게 하면 처리하거나 파싱할 데이터의 양이 줄어들어 성능이 향상됩니다.

슈레딩

슈레딩은 Variant 값에서 공통 필드를 자동으로 추출합니다. 이러한 필드는 동일한 열에 별도의 형식화된 청크로 저장됩니다. 슈레딩을 사용하지 않으면 전체 Variant 값이 파일에 단일 '바이너리 블롭'으로 저장됩니다.

Variant를 분쇄하면 다음과 같은 몇 가지 성능상 이점이 있습니다.

I/O 프루닝: 필드가 개별적으로 저장되므로 쿼리에 필요한 필드만 가져오면 됩니다. 즉, 쿼리에 Variant 필드의 일부만 필요한 경우 I/O도 일부만 필요합니다.
데이터 스키핑: shred된 필드가 별도의 Parquet 청크로 저장되면, 엔진은 모든 Parquet 최적화를 사용하여 행 그룹 및 열 페이지를 효율적으로 스키핑할 수 있습니다.
압축: 분쇄된 필드는 칼럼 형식이므로 데이터를 더 효율적으로 압축할 수 있어 스토리지 크기가 줄어듭니다.

이 예는 슈레딩을 사용하면 스캔 시 쿼리에 필요한 열만 읽으면 된다는 것을 보여줍니다. 스캔은 Parquet 열 통계를 사용하므로 관련 없는 행 그룹은 완전히 건너뛸 수 있습니다. 슈레딩된 파일을 읽으면 불필요한 작업을 피하여 성능이 향상됩니다.

반정형 데이터에 대한 빠른 성능

Variant 바이너리 형식과 슈레딩 기법은 반정형 데이터를 JSON 문자열로 저장하는 것에 비해 상당한 성능 향상을 가능하게 합니다. 저희는 Variant와 문자열 표현을 비교하기 위해 TPC-DS 기반의 반정형 데이터를 사용하여 성능 벤치마크를 수행했습니다.

JSON을 문자열로 저장하는 경우에 비해 Variant는 읽기 성능이 8배 더 빠릅니다. 슈레딩을 사용하면 Variant 쓰기는 20~50% 느려지지만 읽기는 30배 빨라져 성능과 효율성을 입증합니다.

지금 바로 Variant를 사용해 보세요

네이티브 Parquet, Delta 및 Iceberg를 지원하는 Variant 데이터 유형은 반정형 데이터를 위한 개방형 표준 데이터 유형입니다. 복잡한 ETL과 깨지기 쉬운 파싱의 필요성을 제거함으로써 Variant는 사용자가 빠르고 쉽고 안정적으로 데이터를 분석할 수 있도록 지원합니다.

Variant 열이 있는 테이블을 만드는 방법은 간단합니다.

Variant 데이터를 로드하기 위해 Databricks는 JSON, XML, CSV로부터의 Variant 수집 함수를 지원합니다.

Variant 슈레딩은 DBR 17.2 이상(DBSQL 2025.30 이상) 에서 Delta 및 Iceberg 테이블과 함께 지원됩니다. 코드 변경 없이 다음과 같이 쿼리 성능이 향상됩니다:

실용적인 예제를 살펴보고 고객 사례를 공유할 Variant에 대한 후속 게시물을 기대해 주세요.

성능, 단순성, 가치에 대한 집중은 Databricks SQL의 기반이며, 최고의 데이터 웨어하우스는 레이크하우스입니다. Databricks SQL에 대해 자세히 알아보려면 웹사이트를 방문하거나, 설명서를 읽거나, 제품 둘러보기를 확인하세요. Databricks SQL은 고성능, 저비용, 서버리스 데이터 웨어하우스입니다. 지금 무료로 사용해 보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)