주요 컨텐츠로 이동

Databricks에서 완전한 Apache Iceberg™ 지원 발표

관리형 Iceberg 테이블을 읽고 쓰고 Unity 카탈로그를 사용하여 외부 카탈로그의 Iceberg 테이블에 접근하고 관리합니다.

Announcing full Apache Iceberg™ support in Databricks

Published: June 12, 2025

제품2분 소요

Summary

  • Unity Catalog의 Iceberg REST Catalog API를 통해 Databricks 또는 외부 Apache Iceberg™ 엔진을 사용하여 개방형 Managed Iceberg 테이블을 작성할 수 있습니다.
  • 외부 카탈로그에서 관리하는 Iceberg 테이블에 접근하고 관리합니다.
  • 이러한 추가 사항들은 업계를 단일하고 통합된 오픈 테이블 형식으로 더욱 발전시킵니다.

우리는 Databricks에서 Apache IcebergTM 지원에 대한 Public Preview를 발표하게 되어 기쁩니다. 이를 통해 Unity Catalog와 함께 전체 Apache Iceberg 및 Delta Lake 생태계를 활용할 수 있게 되었습니다. 이 프리뷰는 Unity Catalog에 두 가지 새로운 기능을 소개합니다. 첫째, 이제 Unity Catalog의 Iceberg REST Catalog API를 통해 Databricks 또는 외부 Iceberg 엔진을 사용하여 Managed Iceberg 테이블을 읽고 쓸 수 있습니다. 예측 최적화를 통해 이러한 테이블은 Liquid 클러스터링을 포함한 고급 테이블 작업을 자동으로 실행하여 빠른 쿼리 성능과 저장 효율성을 제공합니다. 관리형 Iceberg 테이블은 또한 Databricks 플랫폼 전반의 고급 기능과 통합되어 있습니다. 이에는 DBSQL, Mosaic AI, Delta Sharing, MVs가 포함됩니다. 두 번째로, Lakehouse Federation의 일부로서 Unity Catalog는 이제 AWS Glue, Hive Metastores, 그리고 Snowflake Horizon Catalog와 같은 외부 카탈로그에서 관리하는 Iceberg 테이블에 원활하게 접근하고 관리할 수 있게 해줍니다.

이 새로운 기능들을 통해, 어떤 엔진에서든 Unity 카탈로그에 연결하고, 카탈로그 간에 모든 데이터를 형식에 상관없이 접근할 수 있습니다. 이로써 데이터 사일로를 해결하고 생태계 호환성 문제를 해결할 수 있습니다. 이 블로그에서는 다음 내용을 다룰 예정입니다:

  • 새로운 데이터 실로 식별하기
  • 완전히 개방된 Iceberg 카탈로그로서의 Unity 카탈로그 사용
  • 전체 Lakehouse에 대한 UC 거버넌스 확장
  • 우리의 개방형 테이블 형식에 대한 미래 비전

새로운 데이터 실로

Lakehouse의 두 가지 기본 구성 요소인 오픈 테이블 형식과 데이터 카탈로그에 새로운 데이터 실로가 등장했습니다. 개방 테이블 형식은 객체 저장소에 저장된 데이터에 대한 ACID 트랜잭션을 가능하게 합니다. Delta Lake와 Apache Iceberg, 두 가지 주요 오픈 테이블 형식은 다양한 오픈 소스 프레임워크와 상업 플랫폼에 걸쳐 커넥터 생태계를 개발했습니다. 그러나, 가장 인기 있는 플랫폼들은 두 가지 표준 중 하나만 채택하여, 고객들이 형식을 선택할 때 엔진을 선택하도록 강요했습니다.

카탈로그는 추가적인 도전과제를 제시합니다. 카탈로그의 핵심 책임 중 하나는 작성자와 독자 간에 테이블의 현재 메타데이터 파일을 관리하는 것입니다. 그러나, 일부 카탈로그는 어떤 엔진이 그것들을 작성할 수 있는지 제한합니다. 당신이 모든 데이터를 모든 엔진에서 지원하는 형식으로 저장하더라도, 카탈로그에 연결할 수 없기 때문에 선택한 엔진을 사용할 수 없을 수도 있습니다. 이 벤더 락인은 고객이 분산된 카탈로그 간에 데이터 발견과 거버넌스를 파편화하도록 강요합니다.

다음 두 섹션에서는 Unity Catalog가 어떻게 오픈 표준과 카탈로그 연합을 사용하여 형식 및 카탈로그 호환성 문제를 해결하는지에 대해 다룰 것입니다.

완전히 개방된 Iceberg 카탈로그

Unity Catalog는 오픈 표준을 통해 형식 실로를 깨뜨립니다. 이제 Public Preview에서는 Databricks와 외부 엔진을 사용하여 Unity Catalog에서 관리하는 Iceberg 테이블을 작성할 수 있습니다. 관리형 Iceberg 테이블은 Unity Catalog의 Iceberg REST Catalog API 구현을 통해 전체 Iceberg 생태계에 완전히 개방되어 있습니다. REST Catalog는 Iceberg 테이블과 상호 작용하는 표준 인터페이스를 제공하는 오픈 API 사양입니다. Unity 카탈로그는 REST 카탈로그의 초기 채택자로, 2023년에 처음으로 지원을 시작했습니다. 이 프리뷰는 그 기반 위에 구축됩니다. 이제, Apache Spark™, Apache Flink, 또는 Trino와 같은 REST 사양과 호환되는 거의 모든 Iceberg 클라이언트는 Unity Catalog에 읽고 쓸 수 있습니다.

우리는 모든 데이터를 열린 형식으로 저장하고, 우리가 사용하는 모든 도구에 연결할 수 있는 단일 카탈로그를 원합니다. Unity Catalog를 통해 우리는 어떤 Iceberg 클라이언트에게도 완전히 열려있는 Iceberg 테이블을 작성할 수 있으며, 이를 통해 전체 Lakehouse 생태계를 활용하고 아키텍처를 미래에 대비할 수 있습니다.
— 헨 벤-헤모, 데이터 플랫폼 아키텍트

Riskified

관리형 Iceberg를 사용하면, 기본적으로 권한 부여를 지원하지 않는 PyIceberg와 같은 OSS 도구에서도 Unity 카탈로그 거버넌스를 Iceberg 생태계에 적용할 수 있습니다. Unity Catalog를 사용하면 전체 Lakehouse 생태계를 아우르는 데이터 파이프라인을 생성할 수 있습니다. 예를 들어, Apache Iceberg는 Kafka에서 Iceberg 테이블로 쓰는 데 사용되는 인기 있는 싱크 커넥터 를 제공합니다. Kafka Connect를 사용하여 Iceberg 테이블을 Unity 카탈로그에 쓰고 하류에서는 Databricks의 최고 수준의 가격-성능을 활용하여 ETL, 데이터 웨어하우징, 머신러닝 기능을 사용할 수 있습니다.

모든 관리 테이블은 예측 최적화를 사용하여 최고 수준의 읽기 성능과 저장소 최적화를 자동으로 제공합니다. 예측 최적화는 자동으로 오래된 스냅샷을 만료시키고, 참조되지 않은 파일을 삭제하며, Liquid Clustering을 사용하여 데이터를 점진적으로 클러스터링합니다. 우리의 Kafka를 사용한 예에서, 이는 소규모 파일의 확산으로 인해 일반적으로 발생하는 성능 저하를 방지합니다. 수동으로 테이블 유지 관리를 직접 관리하는 번거로움 없이 Iceberg 테이블을 건강하고 높은 성능으로 유지할 수 있습니다.

관리되는 Iceberg 테이블은 Databricks 플랫폼과 통합되어 있어, DBSQL, Mosaic AI, Delta Sharing, MVs와 같은 고급 플랫폼 기능을 이용하여 이 테이블을 활용할 수 있습니다. Databricks를 넘어서, Unity 카탈로그는 외부 도구를 사용하여 Iceberg에 안전하게 데이터를 저장하는 파트너 생태계를 지원합니다. 예를 들어, Redpanda는 Unity 카탈로그의 Iceberg REST Catalog API를 통해 Kafka 주제로 생성된 스트리밍 데이터를 수집합니다:

Unity Catalog Managed Iceberg 테이블과 Iceberg REST 카탈로그를 통해 Redpanda는 이제 가장 크고 가장 요구사항이 많은 Kafka 작업을 Unity Catalog로 최적화된 Iceberg 테이블로 직접 스트리밍할 수 있습니다. 이를 통해 임의의 스트림에서 상자를 열지 않고 발견 가능성과 빠른 쿼리 성능을 제공합니다. 버튼 한 번으로 설정하면 모든 실시간 스트리밍 데이터가 이제 Iceberg 생태계에 완전히 사용 가능하므로 고객은 스택이 어떻게 발전하든 그들의 아키텍처가 지속 가능하다는 확신을 가질 수 있습니다.
— Matthew Schumpert, 제품 플랫폼 팀장

Redpanda

Atlan, Buf, CelerData, Clickhouse, dbt Labs, dltHub, Fivetran, Informatica, PuppyGraph, Redpanda, RisingWave, StreamNative 등 다음과 같은 출시 파트너들이 함께하게 되어 기쁩니다.

Lakehouse 카탈로그

Unity Catalog를 통해 테이블 형식 간에 뿐만 아니라 카탈로그 간에도 상호 운용성을 가질 수 있습니다. 이제 공개 미리보기에서도 AWS Glue, Hive Metastores, Snowflake Horizon Catalog와 같은 외부 카탈로그에서 관리하는 Iceberg 테이블을 원활하게 쿼리하고 관리할 수 있습니다. Hive Metastore와 AWS Glue Federation을 확장하여, 이 커넥터들은 Unity 카탈로그 내에 전체 카탈로그를 마운트할 수 있게 해, 데이터 발견과 거버넌스를 위한 통합 인터페이스를 생성합니다.

Federation은 외부 카탈로그에서 관리하는 Iceberg 테이블에 Unity 카탈로그의 고급 기능을 활용할 수 있도록 원활하게 통합합니다. Databricks의 세분화된 접근 제어, 계보 및 감사를 모든 데이터에 사용할 수 있으며, 카탈로그와 형식에 상관없이 적용됩니다.

Unity Catalog를 통해 Rippling ML 엔지니어와 데이터 과학자는 기존 OLAP 창고에서 Iceberg 테이블에 원활하게 접근할 수 있습니다. 이를 통해 비용을 절감하고, 일관된 진실의 원천을 생성하며, 데이터 새로 고침의 지연 시간을 줄일 수 있습니다 -- 모든 것이 데이터 접근 및 전체 데이터 수명주기에 걸친 개인정보 보호에 대한 높은 기준을 유지하면서 이루어집니다.
— Albert Strasheim, 최고 기술 책임자

Ripping

연합을 통해 Unity Catalog는 모든 테이블, AI 모델, 파일, 노트북, 대시보드를 포함한 전체 Lakehouse를 관리할 수 있습니다.

테이블 형식의 미래

Unity 카탈로그는 업계가 오픈 데이터 레이크하우스의 단순성, 유연성, 낮은 비용을 실현하는 데 한 걸음 더 다가가도록 밀어주고 있습니다. Databricks에서는 우리가 단일하고 통합된 오픈 테이블 형식으로 산업을 더욱 발전시킬 수 있다고 믿습니다. Delta Lake과 Apache Iceberg는 많은 부분에서 같은 디자인을 공유하지만, 미묘한 차이가 고객들에게 큰 호환성 문제를 일으킵니다. 이러한 공통 문제를 해결하기 위해, Delta와 Apache Iceberg 커뮤니티는 개념과 기여를 조정하고, 레이크하우스 생태계를 통합하고 있습니다.

Iceberg v3는 이러한 비전을 향한 중요한 한 걸음입니다. Iceberg v3는 Deletion Vectors, Variant data type, Row IDs, 그리고 Delta Lake에서 동일한 구현을 공유하는 geospatial data types 과 같은 주요 기능을 포함하고 있습니다. 이러한 개선 사항은 페타바이트의 데이터를 다시 작성하지 않고도 데이터를 이동하고 파일을 쉽게 삭제할 수 있게 해줍니다.

향후 Delta Lake과 Apache Iceberg 릴리스에서는 이 기반 위에 더욱 구축하여 Delta와 Iceberg 클라이언트가 같은 메타데이터를 사용하고, 따라서 테이블을 직접 공유할 수 있도록 하고자 합니다. 이러한 투자를 통해, 고객들은 개방형 데이터 레이크하우스의 원래 목표인, 단일 데이터 복사본에서 데이터와 AI를 위한 완전히 통합된 플랫폼을 실현할 수 있습니다.

관리 및 외부 Iceberg 테이블이 이제 Public Preview에서 사용 가능합니다. 시작하려면 우리의 문서 를 확인해보세요! 2025년 6월 9일부터 12일까지 Data and AI Summit 에서 발표한 내용을 다시 확인하고, 우리의 최신 Iceberg 기능개방 테이블 형식의 미래에 대해 더 알아보세요.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요