주요 컨텐츠로 이동

Databricks에서 전체 Apache Iceberg™ 지원을 발표합니다

관리형 Iceberg 테이블을 읽고 쓰고 Unity Catalog를 사용하여 외부 카탈로그에서 Iceberg 테이블에 액세스하고 제어합니다.

Announcing full Apache Iceberg™ support in Databricks

발행일: 2025년 6월 12일

제품Less than a minute

Summary

  • Unity Catalog의 Iceberg REST Catalog API를 통해 Databricks 또는 외부 Apache Iceberg™ 엔진을 사용하여 개방형 관리형 Iceberg 테이블을 작성합니다.
  • 외부 카탈로그에서 관리하는 Iceberg 테이블에 액세스하고 제어합니다.
  • 이러한 추가 기능은 단일 통합 개방형 테이블 형식으로 업계를 더욱 발전시킵니다.

Databricks에서 Apache IcebergTM 지원의 공개 미리 보기를 발표하게 되어 기쁩니다. 이를 통해 Unity Catalog로 전체 Apache Iceberg 및 Delta Lake 생태계를 활용할 수 있습니다. 이 미리 보기에서는 Unity Catalog에 두 가지 새로운 기능이 도입되었습니다. 첫째, Unity Catalog의 Iceberg REST Catalog API를 통해 Databricks 또는 외부 Iceberg 엔진을 사용하여 관리형 Iceberg 테이블을 읽고 쓸 수 있습니다. 예측 최적화를 통해 구동되는 이러한 테이블은 Liquid Clustering을 포함한 고급 테이블 작업을 자동으로 실행하여 즉시 사용 가능한 빠른 쿼리 성능과 스토리지 효율성을 제공합니다. 관리형 Iceberg 테이블은 DBSQL, Mosaic AI, Delta Sharing, MV를 포함한 Databricks 플랫폼 전반의 고급 기능과도 통합됩니다. 둘째, Lakehouse Federation의 일부로 Unity Catalog를 통해 AWS Glue, Hive Metastore 및 Snowflake Horizon Catalog와 같은 외부 카탈로그에서 관리하는 Iceberg 테이블에 원활하게 액세스하고 제어할 수 있습니다.

이러한 새로운 기능을 통해 모든 엔진에서 Unity Catalog에 연결하고 카탈로그와 형식에 관계없이 모든 데이터에 액세스하여 데이터 사일로를 해소하고 생태계 비호환성을 해결할 수 있습니다. 이 블로그에서는 다음 내용을 다룹니다.

  • 새로운 데이터 사일로 식별
  • Unity Catalog를 완전히 개방된 Iceberg 카탈로그로 사용
  • 전체 Lakehouse로 UC 거버넌스 확장
  • 개방형 테이블 형식의 미래에 대한 비전

새로운 데이터 사일로

새로운 데이터 사일로가 Lakehouse의 두 가지 기본 구성 요소인 개방형 테이블 형식과 데이터 카탈로그를 따라 등장했습니다. 개방형 테이블 형식을 사용하면 객체 스토리지에 저장된 데이터에 대한 ACID 트랜잭션이 가능합니다. 두 개의 주요 개방형 테이블 형식인 Delta Lake와 Apache Iceberg는 광범위한 오픈 소스 프레임워크와 상용 플랫폼에서 커넥터 생태계를 개발했습니다. 그러나 대부분의 인기 플랫폼은 두 표준 중 하나만 채택하여 고객이 형식을 선택할 때 엔진을 선택해야 했습니다.

카탈로그는 추가적인 과제를 제시합니다. 카탈로그의 핵심 책임은 작성자와 판독기 간에 테이블의 현재 메타데이터 파일을 관리하는 것입니다. 그러나 일부 카탈로그는 어떤 엔진이 해당 파일을 쓸 수 있는지 제한합니다. 모든 데이터를 모든 엔진에서 지원하는 형식으로 저장하더라도 카탈로그에 연결할 수 없기 때문에 선택한 엔진을 사용하지 못할 수 있습니다. 이러한 공급업체 종속성으로 인해 고객은 서로 다른 카탈로그에서 데이터 검색 및 거버넌스를 분할해야 합니다.

다음 두 섹션에서는 Unity Catalog가 개방형 표준과 카탈로그 페더레이션을 사용하여 형식 및 카탈로그 비호환성을 해결하는 방법을 다룹니다.

완전히 개방된 Iceberg 카탈로그

Unity Catalog는 개방형 표준을 통해 형식 사일로를 해소합니다. 현재 공개 미리 보기에서는 Databricks 및 외부 엔진을 사용하여 Unity Catalog에서 관리하는 Iceberg 테이블을 쓸 수 있습니다. 관리형 Iceberg 테이블은 Iceberg REST Catalog API의 Unity Catalog 구현을 통해 전체 Iceberg 생태계에 완전히 개방되어 있습니다. REST Catalog는 Iceberg 테이블과 상호 작용하기 위한 표준 인터페이스를 제공하는 개방형 API 사양입니다. Unity Catalog는 REST Catalog를 조기에 도입하여 2023년에 처음으로 지원을 시작했습니다. 이 미리 보기는 그 토대를 기반으로 합니다. 이제 Apache Spark™, Apache Flink 또는 Trino와 같이 REST 사양과 호환되는 거의 모든 Iceberg 클라이언트가 Unity Catalog를 읽고 쓸 수 있습니다.

당사는 모든 데이터를 개방형 형식으로 저장하고 당사에서 사용하는 모든 도구에 연결할 수 있는 단일 카탈로그를 원합니다. Unity Catalog를 통해 모든 Iceberg 클라이언트에 완전히 개방된 Iceberg 테이블을 작성하여 전체 Lakehouse 생태계를 활용하고 아키텍처의 미래를 보장할 수 있습니다. — Hen Ben-Hemo, 데이터 플랫폼 설계자

Riskified

관리형 Iceberg를 사용하면 기본적으로 권한 부여를 지원하지 않는 PyIceberg와 같은 OSS 도구 간에도 Unity Catalog 거버넌스를 Iceberg 생태계에 적용할 수 있습니다. Unity Catalog를 사용하면 전체 Lakehouse 생태계에 걸쳐 있는 데이터 파이프라인을 만들 수 있습니다. 예를 들어 Apache Iceberg는 Kafka에서 Iceberg 테이블로 쓰기 위한 인기 있는 싱크 커넥터를 제공합니다. Kafka Connect를 사용하여 Iceberg 테이블을 Unity Catalog에 쓰고 다운스트림에서 Databricks의 동급 최고의 가격 대비 성능을 ETL, 데이터 웨어하우징 및 머신 러닝 기능에 사용할 수 있습니다.

모든 관리형 테이블은 예측 최적화를 사용하여 동급 최고의 읽기 성능과 스토리지 최적화를 자동으로 제공합니다. 예측 최적화는 오래된 스냅샷을 자동으로 만료하고, 참조되지 않은 파일을 삭제하고, Liquid Clustering을 사용하여 데이터를 점진적으로 클러스터링합니다. Kafka를 사용하는 당사 예제에서는 작은 파일의 확산으로 인해 일반적으로 발생하는 성능 저하를 방지합니다. 테이블 유지 관리를 수동으로 관리하는 번거로움 없이 Iceberg 테이블을 정상적이고 성능이 뛰어나게 유지할 수 있습니다.

관리형 Iceberg 테이블은 Databricks 플랫폼과 통합되어 DBSQL, Mosaic AI, Delta Sharing 및 MV와 같은 고급 플랫폼 기능을 통해 이러한 테이블을 활용할 수 있습니다. Databricks 외에도 Unity Catalog는 외부 도구를 사용하여 Iceberg에 데이터를 안전하게 저장할 수 있도록 파트너 에코시스템을 지원합니다. 예를 들어 Redpanda는 Unity Catalog의 Iceberg REST Catalog API를 통해 Kafka 토픽으로 생성된 스트리밍 데이터를 수집합니다.

Unity Catalog 관리형 Iceberg 테이블과 Iceberg REST Catalog를 통해 Redpanda는 이제 Unity Catalog에서 최적화된 Iceberg 테이블에 가장 크고 까다로운 Kafka 워크로드를 직접 스트리밍할 수 있으므로 즉시 사용 가능한 검색 기능과 임의 스트림에 대한 빠른 쿼리 성능을 활용할 수 있습니다. 푸시 버튼 구성으로 모든 실시간 스트리밍 데이터를 이제 Iceberg 생태계에서 완전히 사용할 수 있으므로 고객은 스택이 어떻게 진화하든 아키텍처가 오래 지속되도록 구축되었다는 확신을 가질 수 있습니다. — Matthew Schumpert, 제품 플랫폼 책임자

Redpanda

Atlan, Buf, CelerData, Clickhouse, dbt Labs, dltHub, Fivetran, Informatica, PuppyGraph, Redpanda, RisingWave, StreamNative 등과 같은 출시 파트너를 확보하게 되어 기쁩니다.

5X 리더

Gartner®: Databricks 클라우드 데이터베이스 리더

Lakehouse Catalog

Unity Catalog를 사용하면 테이블 형식뿐만 아니라 카탈로그 간에도 상호 운용할 수 있습니다. 현재 공개 미리 보기에서는 AWS Glue, Hive Metastore 및 Snowflake Horizon Catalog와 같은 외부 카탈로그에서 관리하는 Iceberg 테이블을 원활하게 쿼리하고 제어할 수도 있습니다. Hive Metastore 및 AWS Glue Federation을 확장하는 이러한 커넥터를 사용하면 Unity Catalog 내에서 전체 카탈로그를 마운트하여 데이터 검색 및 거버넌스를 위한 통합 인터페이스를 만들 수 있습니다.

페더레이션을 통해 Unity Catalog의 고급 기능을 외부 카탈로그에서 관리하는 Iceberg 테이블에서 활용할 수 있도록 원활하게 통합할 수 있습니다. 카탈로그와 형식에 관계없이 모든 데이터에 대해 Databricks의 세분화된 액세스 제어, 계보 및 감사를 사용할 수 있습니다.

Unity Catalog를 통해 Rippling ML 엔지니어와 데이터 과학자는 제로 복사로 기존 OLAP 웨어하우스에서 Iceberg 테이블에 원활하게 액세스할 수 있습니다. 이를 통해 비용을 절감하고, 일관된 정보 소스를 만들고, 데이터 새로 고침 대기 시간을 줄이는 동시에 전체 데이터 라이프사이클에서 데이터 액세스 및 개인 정보 보호에 대한 높은 표준을 유지할 수 있습니다. — Albert Strasheim, 최고 기술 책임자

Ripping

페더레이션을 통해 Unity Catalog는 모든 테이블, AI 모델, 파일, 노트북 및 대시보드에서 Lakehouse 전체를 제어할 수 있습니다.

테이블 형식의 미래

Unity Catalog는 업계가 개방형 데이터 레이크하우스의 단순성, 유연성 및 저렴한 비용을 실현하는 데 더 가까워지도록 추진하고 있습니다. Databricks에서는 단일하고 통합된 개방형 테이블 형식을 통해 업계를 더욱 발전시킬 수 있다고 믿습니다. Delta Lake와 Apache Iceberg는 동일한 설계를 많이 공유하지만 미묘한 차이로 인해 고객에게 큰 비호환성이 발생합니다. 이러한 공유 문제를 해결하기 위해 Delta 및 Apache Iceberg 커뮤니티는 개념과 기여를 조정하여 Lakehouse 생태계를 통합하고 있습니다.

Iceberg v3는 이러한 비전을 향한 중요한 단계입니다. Iceberg v3에는 Delta Lake에서 동일한 구현을 공유하는 삭제 벡터, Variant 데이터 형식, 행 ID지리 공간 데이터 형식과 같은 주요 기능이 포함되어 있습니다. 이러한 개선 사항을 통해 페타바이트의 데이터를 다시 쓰지 않고도 형식 간에 데이터를 이동하고 파일을 쉽게 삭제할 수 있습니다.

향후 Delta Lake 및 Apache Iceberg 릴리스에서는 Delta 및 Iceberg 클라이언트가 동일한 메타데이터를 사용하고 따라서 테이블을 직접 공유할 수 있도록 이 토대를 기반으로 구축하고자 합니다. 이러한 투자를 통해 고객은 개방형 데이터 레이크하우스의 원래 목표인 단일 데이터 복사본에서 데이터 및 AI를 위한 완전히 통합된 플랫폼을 실현할 수 있습니다.

관리형 및 외부 Iceberg 테이블은 현재 공개 미리 보기에서 사용할 수 있습니다. 시작하려면 당사 설명서를 확인하십시오! 2025년 6월 9~12일에 Data and AI Summit에서 당사 발표를 다시 시청하여 최신 Iceberg 기능개방형 테이블 형식의 미래에 대해 자세히 알아보십시오.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요