주요 컨텐츠로 이동

실시간 오픈 레이크하우스, Redpanda와 Databricks

Redpanda의 Iceberg와 Unity Catalog와의 원칙적인 통합에 대한 투자는 스트림-테이블 간의 유연성을 제공하고 실시간 오픈 레이크하우스를 구동하는 지속 가능한 아키텍처를 만듭니다.

Databricks and Redpanda

Published: June 12, 2025

파트너1분 이내 소요

Summary

  • Kafka 스트림을 한 단계에서 완전히 관리되는 Unity Catalog의 Iceberg 테이블로 변환하여, 무거운 커넥터나 사용자 정의 ETL 작업 없이 실시간 레이크하우스 분석을 제공합니다.
  • 동일한 Redpanda 클러스터에서 Iceberg Topics를 사용하여 sub-10 ms 스트리밍 및 고처리량 Apache Iceberg™ 투입을 실행하고, parquet 배치, 정확한 커밋 및 Unity의 예측 최적화를 처리하여 비용과 운영 노력을 줄입니다.
  • 어디에서나 배포(SaaS, BYOC 또는 자체 관리)하고 Kafka, Iceberg V2 및 REST Catalog API와 같은 오픈 표준을 기반으로 구축합니다. 간단한 선언적 구성을 통해 사용자 정의 파티셔닝, 스키마 진화 및 내장 DLQ를 제공합니다.

모든 레이크하우스는 '스트림으로 공급되어야' 합니다 

몇 년 전 Databricks가 선도한 '오픈 레이크하우스' 개념은 최근 Apache Iceberg™의 급격한 성장을 통해 더욱 널리 실현되었습니다. 이는 주요 벤더들이 프레임워크 통합, 도구, 카탈로그 지원, 데이터 상호 운용성에 투자하고 Iceberg를 오픈 레이크하우스의 공통 기반으로 채택하면서 이루어졌습니다. 공개 UniForm을 통해 Delta Lake 테이블을 빠르게 성장하는 Iceberg 생태계에 노출시키는 것과 같은 진보는 Unity Catalog의 예측 최적화와 Iceberg REST에 대한 고급 기능 지원, 관리되는 Iceberg 테이블 그리고 최근 Delta/Iceberg 데이터 계층의 통합 등이 가능하게 되었습니다. V3 이 모든 것은 조직이 'Iceberg 중심'의 데이터 전략을 자신있게 채택하고, Databricks와 같은 성숙한 레이크하우스 제품의 풍부한 기능 세트 사용을 타협하지 않고 채택할 수 있음을 의미합니다. 

이 어디에나 접근 가능한 클라우드 기반 데이터 이야기에서 빠져있는 주요 플레이어 중 하나는 바로 스트림, 즉 Kafka 토픽입니다. 오늘날, 어떤 구조화된 데이터든지 쉽게 Iceberg로 원래의 형태나 '장식된' 형태로 저장될 수 있습니다. 그러나 실시간 앱을 지원하는 스트리밍 플랫폼을 통해 흐르는 고가의 데이터는 여전히 대상 레이크하우스로 'ETL' 처리되어야 하며, 이는 포인트 투 포인트, 스트림 당 데이터 통합 작업이나 비용이 많이 드는 커넥터 인프라를 별도의 클러스터에서 실행하는 방식으로 이루어집니다. 두 가지 접근법 모두 무거운 Kafka 소비자를 사용하여 실시간 데이터 전송 파이프라인에 압박을 가하며, Kafka 기술을 특화하여 관리하고 관찰할 수 있는 중개 인프라 구성 요소를 확장합니다. 두 가지 접근법 모두 실시간과 분석 데이터 사이에 매우 비싼 통행료를 부과하는 것으로, 실제로는 필요하지 않습니다. 

스트림을 지원하기 위한 클라우드 객체 저장소의 사용이 성숙해지면서(Redpanda가 그 충전을 이끌었습니다 몇 년 전) 그리고 레이크하우스에서 오픈 테이블 형식이 중심 무대를 차지함에 따라, 이 스트림-테이블의 결합은 편리하고 "의도된 것"입니다. Databricks와 Redpanda는 이 접근법을 빛나게 하고 머리를 돌리는 두 개의 세계적인 데이터 플랫폼을 제공합니다. 함께하면 실시간 의사결정, 분석 및 AI를 아우르는 데이터 기반을 만들어, 이를 능가하기 어렵습니다. 실질적으로, 이 접근법은 설정 플래그의 편리함으로 스트림과 테이블을 병합합니다. 이것은 선택 가능한 스트림을 요구에 따라 통합된 데이터 레이크로 라우팅하는 다실식 댐처럼 작동하며, 최신 인사이트를 제공하고, 레이크하우스 아키텍처가 테이블에게 준 것과 같은 새로운 분석 파이프라인 내의 데이터의 임의적인 포함을 해제하고, 이제 Iceberg 생태계가 제공하는 확대된 조리개를 통해 이루어집니다.  

실시간과 분석 데이터 인프라를 매끄럽게 통합하여 '스트림 페드 레이크하우스'를 만드는 것은 엄청난 가치를 창출할 뿐만 아니라, 일반적인 경우에 적절하게 해결하기 위해 신중한 접근이 필요한 어려운 엔지니어링 문제를 해결합니다. 아래에서 설명하려는 바와 같이, 이 기능을 시장에 빠르게 출시하기 위해 우리는 단축하지 않았습니다. 수십 개의 디자인 파트너(그리고 Databricks)와 함께 1년 이상 작업하여, Redpanda의 단일 코드베이스를 확장하여 고객이 선호하는 배포 옵션(다중 클라우드에서의 BYOC 포함), 완전한 Kafka 호환성(작업 부하를 남기지 않음), 그리고 가능한 한 사용자의 아티팩트와 단계의 중복을 피하는 방식을 유지했습니다. Redpanda Iceberg 토픽을 구축하기 위한 지침 원칙을 제시하면서 이 완전한 비전이 전달되길 바랍니다. 이제 Databricks Unity 카탈로그 와 함께 AWS와 GCP에서 사용할 수 있습니다!

스트림-투-레이크하우스 플랫폼을 어디에서나 실행하세요 

우리의 첫 번째 원칙은 선택을 유지하고 사용자가 있는 곳에서 만나는 것이었습니다. Redpanda는 이미 성숙한 다중 클라우드 SaaS, BYOC 그리고 자체 관리 제공, BYOVPC와 같은 개인 주권 네트워킹 옵션을 가지고 있으며, 일반적으로 고객이 클라우드, 네트워크, 오브젝트 스토어, IdP, 또는 어떤 것이든 채택을 제한하거나 플랫폼 소유자가 스트리밍 플랫폼 배포(데이터 및 제어 평면 포함)를 자신들에게 가장 많은 의미가 있는 곳에 위치시키는 것을 방해하지 않습니다. 그 선택에 관계없이 사용자는 플랫폼의 모든 기능과 개발자와 관리자 모두에게 일관된 UX를 얻습니다. 이 단일 플랫폼 제품 전략이 우리가 오늘 AWS, GCP 및 Azure 클라우드에서 일반적으로 사용 가능한 Databricks를 위한 Iceberg Topics를 발표할 수 있게 해주며, 그리고 조직이 클라우드를 전환하거나 새로운 형태 요소로 변경할 때, 그들이 동일한 제품을 동일한 기본 엔진, Kafka 호환성, 보안 모델, 성능 특성 및 관리 도구와 함께 배포하고 있다는 것을 알고 자신감을 가지고 배포할 수 있습니다. 이러한 유연성과 일관성의 폭은 시장에서 다른 옵션과 크게 대비됩니다.

Unity 카탈로그, 가장 통합된 스트리밍 플랫폼을 만나보세요

둘째로, 우리는 이를 단일 시스템으로 구축하는 것에 대해 강하게 주장했으며, 실제로 그렇게 느껴지는 시스템을 만들었습니다. 당신은 단순히 두 개의 개념을 완전히 다른 소프트웨어 아키텍처를 함께 볼트로 고정시키는 것으로 잘 결합시킬 수 없습니다.  SaaS 외관으로 일부 사항을 덮어 쓸 수 있지만, 부풀어진 아키텍처는 최소한 가격 모델, 성능 및 TCO에서, 최악의 경우 사용자 경험에서 유출됩니다. 우리는 최선을 다해 그것을 피하려고 노력했습니다.

개발자들에게 단일 시스템의 '느낌'은 단일 CRUD 생명주기와 토픽-테이블에 대한 일관된 UX를 의미하며, 그들이 작동하기 위해 필요한 것들(즉, 스키마)에 대한 일관된 UX를 의미합니다. Iceberg Topics를 사용하면 별도의 UI를 사용하여 두 번 생성하거나 항목이나 conf를 복사하지 않습니다. 데이터와 스키마 모두에 대한 진실의 원천으로 하나의 엔티티를 관리하며, 항상 동일한 도구를 사용합니다. 이는 우리에게 이미 사용하고 있는 모든 Kafka 생태계 도구, 우리의 rpk CLI, Cloud REST APIs 또는 우리의 K8s CRs 또는 Terraform 제공자와 같은 Redpanda 배포 자동화 도구를 통해 CRUD를 수행한다는 것을 의미합니다. 스키마의 경우, 이는 널리 받아들여진 표준 스키마 레지스트리 와 그것의 API를 사용하여 Iceberg 테이블 스키마를 암시적으로 또는 명시적으로 정의합니다. 모든 것이 구성 기반 이며 DevOps 친화적입니다. 그리고 Unity Catalog의 새로운 관리되는 Iceberg 테이블을 통해 모든 스트림이 Databricks 도구를 통해 기본적으로 Iceberg 및 Delta Lake 테이블로 발견될 수 있습니다.

Databricks 생태계에서의 Iceberg Topics
Iceberg Topics in the Databricks Ecosystem

단일 시스템은 또한 플랫폼 운영자에게 문제가 되며, 그들은 여러 버킷이나 카탈로그를 관리하거나, Parquet 파일 크기를 조정하거나, 클러스터가 리소스에 제약을 받을 때 스트림이 테이블을 지연시키는 것에 대해 걱정할 필요가 없어야 합니다. 또한 노드 실패가 정확히 한 번의 전달을 위협하는 것에 대해서도 걱정할 필요가 없습니다.  Redpanda Iceberg Topics를 사용하면 이 모든 것이 자율 주행입니다. 운영자들은 데이터 도착 SLA에 맞게 조정되는 동적으로 배치된 parquet 쓰기와 트랜잭션 Iceberg 커밋, 필요할 때 Kafka Producer 백프레셔를 생성하는 자동 지연 모니터링, Iceberg 스냅샷 태깅을 통한 정확히 한 번의 전달(인프라 실패 후의 간격이나 중복을 피함)에서 이익을 얻습니다. 

Redpanda는 모든 데이터를 단일 버킷/컨테이너에서 관리하고, Unity Catalog의 단일 Iceberg 카탈로그를 사용하며(이를 Redpanda가 모니터링 하여 우아한 복구를 위해), Unity Catalog의 Iceberg REST 엔드포인트를 Redpanda Cloud의 UI에 바로 표시하여 테이블을 쉽게 찾을 수 있게 합니다. 그리고 이제 Unity Catalog Managed Iceberg Tables를 통해, 테이블 유지 관리 작업인 압축, 데이터 만료, 예측 최적화가 Unity Catalog에 의해 배경에서 내장되어 자동으로 실행되며, Redpanda는 그 역할에 적합한 최소한의 유지 관리 작업(Iceberg 스냅샷 정리 및 테이블 생성/삭제 현재)을 수행합니다. 그런 다음 Databricks 관리자는 이러한 테이블을 일반적인 Unity Catalog 권한을 사용하여 보안하고 관리할 수 있습니다.  

Unity Catalog에서의 Redpanda Iceberg 카탈로그, 예측 최적화 활성화
A Redpanda Iceberg catalog in Unity Catalog, with Predictive Optimization enabled
카탈로그 파일은 Unity Catalog 외부 위치의 일부입니다
Catalog files as part of  a Unity Catalog external location
Unity Catalog 외부 위치의 Redpanda Iceberg Topics
Redpanda Iceberg Topics in a Unity Catalog external location
Unity 카탈로그의 Redpanda Cloud에서의 Iceberg REST 카탈로그
Unity Catalog’s Iceberg REST Catalog in Redpanda Cloud

모든 것을 지배하는 하나의 클러스터

가장 중요한 것은, 쓰기 캐싱과 다중 레벨 데이터 및 작업 균형 과 같은 기능을 갖춘 코어 당 스레드 아키텍처를 사용하는 R1다중 모델 스트리밍 엔진 덕분에, 관리자는 이 고성능 Iceberg 삽입을 기존의 저 지연 Kafka 작업 부하와 동일한 토픽에서 실행할 수 있습니다. Produce/Consume 요청을 처리하는 동일한 CPU 코어에 잠긴 비동기 파이프라인 작업을 사용하여, 우리는 단일 프로세스에서 최대 효율성으로 두 가지 작업 부하를 처리합니다. 가장 중요한 것은, Iceberg Topics는 Kafka 트랜잭션과 압축된 토픽을 포함한 Kafka 의미 체계의 전체 세트를 활용할 수 있으며, 여기서 Iceberg 계층은 커밋된 트랜잭션에서만 레코드를 받습니다. 이 복잡한 의미 체계의 어려운 문제를 해결하는 근본적으로 효율적인 아키텍처의 결합은 운영 비용을 크게 줄이는 데 큰 이익을 가져다줍니다. 왜냐하면, 잘, 모든 것을 지배하는 하나의 클러스터입니다. 추가 제품 없음. 별도의 클러스터 없음. 파이프라인을 돌보지 않음. 어디에서나 배포. 스트리밍 플랫폼 관리자들은 침착하게 계속 진행하세요.

간단하게 만드세요

세 번째 원칙은 기본 동작에 대해 몇 가지 의견을 내고, 사용자가 가장 많은 사용 사례에 적합한 스마트한 자동 구성을 통해 시스템을 점진적으로 배울 수 있게 하는 것이었습니다. 이는 내장된 시간별 테이블 파티셔닝(완전히 Kafka 토픽 파티션 스키마와 분리됨), 항상 켜져 있는 데드 레터 큐 를 테이블로 사용하여 잘못된 데이터를 캡처하고, '최신 버전'이나 'TopicNameStrategy'와 같은 간단하고 공식적인 규칙을 사용하여 스키마 추론을 쉽게 합니다. 또한 메시지 파티션, 오프셋, 키와 같은 Kafka 메타데이터를 Iceberg Struct로 가져와 개발자들이 Iceberg SQL에서 스트리밍 파이프라인의 정확성을 빠르게 검증할 수 있는 출처를 모두 가지게 합니다.  

기본 토픽 구성: 통합된 생명주기, 시간별 파티셔닝 및 DLQ
Default topic configuration: unified lifecycle, hourly partitioning and DLQ

간단한 것은 당연히 간단해야 하지만, 복잡한 것도 간단해야 합니다. 따라서 계층적 사용자 정의 파티셔닝 을 정의하거나 Iceberg의 전체 파티션 변환 세트를 사용하여 특정 Protobuf 메시지 유형을 주제 내에서 끌어내어 Iceberg 테이블 스키마가 되게 하는 것은 다시 말해, 선언적인 단일 라인 토픽 속성입니다. 스키마는 Redpanda가 현장 테이블 진화를 적용함으로써 우아하게 진화할 수 있습니다. 그리고 필요하다면, 원시 토픽에서 복잡한 메시지를 팬 아웃하여 WebAssembly에 의해 구동되는 기본 Data Transforms 를 사용하는 단순한 SMT를 실행하여 더 간단한 Iceberg 사실 테이블로 만드십시오. 최종 목표는 한 번의 패스에서 분석 준비를 마치는 것입니다. 붐, 안녕하세요 Bronze 계층.

사용자 정의 파티셔닝 및 스키마 선택으로 Iceberg 토픽 생성
Creating an Iceberg Topic with custom partitioning and schema selection

이 모든 혁신의 배경은 물론, 빠르게 발전하는 Apache Iceberg 프로젝트와 사양, 그리고 Redpanda의 일반적으로 오픈 표준에 대한 약속입니다. 그 약속은 Kafka 프로토콜, 스키마 레지스트리 및 HTTP 프록시 API, 그리고 조직이 Kafka 애플리케이션 전체를 변경 없이 원활하게 이전할 수 있도록 허용하는 표준 토픽 구성과 같은 다른 세부 사항에 대한 초기 지원으로 시작했습니다. Iceberg 영역에서 Redpanda는 커뮤니티에서 헌신적인 개척자로 나서, 완전한 C++ Iceberg 클라이언트를 처음부터 구현했습니다(이것은 오픈 소스로 사용할 수 없습니다). 이 클라이언트는 전체 Iceberg V2 테이블 사양, 모든 스키마 진화 규칙, 그리고 파티션 변환을 지원합니다.  Iceberg 카탈로그 측면에서, Redpanda는 파일 기반 카탈로그를 제공하고, Unity Catalog와 같은 원격 카탈로그에서 생성, 커밋, 업데이트 및 삭제와 같은 작업을 위해 Iceberg REST를 사용하며, OIDC 인증을 지원하고, Unity Catalog 자격 증명을 신중하게 처리하여 비밀 로서 클라우드 제공자의 비밀 관리자에서 투명하게 암호화됩니다. Redpanda는 또한 Databricks와 다른 Iceberg 리더들과 밀접하게 협력하여, 사양이 어떻게 확장되어 Variant 유형을 통해 반정형 스트림 데이터를 지원하고, 두 플랫폼 간의 정책을 동기화하여 테이블 RBAC 관리를 더 원활하게 만드는 방법을 탐색하였습니다. 이 표준화와 항상 사양에 따라 구현하는 것은 최소한의 공급 업체 락인을 의미합니다. 조직은 항상 시스템의 어떤 부분이든 더 나은 옵션을 찾으면 교체할 수 있습니다: 스트리밍 플랫폼, Iceberg 카탈로그, 또는 테이블을 쿼리/처리하는 레이크하우스. 

이 글을 읽고 있다면, 우리는 진심으로 당신이 Redpanda의 이 뜨거운 시장 기회에 대한 접근 방식에 대한 심도 있는 엄격함을 느꼈기를 바랍니다. 이는 강력한 엔지니어링 문화와 견고한 제품을 만드는 열정에서 비롯된 것입니다.  기술자로서의 심장과 확고한 실적을 가지고 있으며, 특히 BYOC 형태 요소에 초점을 맞춘 우리의 Redpanda와 Databricks는 두 개의 최고의 플랫폼을 제공하며, 이는 당신에게 증기에서 테이블까지의 문제를 잘 해결하게 만듭니다.

Iceberg Topics를 시도해보세요 Unity Catalog와 함께 Redpanda의 독특한 Bring-Your-Own-Cloud 제공을 오늘 사용해보세요.  또는, 우리의 자체 관리형 버전인 Redpanda Enterprise의 무료 체험을 시작해보세요: https://cloud.redpanda.com/try-enterprise.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요