주요 컨텐츠로 이동
제품

Lakebase에서 Lakehouse 동기화 네이티브 기능 발표

Lakebase 데이터를 모델, 분석 및 기타 엔진에 개방

작성자: Pranav Aurora, Hristo Stoyanov , Cheng Chen

  • Lakehouse 동기화 네이티브 기능(공개 미리 보기)은 파이프라인이나 외부 컴퓨팅 없이 Lakebase Postgres 데이터를 Unity Catalog 관리 테이블로 자동 복제합니다.
  • 기존 CDC 스택은 에이전트 기반 워크로드에서 실패합니다. Lakebase와 Lakehouse는 동일한 개방형 스토리지를 공유하므로, 동기화는 Postgres 성능에 영향을 주지 않고 추가 비용 없이 스키마 전파를 자동화하는 네이티브 데이터베이스 속성이 됩니다.
  • 최신 앱 상태에 기반한 실시간 ML 피처, 전체 SCD 유형 2 기록을 갖춘 메달리온 아키텍처의 브론즈 레이어로서의 운영 데이터, 모든 변경 사항에 대한 내장 감사 캡처.

오늘 저희는 Lakehouse 동기화 네이티브 기능의 공개 미리 보기 버전을 발표하게 된 것을 기쁘게 생각합니다. 이 기능은 Lakebase Postgres의 핵심 기능으로, 파이프라인이나 외부 컴퓨팅 없이 Lakebase 데이터를 Unity Catalog 관리 테이블로 복제합니다. Lakehouse 동기화 네이티브 기능은 AWS 및 Azure의 모든 Lakebase 리전에서 사용할 수 있습니다.

개발 배경

과거에는 애플리케이션이 단일 운영 데이터베이스에서 실행되었습니다. 사용 사례가 확장되면서 하나의 데이터베이스로는 충분하지 않게 되었습니다. 분석, ML, 검색 등은 모두 운영 데이터베이스 외부에서 이루어지므로 데이터 이동이 필요했습니다.

과거에는 이 문제를 해결하기 위해 매일 배치 덤프를 데이터 웨어하우스로 내보냈고, 이는 결국 변경 데이터 캡처(CDC)로 발전했습니다. 하이퍼스케일러는 이를 '관리형' 동기화('제로-ETL')로 패키징하여 데이터베이스와 함께 데이터 파이프라인을 배포했습니다. 하지만 이러한 관리형 동기화는 항상 실행되는 워크로드, 안정적인 스키마, 예측 가능한 쿼리 볼륨, 단일 대상 데이터 웨어하우스와 같은 레거시 가정에 의존합니다. 데이터의 대상이 늘어날 때마다 문제가 복잡해집니다. 운영 성능이 저하되고, 스키마가 변경되며, 스택 전체에서 실패 지점이 늘어납니다.

에이전트 우선 개발은 이러한 모델을 완전히 뒤엎습니다. 에이전트는 데이터를 빠르게 분기하여 안전하게 반복하고, 작업 사이에 제로 스케일링하며, 단기 실행 환경을 시작합니다. 각 분기 및 각 대상에 대한 사용자 지정 파이프라인을 관리하는 것은 확장성이 떨어집니다.

데이터 웨어하우스에 연결하는 것은 잘못된 접근 방식입니다. 다운스트림 소비자는 더 이상 대시보드에 국한되지 않습니다. 임베딩 모델, LLM, 예측 서비스, 피처 파이프라인 등이 포함됩니다. Delta Lake 및 Apache Iceberg™와 같은 개방형 테이블 형식은 이상적인 기본 요소를 제공합니다. 저렴한 객체 스토리지에 데이터를 한 번 저장하여 복제 없이 모든 워크로드를 지원합니다. 이는 잘 알려진 사실입니다. Lakehouse가 필요하며, 최신 운영 데이터를 Lakehouse 내에 포함하고 싶을 것입니다.

하지만 운영 데이터를 Lakehouse에 쓰는 것은 새로운 과제를 만들었습니다. 팀은 Postgres 복제 슬롯, Debezium 커넥터, 스트림 처리 엔진을 구성하여 개방형 형식으로 쓰고, 테이블을 최적화하기 위한 별도의 컴퓨팅을 사용해야 했습니다. 모든 홉은 실패 지점을 추가합니다.

Lakebase의 속성으로서의 동기화

Lakebase는 근본적으로 다른 가정 위에 구축되었습니다. 운영 데이터베이스는 Lakehouse와 동일한 개방형 저비용 클라우드 스토리지에서 실행되어야 합니다. OLTP와 OLAP가 이 통합 스토리지 기반을 공유하므로 ETL 파이프라인을 완전히 제거할 수 있습니다. 데이터 이동은 데이터베이스 자체의 네이티브 속성이 됩니다.

Lakehouse 동기화 네이티브 기능을 사용하면 Lakebase는 Write-Ahead-Log(WAL)를 디코딩하여 Unity Catalog 관리 테이블에 직접 씁니다. 단일 스키마 수준 토글로 1분 이내에 활성화할 수 있습니다. 이 동기화는 Postgres 성능에 전혀 영향을 미치지 않으며 추가 비용도 발생하지 않습니다. Databricks가 양쪽을 모두 제어하므로 스키마 변경이 자동으로 전달되어 변경 및 지연이 사라집니다.

엔드 투 엔드 에이전트 우선

에이전트는 Lakebase에서 앱을 구축합니다. Databricks Genie와 같은 에이전트는 데이터를 분석합니다. 이 전체 수명 주기를 자율적으로 유지하기 위해 Lakehouse 동기화 네이티브 기능은 Lakebase의 핵심 속성으로 구축되었습니다. 에이전트가 원활하게 작동하는 데 필요한 정확한 동작을 상속합니다.

  • 제로 스케일링: 데이터베이스가 제로 스케일링될 때 동기화가 일시 중지되고 다시 시작될 때 마지막 LSN부터 재개됩니다.
  • 제로 컴퓨팅 관리: 동기화는 Lakebase의 네이티브 부분입니다. 모든 모니터링 및 관찰 가능성은 Lakebase 프로젝트 내에 유지됩니다.
  • 자동 스키마 전파: 스키마 변경이 자동으로 전달됩니다. 열 추가는 즉시 전파됩니다. 열 삭제는 대상에서 유지됩니다. 에이전트는 동기화를 다시 만들 필요가 없습니다.

대상 측의 Lakehouse 기본 요소

대상은 Unity Catalog 관리 테이블이므로, 데이터가 도착하는 순간부터 모든 Lakehouse 기능을 동기화된 데이터에 사용할 수 있습니다.

  • AI 네이티브 분석: Databricks Genie 및 Genie Code와 같은 에이전트가 쿼리, 분석 및 파이프라인 생성을 위해 즉시 사용할 수 있습니다.
  • 보편적 가독성: Databricks SQL, Apache Spark, Lakeflow Spark 선언형 파이프라인, ML 노트북 및 Delta 또는 Iceberg를 사용하는 모든 도구에서 읽을 수 있습니다.
  • 통합 거버넌스: 계보, 액세스 정책, 태그 및 감사는 Unity Catalog에서 상속됩니다.
  • 자동 최적화: Predictive Optimization 및 Liquid Clustering이 설정 없이 적용됩니다.
  • 기본 버전 관리: 모든 삽입, 업데이트 및 삭제는 SCD 유형 2 기록으로 저장됩니다. 감사 로그, 되돌리기 및 CDF 의미 체계가 내장되어 있습니다.

Lakehouse 동기화 네이티브 기능으로 구축할 수 있는 것

이러한 소스 및 대상 동작을 함께 사용하면 이전에 사용자 지정 변경 데이터 캡처(CDC) 스택이 필요했던 세 가지 패턴을 활용할 수 있습니다.

에이전트 메모리 및 실시간 ML 피처. 애플리케이션 쓰기가 1분 이내에 Unity Catalog에 기록되므로, 모델은 별도의 수집 파이프라인 없이 애플리케이션의 현재 상태를 기반으로 재학습 및 채점됩니다.

메달리온 아키텍처의 운영 데이터. Lakebase를 메달리온 아키텍처의 브론즈 테이블로 사용합니다. 고속 업데이트는 Postgres에서 발생하며, 전체 변경 기록은 SCD 유형 2로 Lakehouse에 자동으로 흐릅니다.

규정 준수 및 감사. 모든 삽입, 업데이트 및 삭제는 Unity Catalog의 기록 행으로 캡처됩니다. 애플리케이션 측 기록 추적이나 별도의 감사 파이프라인이 필요하지 않습니다.

시작하기

Lakehouse 동기화 네이티브 기능은 공개 미리 보기 버전입니다. Lakebase를 시작하는 것은 즉각적입니다. 스키마에서 동기화를 한 번 토글하면 기존 및 향후 모든 테이블이 1분 이내에 Unity Catalog에 나타납니다.

Lakebase는 Lakehouse와 동일한 개방형 데이터 기반 위에 구축되었습니다. Lakehouse 동기화 네이티브 기능은 이 비전을 현실로 만들어, 별도의 파이프라인 없이 Lakebase 데이터가 개방형 형식으로 자동으로 흐르도록 합니다.

다음 단계: Lakehouse의 동일한 개방성을 Lakebase 테이블로 가져오는 것입니다. 계속 지켜봐 주세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.