주요 컨텐츠로 이동

Zerobus Ingest와 Lakebase로 거의 실시간 애플리케이션 구축하기

Databricks에서 IoT, 클릭스트림, 원격 측정 사용 사례를 위한 데이터 수집을 간소화하는 방법을 알아보세요.

Application Architecture: Zerobus Ingest + Lakebase + Databricks Apps

발행일: 2026년 3월 6일

솔루션2 min read

Summary

  • Zerobus Ingest가 IoT, 클릭스트림, 원격 측정 사용 사례를 위한 다중 홉 아키텍처를 제거하는 방법 알아보기
  • Lakebase가 복잡한 맞춤형 ETL 파이프라인을 제거하고 운영 사용 사례를 위해 트랜잭션 데이터를 통합하는 방법 확인하기
  • Zerobus Ingest, Lakebase, Databricks Apps를 사용하여 거의 실시간 대시보드 구축하기

IoT, 클릭스트림 및 애플리케이션 원격 분석의 이벤트 데이터는 Databricks Data Intelligence Platform과 결합될 때 중요한 실시간 분석 및 AI를 지원합니다. 기존에는 이 데이터를 수집하는 데 데이터 소스와 lakehouse 간에 여러 데이터 홉(메시지 버스, Spark 작업)이 필요했습니다. 이는 운영 오버헤드와 데이터 중복을 추가하고, 전문 지식이 필요하며, 레이크하우스가 이 데이터의 유일한 대상일 경우 일반적으로 비효율적입니다.

이 데이터가 레이크하우스에 저장되면 다운스트림 분석 사용 사례를 위해 변환되고 큐레이션됩니다. 하지만 팀에서는 종종 운영 사용 사례를 위해 이 분석 데이터를 제공해야 하며, 이러한 맞춤형 애플리케이션을 구축하는 것은 힘든 과정이 될 수 있습니다. 네트워킹, 모니터링, 백업 등을 포함한 전용 OLTP 데이터베이스 인스턴스와 같은 필수 인프라 구성 요소를 프로비저닝하고 유지 관리해야 합니다. 또한 실시간 애플리케이션에서 다시 표시하기 위해 분석 데이터를 데이터베이스로 가져오는 리버스 ETL 프로세스를 관리해야 합니다. 이를 위해서는 팀이 레이크하우스에서 외부 운영 데이터베이스로 데이터를 푸시하기 위한 추가 파이프라인을 구축해야 합니다. 이러한 파이프라인은 개발자가 설정하고 유지 관리해야 하는 인프라를 추가하며, 이는 결국 비즈니스를 위한 애플리케이션 구축이라는 주된 목표에서 주의를 분산시킵니다.

그렇다면 Databricks는 어떻게 lakehouse로의 데이터 수집과 운영 워크로드를 지원하기 위한 골드 데이터 제공을 모두 간소화할까요?

Zerobus Ingest와 Lakebase를 소개합니다.

Zerobus 수집 정보

Lakeflow Connect 의 일부인Zerobus Ingest 는 이벤트 데이터를 레이크하우스로 직접 푸시하는 간소화된 방법을 제공하는 APIs 세트입니다. Zerobus Ingest는 단일 싱크 메시지 버스 레이어를 완전히 제거하여 인프라를 줄이고 운영을 간소화하며 대규모로 거의 실시간에 가까운 수집을 제공합니다. 따라서 Zerobus Ingest를 사용하면 그 어느 때보다 쉽게 데이터의 가치를 활용할 수 있습니다.

데이터를 생성하는 애플리케이션은 데이터를 쓸 대상 테이블을 지정하고, 메시지가 테이블의 스키마에 올바르게 매핑되도록 한 다음, 스트림을 시작하여 Databricks로 데이터를 보내야 합니다. Databricks 측에서는 API가 메시지와 테이블의 스키마를 검증하고, 대상 테이블에 데이터를 쓰고, 데이터가 유지되었다는 확인 응답을 클라이언트에 보냅니다.

Zerobus Ingest의 주요 이점:

  • 간소화된 아키텍처: 복잡한 워크플로와 데이터 중복의 필요성을 제거합니다.
  • 확장된 성능: 거의 실시간에 가까운 수집(최대 5초)을 지원하고 수천 개의 클라이언트가 동일한 테이블에 쓸 수 있습니다(클라이언트당 최대 100MB/초 처리량).
  • Data Intelligence Platform과 통합: 팀이 사기 탐지를 위한 MLflow와 같은 분석 및 AI 도구를 데이터에 직접 적용할 수 있도록 하여 가치 창출 시간을 단축합니다.

Zerobus Ingest 기능

사양

수집 지연 시간

거의 실시간(5초 이하)

클라이언트당 최대 처리량

최대 100MB/초

동시 클라이언트

테이블당 수천 개

연속 동기화 지연(Delta → Lakebase)

10–15초

foreach 작성기의 실시간 지연 시간

200–300밀리초

Lakebase 정보

Lakebase 는 Databricks Platform에 내장된 완전 관리형, serverless, 확장 가능한 Postgres 데이터베이스로, 분석 및 AI 사용 사례를 지원하는 동일한 데이터에서 직접 실행되는 지연 시간이 짧은 운영 및 트랜잭션 워크로드를 위해 설계되었습니다. 

compute와 스토리지의 완전한 분리는 신속한 프로비저닝과 탄력적인 자동 확장을 제공합니다. Lakebase와 Databricks Platform의 통합은 기존 데이터베이스와의 주요 차별점입니다. Lakebase는 복잡한 맞춤형 데이터 파이프라인 없이도 실시간 애플리케이션과 AI 모두에서 Lakehouse 데이터를 직접 사용할 수 있게 해주기 때문입니다. 이는 엔터프라이즈 애플리케이션과 에이전트 워크로드를 지원하기 위해 데이터베이스 생성, 쿼리 지연 시간, 동시성 요구 사항을 충족하도록 구축되었습니다. 마지막으로, 개발자는 코드처럼 데이터베이스의 버전을 관리하고 브랜치를 쉽게 만들 수 있습니다.

Lakebase의 주요 이점:

  • 자동 데이터 동기화: 복잡한 외부 파이프라인 없이도 스냅샷, 예약 또는 지속적인 기반으로 Lakehouse(분석 레이어)에서 Lakebase로 데이터를 쉽게 동기화하는 기능
  • Databricks Platform과의 통합: Lakebase는 Unity Catalog, Lakeflow Connect, Spark Declarative Pipelines, Databricks Apps 등과 통합됩니다.
  • 통합된 권한 및 거버넌스: 운영 및 분석 데이터에 대한 일관된 역할 및 권한 관리. 기본 Postgres 권한은 Postgres 프로토콜을 통해 계속 유지될 수 있습니다.

이러한 도구를 함께 사용하면 고객은 여러 시스템의 데이터를 Delta 테이블로 직접 수집하고 리버스 ETL 사용 사례를 대규모로 구현할 수 있습니다. 다음으로, 이러한 기술을 사용하여 거의 실시간에 가까운 애플리케이션을 구현하는 방법을 살펴보겠습니다!

준실시간 애플리케이션 구축 방법

실용적인 예로, 음식 배달 회사인 ‘Data Diners’가 실시간으로 driver 활동과 주문 배달을 모니터링하는 애플리케이션을 통해 관리 직원의 역량을 강화하도록 지원해 보겠습니다. 현재는 이러한 가시성이 부족하여 배송 중에 문제가 발생했을 때 대처하는 능력이 제한됩니다.

실시간 애플리케이션이 가치 있는 이유는 무엇일까요? 

  • 운영 현황 파악: 관리자는 각 운전자의 위치와 현재 배송 진행 상황을 즉시 확인할 수 있습니다. 이는 주문이 늦어지거나 운전자의 도움이 필요할 때 사각지대를 줄여준다는 의미입니다.
  • 문제 완화: 실시간 위치 및 상태 데이터를 통해 관제사는 지연 발생 시 운전자의 경로를 변경하거나, 우선순위를 조정하거나, 고객에게 사전에 연락하여 배송 실패 또는 지연을 줄일 수 있습니다.

Data Intelligence Platform에서 Zerobus Ingest, Lakebase, Databricks Apps를 사용하여 이를 구축하는 방법을 살펴보겠습니다!

애플리케이션 아키텍처 개요

애플리케이션 아키텍처: 데이터 생산자, Zerobus Ingest, Delta, Lakebase, Databricks Apps

이 엔드투엔드 아키텍처는 4가지 단계를 따릅니다. (1) 데이터 생산자는 Zerobus SDK를 사용하여 이벤트를 Databricks Unity Catalog의 Delta 테이블에 직접 씁니다. (2) 연속 동기화 파이프라인이 Delta 테이블의 업데이트된 레코드를 Lakebase Postgres 인스턴스로 푸시합니다. (3) FastAPI 백엔드는 WebSockets를 통해 Lakebase에 연결하여 실시간 업데이트를 스트림합니다. (4) Databricks Apps를 기반으로 구축된 프런트엔드 애플리케이션은 최종 사용자를 위해 실시간 데이터를 시각화합니다.

데이터 생산자부터 살펴보면, 운전자의 휴대폰에 있는 데이터 다이너 앱은 주문 배송 경로에서 운전자의 위치(위도 및 경도 좌표)에 대한 GPS 원격 측정 데이터를 전송합니다. 이 데이터는 API 게이트웨이로 전송되며, 이 게이트웨이는 최종적으로 수집 아키텍처의 다음 서비스로 데이터를 전송합니다.

Zerobus SDK를 사용하면 API 게이트웨이의 이벤트를 대상 테이블로 전달하는 클라이언트를 신속하게 작성할 수 있습니다. 대상 테이블이 거의 실시간으로 업데이트되므로 연속 동기화 파이프라인을 만들어 lakebase 테이블을 업데이트할 수 있습니다. 마지막으로 Databricks Apps를 활용하여 Postgres의 실시간 업데이트를 stream하는 FastAPI 백엔드를 배포하고, 라이브 데이터 흐름을 시각화하는 프런트엔드 애플리케이션도 함께 배포할 수 있습니다.

Zerobus SDK가 도입되기 전에는 스트리밍 아키텍처가 대상 테이블에 도달하기까지 여러 홉을 포함했을 것입니다. API 게이트웨이는 Kafka와 같은 스테이징 영역으로 데이터를 오프로드해야 했으며, Spark Structured Streaming을 사용하여 트랜잭션을 대상 테이블에 작성해야 했을 것입니다. 이 모든 것은 유일한 대상이 레이크하우스라는 점을 고려할 때 불필요한 복잡성을 더합니다. 대신 위의 아키텍처는 Databricks Data Intelligence Platform이 데이터 수집에서 실시간 분석, 대화형 애플리케이션 구현에 이르기까지 엔드투엔드 엔터프라이즈 애플리케이션 개발을 어떻게 간소화하는지 보여줍니다.

5X 리더

Gartner®: Databricks 클라우드 데이터베이스 리더

시작하기

사전 요구 사항: 필요한 것

1단계: Databricks Unity Catalog에서 대상 테이블 만들기

클라이언트 애플리케이션에서 생성된 이벤트 데이터는 Delta 테이블에 저장됩니다. 아래 코드를 사용하여 원하는 카탈로그 및 스키마에 해당 대상 테이블을 만드세요.

2단계: OAUTH를 사용하여 인증

3단계: Zerobus 클라이언트를 생성하고 대상 테이블로 데이터 수집

아래 코드는 Zerobus API를 사용하여 원격 측정 이벤트 데이터를 Databricks로 푸시합니다. 

변경 데이터 피드(CDF) 제한 및 해결 방법

현재 Zerobus Ingest는 CDF를 지원하지 않습니다. CDF를 사용하면 Databricks가 delta 테이블에 새로 쓰여진 데이터의 변경 이벤트를 기록할 수 있습니다. 이러한 변경 이벤트에는 삽입, 삭제 또는 업데이트가 포함될 수 있습니다. 그런 다음 이러한 변경 이벤트를 사용하여 Lakebase의 동기화된 테이블을 업데이트할 수 있습니다. 데이터를 Lakebase에 동기화하고 프로젝트를 계속 진행하기 위해 대상 테이블의 데이터를 새 테이블에 쓰고 해당 테이블에서 CDF를 활성화합니다.

4단계: Lakebase를 프로비저닝하고 데이터베이스 인스턴스에 데이터를 동기화합니다.

앱을 구동하기 위해 이 새로운 CDF 지원 테이블의 데이터를 Lakebase 인스턴스로 동기화할 것입니다. 실시간에 가까운 대시보드를 지원하기 위해 이 테이블을 지속적으로 동기화할 것입니다.

Lakebase 인스턴스에 동기화된 테이블 생성

UI에서 다음을 선택합니다.

  • 동기화 모드: 짧은 지연 시간 업데이트를 위한 연속 모드
  • 기본 키: table_primary_key

이를 통해 앱이 최소한의 지연으로 최신 데이터를 반영하도록 보장합니다.

참고: Databricks SDK를 사용하여 프로그래밍 방식으로 동기화 파이프라인을 만들 수도 있습니다.

foreach 작성기를 통한 실시간 모드

Delta에서 Lakebase로의 지속적인 동기화는 10~15초의 지연 시간이 있으므로 더 짧은 지연 시간이 필요한 경우 ForeachWriter 작성기를 통해 실시간 모드를 사용하여 DataFrame에서 Lakebase 테이블로 데이터를 직접 동기화하는 것을 고려해 보세요. 이렇게 하면 수 밀리초 내에 데이터가 동기화됩니다.

Github의 Lakebase ForeachWriter 코드를 참조하세요.

5단계: FastAPI 또는 원하는 다른 프레임워크로 앱 빌드

RideShare360 애플리케이션 스크린샷

데이터가 Lakebase에 동기화되었으므로 이제 코드를 배포하여 앱을 빌드할 수 있습니다. 이 예시에서는 앱이 Lakebase에서 이벤트 데이터를 가져와 이를 사용하여 음식 배달 경로에 있는 운전자의 활동을 추적하는 거의 실시간 애플리케이션을 업데이트합니다. Databricks에서 앱을 빌드하는 방법에 대해 자세히 알아보려면 Databricks Apps 시작하기 문서 를 읽어보세요. 

기타 리소스

더 많은 튜토리얼, 데모, 솔루션 액셀러레이터를 확인하여 특정 요구 사항에 맞는 자체 애플리케이션을 빌드해 보세요. 

  • 엔드투엔드 애플리케이션 구축: 실시간 항해 시뮬레이터는 Python SDK 및 REST API를 사용하여 Databricks Apps 및 Databricks 자산 번들로 범선 함대를 추적합니다. 블로그 읽기
  • 디지털 트윈 솔루션 구축: Databricks Apps 및 Lakebase를 통해 운영 효율성을 극대화하고 실시간 인사이트 및 예측 유지보수를 가속화하는 방법을 알아보세요. 블로그 읽기

기술 설명서에서 Zerobus Ingest, Lakebase, Databricks Apps 에 대해 자세히 알아보세요. Databricks Apps CookbookCookbook Resource Collection을 살펴볼 수도 있습니다.

결론

IoT, 클릭스트림, 원격 분석 및 이와 유사한 애플리케이션은 매일 수십억 개의 데이터 포인트를 생성하며, 이는 여러 산업 분야에서 중요한 실시간 애플리케이션을 구동하는 데 사용됩니다. 따라서 이러한 시스템으로부터의 수집을 간소화하는 것이 가장 중요합니다. Zerobus Ingest는 높은 성능을 보장하면서 이러한 시스템에서 lakehouse로 이벤트 데이터를 직접 푸시하는 간소화된 방법을 제공합니다. Lakebase와 잘 연동되어 엔드투엔드 엔터프라이즈 애플리케이션 개발을 간소화합니다.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요