2025년 8월 20일

레이크베이스를 이용한 역방향 ETL: 운영 분석을 위한 레이크하우스 데이터 활성화

레이크하우스에서 맞춤 파이프라인 없이 데이터를 신뢰성 있게 그리고 대규모로 애플리케이션에 제공하세요.

역방향 ETL은 정제된 레이크하우스 데이터를 실행 가능하게 만드는 과정으로, 앱, 대시보드, CRM 시스템에 이를 사용할 수 있게 합니다.
레이크베이스는 맞춤 파이프라인의 필요성을 제거하고, 골드 레이어 데이터를 완전히 관리되는 Postgres 데이터베이스로 직접 동기화합니다.
레이크베이스는 ML 기반 지원 대시보드, 세분화 엔진, 개인화된 사용자 경험과 같은 저지연 사용 사례를 지원하며, 이 모든 것은 Postgres의 힘과 확장성을 가지고 있습니다.

서론: 분석과 운영이 융합되고 있습니다

오늘날의 애플리케이션은 단순한 이벤트 데이터만으로는 충분하지 않습니다. 개인화, 자동화, 그리고 지능적인 사용자 경험을 제공하기 위해서는 레이크하우스(Lakehouse)에서 정제되고 맥락이 부여된, 실행 가능한 데이터가 필요합니다.

전통적으로 기업들은 ETL(Extract, Transform, Load)을 통해 운영 시스템의 데이터를 데이터 웨어하우스나 레이크하우스로 이동시켜 분석에 활용해 왔습니다. ETL은 데이터를 중앙 저장소로 모아 정제하고 분석하는 데 초점을 둡니다.

그러나 현대 애플리케이션에서는 여기서 한 단계 더 나아가야 합니다. 분석이 끝난 데이터를 다시 운영 시스템과 애플리케이션으로 보내 실제 기능에 반영해야 하기 때문입니다. 이를 역방향 ETL(Reverse ETL)이라고 하며, 데이터 웨어하우스나 레이크하우스에서 생성된 세그먼트, 점수, 인사이트를 CRM, 마케팅 툴, 혹은 애플리케이션 데이터베이스로 다시 전달하는 과정을 의미합니다.

이 데이터를 신뢰성 있게, 낮은 지연 시간으로 운영 환경에 반영하는 것은 그동안 복잡한 파이프라인과 맞춤형 인프라를 요구하는 어려운 과제였습니다.

Databricks가 최근 발표한 레이크베이스는 이 문제를 해결합니다. 이는 고성능 Postgres 데이터베이스와 기본 레이크하우스 통합을 결합하여 역방향 ETL을 간단하고 신뢰할 수 있게 만듭니다.

역방향 ETL이란 무엇인가요?

역방향 ETL은 레이크하우스에서 고품질 데이터를 애플리케이션을 구동하는 운영 시스템으로 동기화합니다. 이를 통해 신뢰할 수 있는 데이터셋과 AI 기반 인사이트가 개인화, 추천, 사기 탐지, 실시간 의사결정을 지원하는 애플리케이션에 직접 흘러들어갑니다.

역방향 ETL이 없다면, 인사이트는 레이크하우스에 머무르게 되고 필요한 애플리케이션에 도달하지 못합니다. 레이크하우스는 데이터가 정제되고, 풍부해지며, 분석으로 변환되는 곳이지만, 저지연 앱 상호작용이나 트랜잭션 작업부하에는 적합하지 않습니다. 여기서 레이크베이스가 등장하여, 맞춤형 파이프라인 없이 신뢰할 수 있는 레이크하우스 데이터를 직접 도구로 전달하여 행동을 촉진합니다.

실제로, 역방향 ETL은 일반적으로 레이크베이스에 통합된 네 가지 주요 구성 요소를 포함합니다:

레이크하우스: 비즈니스 수준의 집계 테이블(즉, "골드 테이블"), 엔지니어링 특징, ML 추론 출력 등 결정을 내리는 데 사용되는 정제된 고품질 데이터를 저장합니다.
동기화 파이프라인: 스케줄링, 신선도 보장, 모니터링을 통해 관련 데이터를 운영 저장소로 이동시킵니다.
운영 데이터베이스: 고동시성, 저지연, ACID 트랜잭션에 최적화되어 있습니다.
응용 프로그램: 고객 대면 응용 프로그램, 내부 도구, API, 대시보드에서 통찰력이 행동이 되는 최종 목적지입니다.

다이어그램은 동기화 파이프라인을 통해 레이크하우스 테이블에서 운영 데이터베이스로 데이터의 진행을 보여줍니다. 그런 다음 운영 데이터베이스는 내부 및 고객 대면 애플리케이션을 구동합니다.

오늘날의 역방향 ETL의 도전 과제

역방향 ETL은 간단해 보이지만 실제로, 대부분의 팀은 같은 도전에 직면합니다:

취약한, 맞춤형 ETL 파이프라인: 이 파이프라인들은 종종 스트리밍 인프라, 스키마 관리, 오류 처리, 오케스트레이션을 필요로 합니다. 이들은 취약하고 유지 관리가 자원 집약적입니다.
여러 개의, 연결되지 않은 시스템: 분석과 운영을 위한 별도의 스택은 더 많은 인프라를 관리하고, 더 많은 인증 계층을 의미하며, 형식 불일치의 가능성이 더 많습니다.
일관성 없는 거버넌스 모델: 분석 및 운영 시스템은 일반적으로 다른 정책 도메인에 존재하여, 일관된 품질 제어와 감사 정책을 적용하기 어렵습니다.

이러한 도전 과제들은 개발자와 비즈니스 모두에게 마찰을 일으키며, 데이터를 신뢰성 있게 활성화하고 지능적인 실시간 응용 프로그램을 제공하는 노력을 늦춥니다.

레이크베이스: 쉬운 역방향 ETL을 위해 기본적으로 통합됩니다

레이크베이스는 이러한 장벽을 제거하고 역방향 ETL을 완전히 관리되는, 통합된 워크플로우로 변환합니다. 높은 성능의 Postgres 엔진, 깊은 레이크하우스 통합, 그리고 내장된 데이터 동기화를 결합하여 신선한 인사이트가 추가 인프라 없이 애플리케이션으로 흘러들어갑니다.

이러한 레이크베이스의 기능들은 특히 역방향 ETL에 대해 매우 유용합니다:

깊은 레이크하우스 통합: 스냅샷, 스케줄, 또는 연속적인 기반으로 레이크하우스 테이블에서 레이크베이스로 데이터를 동기화하며, 외부 ETL 작업을 구축하거나 관리할 필요가 없습니다. 이는 맞춤형 파이프라인, 재시도, 모니터링의 복잡성을 기본적이고 관리되는 경험으로 대체합니다.
완전히 관리되는 Postgres: 오픈 소스 Postgres를 기반으로 한 레이크베이스는 ACID 트랜잭션, 인덱스, 조인, 그리고 PostGIS와 pgvector와 같은 확장 기능을 지원합니다. 기존의 드라이버와 도구들, 예를 들어 pgAdmin이나 JDBC를 통해 연결할 수 있으며, 새로운 데이터베이스 기술을 배우거나 별도의 OLTP 인프라를 유지할 필요가 없습니다.
확장 가능하고, 탄력적인 아키텍처: 레이크베이스는 독립적인 확장을 위해 컴퓨팅과 저장소를 분리하여, 10ms 미만의 쿼리 지연 시간과 수천 QPS를 제공합니다. 엔터프라이즈급 기능에는 다중 AZ 고가용성, 특정 시점 복구, 암호화된 저장소가 포함되어 있어, 자체 관리 데이터베이스의 확장성과 탄력성에 대한 도전을 제거합니다.
통합된 보안 및 거버넌스: Unity 카탈로그에 레이크베이스를 등록하여 운영 데이터를 중앙 집중화된 거버넌스 프레임워크로 가져옵니다. 이는 카탈로그 수준에서 감사 추적과 권한을 커버합니다. Postgres 프로토콜을 통한 접근은 여전히 기본 Postgres 역할과 권한을 사용하여, 귀하의 더 넓은 Databricks 거버넌스 모델에 적합하면서도 인증된 트랜잭션 보안을 보장합니다.
클라우드 중립적인 아키텍처: 워크플로우를 재구성하지 않고 선호하는 클라우드 환경에서 레이크베이스를 레이크하우스와 함께 배포합니다.

이러한 기능들이 Databricks Data Intelligence Platform에 포함되어 있어, 레이크베이스는 맞춤형 파이프라인, 독립적인 OLTP 시스템, 별도의 거버넌스에 의존하는 분산된 역방향 ETL 설정을 대체합니다. 이는 통합된, 고성능, 보안 서비스를 제공하여, 분석적 통찰력이 더 빠르게, 더 적은 운영 노력으로, 거버넌스가 보존된 상태에서 응용 프로그램으로 흐르도록 보장합니다.

샘플 사용 사례: 레이크베이스를 이용한 지능형 지원 포털 구축

실용적인 예로, 레이크베이스를 이용한 지능형 지원 포털을 구축하는 방법을 살펴보겠습니다. 이 인터랙티브 포털은 레이크하우스에서 ML을 이용한 인사이트, 예를 들어 예측된 에스컬레이션 위험과 권장 조치 등을 사용하여 지원 팀이 들어오는 사건을 분류하는 데 도움을 주며, 사용자가 각 티켓에 대한 소유권을 할당하고, 상태를 추적하고, 코멘트를 남길 수 있게 합니다.

레이크베이스는 이를 가능하게 하기 위해 예측을 Postgres로 동기화하면서 동시에 앱에서의 업데이트를 저장합니다. 결과적으로 분석과 실시간 운영이 결합된 지원 포털이 생성됩니다. 이와 같은 접근 방식은 개인화 엔진 및 ML 기반 대시보드를 포함한 많은 다른 사용 사례에도 적용됩니다.

단계 1: 레이크하우스에서 레이크베이스로 예측 동기화

ML 예측으로 풍부해진 사건 데이터는 델타 테이블에 존재하며, 스트리밍 파이프라인을 통해 거의 실시간으로 업데이트됩니다. 지원 앱을 구동하기 위해, 우리는 레이크베이스 역방향 ETL을 사용하여 이 델타 테이블을 Postgres 테이블로 지속적으로 동기화합니다.

UI에서, 우리는 선택합니다:

동기화 모드: 낮은 지연 시간을 위한 연속 업데이트
기본 키: incident_id

이를 통해 앱이 최소한의 지연으로 최신 데이터를 반영하도록 보장합니다.

참고: Databricks SDK를 사용하여 동기화 파이프라인을 프로그래밍 방식으로 생성할 수도 있습니다.

단계 2: 사용자 입력을 위한 상태 테이블 생성

지원 앱은 또한 소유권, 상태, 코멘트와 같은 사용자가 입력한 데이터를 저장할 테이블이 필요합니다. 이 데이터는 앱에서 작성되므로, 레이크베이스의 별도 테이블(동기화된 테이블이 아닌)로 들어가야 합니다.

다음은 스키마입니다:

이 디자인은 역방향 ETL이 단방향 (Lakehouse → 레이크베이스)으로 유지되도록 보장하면서, 여전히 앱을 통한 대화식 업데이트를 허용합니다.

단계 3: Databricks 앱에서 레이크베이스 액세스 구성

Databricks 앱은 레이크베이스와의 일류 통합을 지원합니다. 앱을 생성할 때, 단순히 레이크베이스를 앱 리소스로 추가하고 레이크베이스 인스턴스와 데이터베이스를 선택하면 됩니다. Databricks는 자동으로 앱의 서비스 주체에 대한 해당 Postgres 역할을 프로비저닝하여, 앱-데이터베이스 연결성을 간소화합니다. 그런 다음 이 역할에 필요한 데이터베이스, 스키마, 테이블 권한을 부여할 수 있습니다.

단계 4: 앱 코드 배포

데이터가 동기화되고 권한이 설정되면, 이제 지원 포털을 구동하는 Flask 앱을 배포할 수 있습니다. 앱은 Postgres를 통해 레이크베이스에 연결하고, 차트, 필터, 상호 작용성이 풍부한 대시보드를 제공합니다.

결론

분석적 통찰력을 운영 응용 프로그램에 가져오는 것은 더 이상 복잡하고 취약한 과정일 필요가 없습니다. 레이크베이스를 사용하면, 역방향 ETL은 완전히 관리되고 통합된 기능이 됩니다. 이는 Postgres 엔진의 성능, 확장 가능한 아키텍처의 신뢰성, 그리고 Databricks 플랫폼의 거버넌스를 결합합니다.

지능형 지원 포털을 구동하든, 실시간 데이터 기반 경험을 구축하든, 레이크베이스는 엔지니어링 오버헤드를 줄이고 인사이트에서 행동으로의 경로를 가속화합니다.

레이크베이스에서 동기화된 테이블을 생성하는 방법 에 대해 더 알아보려면, 우리의 문서를 확인하고 오늘 시작해보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)