주요 컨텐츠로 이동

Databricks 관리형 재해 복구가 Capital One의 Lakehouse 복원력 달성에 기여하는 방법

Powering Mission Critical Workloads on the Databricks Lakehouse

Published: October 30, 2025

회사1분 이내 소요

작성자: Jonathan Keller

Summary

  • Databricks는 Capital One과 협력하여 lakehouse용 관리형 재해 복구 솔루션을 공동 개발했습니다
  • 벤더 장애 발생 시 이 솔루션은 성공적인 것으로 입증되었습니다
  • Capital One은 보조 리전으로 신속하게 페일오버(fail over)하고 Databricks 플랫폼에서 대화형 분석을 재개할 수 있었습니다

Databricks는 1년 이상 Capital One과 협력하여 lakehouse용 관리형 재해 복구(Disaster Recovery) 솔루션을 구축해 왔습니다. 공급업체 중단 시, Capital One은 Databricks 플랫폼의 대화형 분석을 보조 리전으로 신속하게 페일오버할 수 있었고, 이러한 협업의 성과가 나타났습니다.

기술 중단은 '일어날지 말지'가 아닌 '언제'의 문제입니다. Capital One과 Databricks의 파트너십은 견고한 데이터 플랫폼을 기반으로 강력한 재해 복구 전략을 따르면 대규모 서비스 타격도 비즈니스에 미치는 영향을 최소화하며 극복할 수 있음을 보여줍니다.

다중 리전 복원력에 대한 Databricks와의 파트너십은 리전 타격과 같은 이벤트가 발생해도 중요한 분석 워크로드를 계속 작동시키는 데 도움이 됩니다. —Shehzad Mevawalla, Capital One 엔터프라이즈 데이터 기술 부문 경영진 부사장

개방형 데이터 레이크하우스를 위한 재해 복구

기존 백업 도구는 데이터만 보호합니다. 기존 데이터 웨어하우스는 자체적인 독점 형식의 데이터만 보호할 수 있습니다.

반면, 최신 개방형 데이터 lakehouse는 그 이상입니다. 포함되는 내용은 다음과 같습니다.

  • 데이터는 고객이 제어하는 스토리지에 개방형 데이터 형식으로 저장됩니다.
  • 거버넌스의 중심 역할을 하는 개방형 데이터 카탈로그
  • 수천 명에 달하는 사용자가 사용하는 노트북 및 파이프라인과 같은 고객 정의 자산

이 모든 구성 요소가 장애에 대한 복원력을 갖추고 리전 장애 발생 시 원활하게 운영을 재개할 수 있는 것이 매우 중요합니다.

재해 복구와 관련하여, 이는 미션 크리티컬한 모든 lakehouse 요소를 낮은 지연 시간으로 다양한 자산 유형에 걸쳐 보조 클라우드 리전으로 복제하는 기능을 포함하여 새로운 과제들을 제시합니다.

Databricks 관리형 재해 복구: Lakehouse DR 솔루션

Databricks는 Capital One과의 협력을 통해 이러한 과제를 해결하는 데 도움이 되는 관리형 재해 복구 솔루션을 개발했습니다. 포함되는 내용은 다음과 같습니다.

  • 관리형 복제 - 성능이 뛰어난 백그라운드 compute를 통해 Databricks의 기본 제공 기능을 사용하여 중요한 workspace 자산을 보조 리전으로 신속하게 복제할 수 있습니다.
  • 고객 지정 페일오버 - Databricks의 관리형 솔루션은 고객이 원하는 시간에 보조 리전으로 페일오버할 수 있는 유연성을 제공합니다. 이를 통해 고객은 페일오버 및 페일백 프로세스를 완벽하게 제어할 수 있으며, 이는 페일오버 시 여러 팀, 시스템, 도구 간의 조율이 필요한 경우가 많기 때문에 필수적인 사항입니다.
  • 읽기 전용 보조 리전 - Databricks는 보조 페일오버 리전이 기본 리전으로 승격될 때까지 읽기 전용으로 쉽게 강제할 수 있습니다. 이를 통해 언제든지 모든 쓰기가 기본 리전으로 전달되도록 보장하고, 보조 리전에 의도치 않은 쓰기가 발생하는 것을 방지합니다.

교훈 및 다음 단계

이 성공적인 협업은 미션 크리티컬한 워크로드를 위한 몇 가지 핵심 요소를 강조합니다.

  • 복원력에 대한 지속적인 노력 - Capital One은 정기적인 페일오버 및 페일백 훈련에 대한 노력을 통해 중단이 발생했을 때 페일오버가 조직의 체화된 습관의 일부가 되도록 보장했습니다.
  • 복잡한 작업은 관리형 솔루션에 맡기기 - Capital One은 Databricks의 관리형 DR 솔루션을 활용하여 대규모 복제를 수행할 수 있으므로 팀은 더 중요한 업무에 집중할 수 있습니다.

Capital One은 클라우드 복원력 측면에서 재해 복구 범위를 확장하고 복구 시간 목표(Recovery Time Objective)를 더욱 단축하기 위해 노력하는 등 계속해서 혁신을 이어가고 있습니다.

Databricks는 과거 중단 사태에서 얻은 수업을 바탕으로 관리형 재해 복구 솔루션을 더욱 개선할 계획입니다. 자세한 내용은 계속 지켜봐 주세요.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?