주요 컨텐츠로 이동
고객

메르세데스-벤츠, 델타 공유 및 지능형 복제를 통해 크로스 클라우드 데이터 메시 구축, 비용 66% 절감

고급 자동차 제조업체가 델타 공유를 사용하여 크로스 클라우드 및 크로스 리전 데이터 메시를 구축한 방법, 지능형 복제를 통해 최신성과 송신 비용의 균형을 맞춤

작성자: Alexander Summa , Aleksandar Dragojevic

  • 메르세데스-벤츠는 Databricks Delta Sharing과 로컬 복제(Delta Deep Clone)를 사용하여 AWS와 Azure 간에 애프터세일즈 데이터를 안전하게 교환하기 위한 크로스 클라우드 데이터 메시를 구축했습니다.
  • Delta Sharing의 유연성을 통해 메르세데스-벤츠는 클라우드 및 지역 전반에서 데이터 최신성과 송신 비용을 모두 최적화할 수 있습니다.
  • 자주 액세스되는 대규모 데이터 세트의 경우, 메르세데스-벤츠는 Delta Sharing 위에 Deep Clone을 사용하여 데이터를 지능적이고 점진적으로 업데이트하여 송신 비용을 66% 절감했습니다.

Mercedes-Benz는 세계에서 가장 유명한 럭셔리 자동차 브랜드 중 하나로, 현재 디지털화와 전기차 전환이라는 두 가지 주요 산업 변화를 헤쳐나가고 있습니다. 이 시대는 "데이터 중심 차량"이라는 개념으로 정의됩니다.

  • 하드웨어에서 데이터로: 과거에는 차량이 하드웨어 중심으로 정의되고, 그 다음에는 소프트웨어 중심으로 정의되었지만, 이제 업계는 데이터 중심 차량 시대로 접어들고 있습니다. 이러한 변화는 차량 텔레메트리 및 고객 정보를 포함한 데이터가 제품 개선과 고객 경험을 주도하는 핵심 자산임을 의미합니다.
  • 데이터 공유의 필요성: 이러한 데이터 중심 차량을 구축하기 위해 연구 개발(R&D), 애프터 서비스, 마케팅과 같은 다양한 비즈니스 단위는 데이터를 원활하고 안전하며 비용 효율적으로 공유할 수 있어야 합니다. Mercedes-Benz는 데이터 전송을 위해 이전의 비보안적이거나 비효율적인 FTP 서버 및 이메일과 같은 방식을 대체할 강력하고 중앙 집중식 데이터 공유 마켓플레이스를 목표로 삼았습니다.

이러한 과제는 회사의 멀티 클라우드 아키텍처(AWS 및 Azure)에서 발생했습니다. Azure의 데이터 소비자는 주로 AWS에 저장된 대규모의 자주 업데이트되는 애프터 서비스 데이터 세트에 액세스해야 했습니다. 이러한 클라우드 간 액세스는 높은 송신 비용을 발생시키고 데이터 최신성을 보장하는 데 상당한 기술적 장애물을 야기했습니다.

비즈니스 과제: 높은 송신 비용 및 데이터 사일로

Mercedes-Benz는 AWS와 Azure를 활용하는 멀티 클라우드 환경과 해당 클라우드 내의 멀티 리전 설정을 운영합니다. 이러한 접근 방식을 통해 특정 기술 요구 사항에 가장 적합한 하이퍼스케일러 서비스를 선택할 수 있습니다.

높은 송신 비용 및 데이터 사일로

차량의 무선 업데이트 이벤트 및 워크샵 방문 정보를 포함하는 애프터 서비스 데이터는 중요한 예시입니다. 이 데이터는 연구 개발(R&D)에서 부품을 개선하고 보증 사례를 분석하는 데 필수적입니다.

  • 데이터 볼륨: 핵심 애프터 서비스 데이터는 상당하며, Azure에서 실행되는 수십 개의 사용 사례를 지원하는 데 필요한 약 60TB의 하위 집합이 있습니다. 이 볼륨은 지속적으로 증가하고 있습니다.
  • 비용 장벽: Azure 기반 소비자가 AWS에 있는 이 대규모 데이터 세트에 직접 액세스할 때, 비용에 민감한 사용 사례의 경우 송신 비용이 고려 사항이 되었습니다. 실시간 분석 요구 사항에는 직접 액세스가 적합했지만, 팀은 덜 시급한 워크로드에 대해 더 경제적인 접근 방식을 모색했습니다.
  • 데이터 지연 및 최신성: 새로운 솔루션 이전에는 전체 데이터 세트가 주간 전체 로드로 복사되는 경우가 많았습니다. 데이터 소비자는 더 빈번한 업데이트를 요청했지만, 매일 전체 로드를 수행하는 것은 너무 비쌌습니다. 보증 사례에 대응할 때 7일의 지연은 치명적일 수 있었습니다.
  • 데이터 형식 호환성: AWS의 원본 데이터는 Iceberg 형식이었지만, Azure 측의 많은 데이터 소비자는 Delta 호환 형식을 기대했습니다.

솔루션: 하이브리드 Delta Sharing 및 복제 전략

Mercedes-Benz는 대규모의 자주 액세스되는 데이터 세트 공유와 관련된 반복적인 송신 비용을 해결하기 위해 Databricks Delta Sharing의 안전한 데이터 교환 기능과 제어된 로컬 복제 메커니즘(Delta Deep Clone)을 결합한 기술 솔루션을 구현했습니다.

하이브리드 Delta Sharing 및 복제 전략

Unity Catalog 및 Delta Sharing: 기반

이 솔루션은 Unity Catalog(UC)와 Delta Sharing을 기반으로 구축된 Databricks Data Intelligence Platform에 고정되어 있습니다.

  • Unity Catalog(UC): UC는 엔터프라이즈 전체의 모든 데이터 제품에 대한 글로벌 카탈로그 역할을 합니다. 메타데이터를 중앙 집중화하고, 액세스를 관리하며, 데이터가 제어권을 유지하면서 다른 사람에게 투명하게 공개될 수 있도록 하는 "허브 앤 스포크" 거버넌스 모델을 활성화합니다. UC는 AWS Glue에서 테이블을 페더레이션하고 Unity에 직접 등록하여 데이터 공유를 트리거하는 프로세스를 단순화했습니다.
  • Delta Sharing: Delta Sharing은 서로 다른 UC 메타스토어 간, 다양한 리전 간, 그리고 하이퍼스케일러 간(AWS에서 Azure로)에 데이터를 안전하게 교환하기 위한 개방형 프로토콜 역할을 합니다. 오픈 소스 기술이며 증분 데이터 업데이트를 지원하기 때문에 선택되었습니다.

Delta Sharing은 Mercedes-Benz 데이터 메시 내에서 세 가지 주요 구성으로 사용됩니다.

  1. 클라우드 간/하이퍼스케일러 간 공유: 이것이 주요 사용 사례로, AWS와 Azure 간의 격차를 해소합니다. 양측의 통합 Databricks 플랫폼을 활용하여 클라우드 전반에 걸쳐 동일한 기술을 사용합니다.
  2. 리전 간/메타스토어 간 공유: 동일한 클라우드 내의 다른 리전 간에 Delta Sharing이 내부적으로 사용됩니다.
  3. 외부 공유: 이 솔루션은 Databricks 또는 Delta Sharing을 사용할 수 있는 공급업체와 같은 외부 파트너와 데이터를 공유할 수 있도록 합니다. 이는 비밀 키를 보내거나 FTP를 사용하는 것보다 더 안전한 데이터 수신 방법입니다.

하이브리드 접근 방식: 송신 비용 최소화를 위한 로컬 복제

모든 사용 사례가 실시간 데이터 최신성을 요구하지는 않는다는 점을 인식하고, Mercedes-Benz는 비용 효율성이 시간당 최신성보다 우선시되는 대규모의 많이 액세스되는 데이터 세트에 대해 제어된 증분 복제 접근 방식을 설계했습니다.

송신 비용 최소화를 위한 로컬 복제
  1. 클라우드 간 공유: 공급자 메타스토어(AWS)와 수신자 메타스토어(Azure) 간에 Delta Sharing이 구성됩니다.
  2. 주기적 동기화 작업: 자동화된 동기화 작업이 주기적으로 실행되며, Delta Deep Clone을 사용하여 수신자 클라우드의 객체 스토어(ADLS/S3)에 공유 테이블의 복제본을 유지합니다.
  3. 증분 업데이트: Deep Clone은 프로세스가 데이터를 증분적으로 업데이트할 수 있도록 하여 전체 데이터 세트를 지속적으로 복사하지 않아 비용을 절감합니다.
  4. 로컬 소비: Azure의 데이터 소비자는 Azure에서 로컬로 복제된 데이터를 쿼리하여 클라우드 간 데이터 이동과 관련된 높은 송신 비용을 크게 줄입니다.

이 아키텍처는 Delta Sharing의 핵심 강점인 유연성을 반영합니다. 사용자는 높은 데이터 최신성과 높은 비용(직접 Delta 공유) 또는 낮은 데이터 최신성과 최소 비용 및 지연 시간(로컬 복제 데이터) 중에서 선택할 수 있습니다. 이러한 계층적 접근 방식을 통해 Mercedes-Benz는 다양한 사용 사례를 효율적으로 지원할 수 있습니다.

기술 구현 및 모범 사례

팀은 몇 주 만에 엔드 투 엔드 솔루션을 준비했습니다. 확장성, 보안 및 정확한 비용 관리를 보장하기 위해 Mercedes-Benz는 여러 운영 및 아키텍처 모범 사례를 통합했습니다.

  • 동적 데이터 교환(DDX) 오케스트레이터: DDX는 셀프 서비스 메타 카탈로그로서 중심적인 역할을 합니다. DDX는 권한 관리(마이크로서비스 및 Databricks API를 통한 권한 부여), 동기화 작업 관리, 데이터 공유/복제 워크플로우를 자동화합니다.
  • Databricks Asset Bundles(DAB)를 통한 자동화: 동기화 작업 및 구성 배포는 DAB와 Azure DevOps를 통한 YAML 기반 배포를 사용하여 완전히 자동화됩니다. 이는 강력한 전체 DevOps 접근 방식을 보장합니다.
  • 비용 추적 및 귀속: 동기화 작업은 전송된 데이터의 정확한 양을 기록합니다. 별도의 보고 작업이 이 데이터를 매일 집계하여 데이터 제품당 대략적인 송신 비용을 계산하고, 이를 상위 데이터 생산자에게 청구하는 데 사용됩니다. 이 비용 대시보드는 동기화 작업의 컴퓨팅 비용도 추적합니다.
  • GDPR 및 거버넌스: 이 솔루션은 복제된 테이블에서 Delta Lake VACUUM 기능을 사용하여 GDPR 문제를 해결하며, 소스 측의 데이터 삭제가 수신자 측에 반영되도록 합니다.

정량적 이점 및 ROI

클라우드 간 데이터 메시 솔루션은 상당하고 측정 가능한 비즈니스 결과를 가져왔으며, Mercedes-Benz의 데이터 공유 경제 모델을 변화시켰습니다.

1. 운영 비용/송신 비용 절감

Delta Sharing의 증분 업데이트 기능과 Deep Clone을 통한 지능형 복제를 활용하여 Mercedes-Benz는 데이터 최신성을 최적화하면서 송신 비용을 절감했습니다.

  • 송신 비용 절감: 초기 10개 데이터 제품의 송신 비용이 66% 감소했습니다.
  • Egress에 대한 ROI: 이는 주간 Egress 비용을 약 3분의 2로 절감한 것을 나타냅니다. 위에서 언급한 50가지 사용 사례에 대한 직접적인 AWS 데이터 소비 계산 예시를 고려할 때, 연간 Egress 비용은 약 93% 절감되었습니다.

2. 데이터 최신성 및 비즈니스 민첩성 향상

데이터를 점진적으로 동기화하는 기능 덕분에 Azure 소비자에게 제공되는 데이터 업데이트 빈도를 극적으로 높일 수 있었습니다.

  • 최신성 향상: 데이터 소비자는 이제 7일 전체를 기다리는 대신 더 자주(예: 매일) 최신 데이터를 받습니다. 이를 통해 보증 사례와 같은 문제에 대한 대응 지연을 방지할 수 있습니다.

3. IT 운영 비용 절감

동기화 프로세스를 위해 완전 Serverless Databricks Jobs를 사용함으로써 컴퓨팅 비용과 운영 오버헤드를 줄였습니다.

  • 운영 안정성: 작업은 "거의 문제없이, 개입 없이" 실행되어 IT 운영 비용을 최소화합니다.

전략적 영향: 데이터 중심 차량

중앙 집중화되고 비용 효율적인 데이터 공유 프레임워크는 Mercedes-Benz의 "데이터 중심 차량" 비전에 필수적입니다.

Delta Sharing과 그 결과인 데이터 메쉬는 애프터 서비스 데이터와 같은 이전에 분리되었던 데이터 소스를 연구 개발, 마케팅, 영업 동료들과 연결하는 데 도움이 됩니다. 이를 통해 차량과 고객에 대한 총체적인 시각을 확보하고, 제품 라인의 디지털화 및 전동화에 대한 회사의 사명을 가속화합니다.

Mercedes-Benz가 Delta Sharing의 유연성을 활용하여 크로스 클라우드 데이터 메쉬를 최적화한 방법을 알아보려면 Data + AI Summit의 Alexander Summa 발표를 시청하세요:

YouTube에서 발표 시청하기

이 세션에서는 이 솔루션을 대규모로 배포한 기술 아키텍처, 구현 과제 및 교훈에 대해 더 자세히 알아볼 수 있습니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.