고객 사례

음성, 데이터 및 AI로 홈 엔터테인먼트 혁신

10배

전체적인 데이터 처리 컴퓨팅 비용 절감

90%

인프라 관리에 필요한 DevOps 리소스 감소

업종: 미디어 및 엔터테인먼트

솔루션: 고객 세분화

플랫폼 사용 사례: Delta Lake, 데이터 사이언스, 머신 러닝, ETL

클라우드: AWS

"Comcast에서는 Databricks의 도움을 받아 확장을 마치고 매일같이 수십억 건에 달하는 트랜잭션과 테라바이트급 데이터를 처리하고 있습니다."

— Jan Neumann, Comcast, 머신 러닝 부사장

배경 이미지

수백만의 고객을 개인화된 경험에 연결해주는 글로벌 기술 미디어 기업인 Comcast는 방대한 데이터, 취약한 데이터 파이프라인, 데이터 사이언스 협업 부족으로 인해 어려움을 겪었습니다. Delta Lake 및 MLflow를 활용하는 Databricks를 사용한 덕분에 페타바이트 규모 데이터를 처리하는 성능을 갖춘 데이터 파이프라인을 구축하고 수백 개 모델의 수명 주기를 관리하여, 음성 인식과 머신 러닝을 적용한 매우 혁신적이고 독창적이면서도 수상 경력에 빛나는 시청 환경을 구현할 수 있었습니다.

데이터 및 ML 요구 사항에 못 미치는 인프라

특정 프로그램에서 고객의 음성 요청에 즉시 답하면서도 수십억 개의 개별 상호작용을 실천 가능한 인사이트로 바꾸는 작업은 Comcast IT 인프라와 데이터 분석, 데이터 사이언스 팀에 부담을 주었습니다. 설상가상으로 클라우드, 온프레미스 등에 흩어진 서로 다른 범위의 환경에, 또 경우에 따라서는 기기에 직접 모델을 배포해야 했습니다.

  • 방대한 데이터: 엔터테인먼트 시스템에서 생성되는 수십억 건의 이벤트와 2,000만 건 이상의 음성 명령이 쌓임에 따라 세션화해서 분석해야 할 데이터가 페타바이트 규모를 넘어섰습니다.
  • 취약한 파이프라인: 복잡한 데이터 파이프라인은 수시로 장애가 일어났고 복구가 어려웠습니다. 작은 파일들을 관리하기 어려워 다운스트림 머신 러닝에 데이터를 입력하는 속도가 느려졌습니다.
  • 협업 부족: 서로 다른 지역에서 서로 다른 스크립팅 언어로 작업하는 데이터 사이언티스트들은 코드를 공유하고 재사용하기가 어려웠습니다.
  • ML 모델 관리: 수백 개의 모델을 개발, 훈련 및 배포하는 작업은 대체로 수동으로 이루어져서 느린 데다 복제가 힘들어 확장이 어려웠습니다.
  • 개발과 배포 간의 마찰: 개발팀에서는 최신 도구와 모델을 사용하고 싶어 하지만, 운영팀에서는 검증된 인프라에 배포하고 싶어 했습니다.

Delta Lake를 사용한 인프라 자동화, 데이터 파이프라인 가속화

Comcast는 데이터 수집에서 머신 러닝 모델 배포에 이르기까지 모든 분석 방식을 현대화하여 고객이 만족할 만한 새로운 기능을 제공해야 할 필요성을 느꼈습니다. 지금은 Databricks 레이크하우스 플랫폼을 사용하여 풍부한 데이터 세트를 구축하고 대규모로 머신 러닝을 최적화하고 있으며, 팀 간 워크플로 간소화, 협업 강화, 인프라 복잡성 완화, 우수한 고객 환경 지원이 가능해졌습니다.

  • 간소화된 인프라 관리: 자동 클러스터 관리 및 비용 관리 기능(예: 자동 확장, 스팟 인스턴스)으로 운영 비용을 절감했습니다.
  • Delta Lake를 사용한 적절한 성능의 데이터 파이프라인: Delta Lake는 영상 및 음성 애플리케이션과 기기에서 수집한 원본 원격 측정 정보를 수집, 보강하여 최초 처리하는 데 사용합니다.
  • 작은 파일들을 신속히 관리: Delta Lake는 대규모로 빠르고 안정적으로 데이터를 입력할 수 있도록 파일을 최적화합니다.
  • 협업 워크스페이스: Comcast는 인터랙티브 노트북으로 팀 간 협업과 데이터 사이언스 창의성 발휘 환경을 개선하고, 모델 프로토타이핑 속도를 크게 단축해 이터레이션을 가속화합니다.
  • 단순화된 ML 수명 주기: 관리형 MLflow의 Kubeflow 환경을 통해 머신 러닝 수명 주기와 모델 제공을 단순화하여 수백 개의 모델을 간편하게 추적, 관리합니다.
  • 안정적인 대규모 ETL: Delta Lake는 대규모로 효율적인 분석 파이프라인에서 과거 데이터와 스트리밍 데이터를 안정적으로 결합하여 더욱 풍부한 인사이트를 제공합니다.
  • 또한 Comcast는 Tableau를 사용하여 애널리스트에게 데이터를 제공함으로써 고객 분석용 데이터 세트를 빠른 속도로 더 폭넓게 지원합니다.
Comcast 동영상 썸네일

숨은 스토리: 데이터 팀 효과

Comcast를 든든히 뒷받침하는 우수한 데이터 팀 소개

지금 보기 →

ML을 사용한 개인 맞춤형 환경 제공

경쟁이 치열한 엔터테인먼트 산업에서는 일시 정지 버튼을 누를 틈이 없습니다. Comcast는 통합 분석 전략으로 무장한 덕분에 AI 기반 엔터테인먼트의 미래로 빠르게 나아가며, 경쟁사보다 우월한 고객 경험을 제공하여 시청자 만족도와 참여를 높이고 있습니다.

  • 에미상을 수상한 시청자 환경: Databricks는 참여를 유도하는 지능적인 음성 명령 기능으로 에미상을 받은 매우 혁신적인 시청자 환경을 구현하도록 Comcast를 지원합니다.
  • 컴퓨팅 비용 10배 감소: Comcast는 Delta Lake를 사용하여 데이터 수집을 최적화함으로써 성능을 개선하는 동시에 640대의 컴퓨터를 64개로 줄일 수 있었습니다. 팀은 이제 인프라 관리보다는 분석에 더 많은 시간을 할애할 수 있게 되었습니다.
  • DevOps 인력 축소: 200명의 사용자를 온보딩하는 데 필요한 DevOps 풀타임 직원 수가 5명에서 0.5명으로 줄었습니다.
  • 데이터 사이언스 생산성 향상: 단일 인터랙티브 워크스페이스를 통해 다양한 프로그래밍 언어를 지원하여 글로벌 데이터 사이언티스트들 간 더욱 원활한 협업을 끌어냅니다. 또한 Delta Lake는 데이터 팀이 데이터 파이프라인에서 언제든 데이터를 활용하여 새로운 모델 구축 및 훈련에 더욱 빠르게 대응할 수 있도록 지원합니다.
  • 모델 배포 기간 단축: 운영 팀에서 각 플랫폼에 모델을 배포하는 시간이 몇 주에서 몇 분으로 단축되었습니다.