2023년 10월 18일

코드 해독: Databricks가 생체역학 데이터를 사용하여 메이저 리그 야구를 재구성하는 방법

작성자: Harrison Flax, Chris Niesel , Hussain Vahanvaty

생체역학 데이터는 메이저리그 야구(MLB) 팀의 판도를 바꾸는 요소로 부상하여 선수의 경기력을 향상하고 부상을 줄이는 데 경쟁력을 제공합니다. 그러나 이러한 잠재력에도 불구하고 대부분의 팀은 생체역학 데이터의 모든 기능을 수용하는 데 어려움을 겪고 있습니다.

생체역학 데이터는 웨어러블 센서, 힘판, 모바일 디바이스, 특히 고속 카메라 등 다양한 소스에서 수집됩니다. 2020년에 각 경기장에 전략적으로 배치된 12대의 카메라로 구성된 Hawk-Eye Statcast 시스템이 등장하면서 중요한 진전을 이루었습니다. 이 중 5대의 카메라는 투구 및 타석 전용으로 초당 100프레임(FPS)으로 작동하며, 2023년에는 300 FPS로 업그레이드되어 추적 성능이 향상될 예정입니다. 나머지 7대의 카메라는 필드 플레이어와 타구에 초점을 맞춰 50 FPS로 데이터를 캡처합니다. 이 카메라 시스템은 2,430개의 정규 시즌 MLB 경기 각각에 대해 총 24테라바이트의 엄청난 데이터를 생성합니다.

Hawkeye Statcast Stadium Camera Layout — Hawkeye Statcast Stadium 카메라 레이아웃

그러나 방대한 양의 데이터와 이를 캡처하는 데 사용되는 혁신적인 기술에도 불구하고 많은 MLB 팀들이 여전히 전통적인 방법을 사용하여 데이터를 분석하고 있습니다. 그 이유는 여러 가지가 있겠지만, 고급 방법을 채택하는 데 있어 가장 일반적인 장애물은 비용, 스킬 세트, 기술 제약과 같은 리소스 부족 때문입니다.

전통적인 분석 도구: 데이터 웨어하우스

데이터 웨어하우스와 같은 기존 분석 도구는 생체역학 데이터 및 분석을 처리할 때 몇 가지 단점에 직면합니다. 다음은 생체 역학 데이터를 데이터 웨어하우스에 적용하는 데 있어 우려되는 네 가지 영역입니다.

첫째, 생체역학 데이터를 위한 정확하고 확장 가능한 데이터 파이프라인을 구축하는 것은 본질적으로 복잡합니다. 데이터 레이크와 웨어하우스가 분리된 2계층 데이터 아키텍처를 흔히 볼 수 있습니다. 현재 대부분의 팀은 데이터 레이크에 원시 데이터를 저장하고, 데이터 웨어하우스에서 데이터를 복제하여 일부 분석을 수행할 수 있기를 희망합니다. 이러한 서로 다른 시스템에는 데이터 유형, SQL 언어, 데이터 스키마에 불일치가 있는 경우가 많습니다. 이로 인해 불일치가 발생하고 추출, 변환 및 로드(ETL/ELT) 프로세스에서 장애 또는 오류가 발생할 위험이 증가합니다.

둘째, 많은 생체역학 애플리케이션은 더 많은 실시간 데이터에 액세스해야 합니다. 그러나 기존 데이터 아키텍처는 데이터 로딩을 위해 별도의 준비 영역과 주기적인 ETL/ELT 작업을 사용함으로써 데이터 부실 문제를 야기합니다. 코치와 선수들은 다음 경기를 대비해 경기력을 향상시키고 부상을 예방하기 위해 더 빠른 피드백을 필요로 합니다.

셋째, 생체역학 데이터의 상당 부분은 비디오 영상, 추적 데이터, 파생 메트릭 및 메타데이터를 포함하여 비정형 데이터입니다. 그러나 기존의 SQL 데이터 웨어하우스와 관련 API는 이러한 비정형 생체역학 데이터를 처리하는 데 적합하지 않습니다.

마지막으로, 생체 역학 분야에서 머신 러닝과 데이터 과학의 채택이 증가함에 따라 기존 데이터 웨어하우스와 레이크의 한계가 부각되고 있습니다. 이러한 애플리케이션은 대량의 비(非)SQL 데이터를 처리해야 하는 경우가 많기 때문에 ODBC/JDBC 연결에만 의존할 경우 비효율적입니다. 따라서 생체역학 분석 및 모델링의 진화하는 요구 사항을 지원하기 위해 개방형 형식으로 생체역학 데이터에 직접 액세스하는 것이 점점 더 중요해지고 있습니다.

Biomechanical Analysis and Modeling

최첨단: 생체 역학을 위한 데이터브릭스 레이크하우스

레이크하우스 아키텍처의 개발사인 데이터브릭스는 빅데이터 처리에 최적화되어 있습니다. MLB 전체에서 생체역학 분석을 위한 플랫폼으로 빠르게 부상하고 있습니다.

다음은 MLB에서 데이터브릭스를 선호하는 몇 가지 이유입니다:

대규모 데이터 처리

데이터브릭스는 본질적으로 분산 컴퓨팅을 통해 방대한 양의 데이터를 관리하도록 설계되었습니다. 생체역학 데이터를 캡처하는 소스가 다양하기 때문에 중앙 집중식 데이터 관리가 필요합니다. 현재 대부분의 팀은 소프트웨어 시스템을 패치워크 방식으로 사용하고 있어 중복성, 데이터 사일로, 느린 처리 시간, 막대한 비용이 발생합니다.

데이터브릭스를 사용하면 팀은 데이터 구조에 관계없이 모든 데이터를 한 지붕 아래에서 중앙 집중화할 수 있습니다. 이는 데이터 레이크의 저장 기능과 데이터 웨어하우스의 조직적 기능을 결합한 레이크하우스 아키텍처를 통해 가능합니다. 데이터브릭을 통해 팀은 현재 데이터와 과거 데이터를 모두 신속하게 처리하여 의미 있는 인사이트를 도출할 수 있습니다.

스트리밍

실시간 인사이트를 얻을 수 있는 기능은 코치와 선수가 연습이나 경기 중에 정보에 입각한 결정을 내릴 수 있도록 지원하므로 매우 중요합니다. 데이터브릭스는 정확한 1회 처리를 보장하여 이벤트 단위로 생체역학 스트리밍을 용이하게 합니다. 이를 통해 단일 패스 내에서 처리되는 데이터의 양이 크게 줄어들어 이벤트 기반 프로세스와 점진적인 데이터 처리가 가능합니다.

많은 경우, MLB 팀들은 경기에 영향을 미치거나 주요 선수의 부상을 예방할 수 있는 정보를 받기 위해 몇 시간 또는 몇일을 기다려야 했습니다. 하지만 데이터브릭스 구조화된 스트리밍은 이러한 문제를 완화합니다.

머신 러닝

데이터브릭스는 고급 머신 러닝 기능을 기본적으로 지원합니다. 따라서 별도의 플랫폼으로 데이터를 복사할 필요 없이 레이크의 데이터에서 직접 엔드투엔드 머신 러닝 수명 주기를 간소화할 수 있습니다. 데이터브릭스의 오픈 소스 MLOps 제품인 MLflow는 사용자에게 다양한 머신 러닝 기능을 제공합니다:

실험 추적 - 모델 매개변수를 기록 및 비교하고, 성능을 평가하고, 아티팩트를 관리합니다.
코드 패키징 - 코드를 손쉽게 재사용하고 재생산하여 워크플로를 간소화합니다.
모델 배포 - 다양한 머신 러닝 라이브러리에서 실시간 및 일괄 제공, 추론 플랫폼으로 모델을 배포합니다.
중앙 집중식 모델 관리 - 중앙 리포지토리에서 모델을 공동으로 관리하고 버전 관리 및 원활한 단계 전환을 완료합니다.

이를 현실 세계의 의미와 연관시켜 보면, 데이터브릭스와 MLflow를 통해 팀은 야구 선수 개발에 대한 귀중한 인사이트를 발견할 수 있습니다. 예를 들어, 미드래프트 선수 또는 최근에 드래프트된 선수는 상당한 불확실성을 야기합니다. 신인이 팀에 실질적인 영향을 미치려면 3~4년이 걸릴 수 있기 때문입니다. 따라서 MLB 구단들은 장기적인 관점에서 전략을 세워야 합니다.

텍사스 레인저스 마이너리그 팀에 소속된 에반 카터의 이야기는 ML의 잠재력을 잘 보여줍니다. 카터는 아마추어 시절 쇼케이스 이벤트에 거의 참석하지 않았기 때문에 크게 스카우트되지 않았습니다. 제한된 데이터 가용성에도 불구하고 그의 생체 역학에 대한 ML 분석은 그의 타고난 재능을 발견해냈습니다.

ML Analysis

확장성

생체 역학에서 생성되는 데이터의 양이 계속 증가함에 따라 처리를 확장하거나 축소할 수 있는 기능이 필수적입니다. 데이터브릭스를 통해 팀은 필요한 만큼의 컴퓨팅에 즉각적이고 탄력적으로 액세스할 수 있습니다. 작업은 Databricks 워크플로우를 통해 플랫폼에서 직접 오케스트레이션할 수 있습니다.

데이터브릭스 플랫폼은 스토리지와 컴퓨팅을 분리하여 총 소유 비용을 절감하며, 이를 통해 새로운 데이터 세트나 프로젝트에 자본을 재투자할 수 있습니다. 2023 Data+AI 서밋에서 텍사스 레인저스가 발표한 사례는 여기에서 확인할 수 있습니다. 텍사스 레인저스는 예산을 변경하지 않고도 새로운 데이터 파이프라인을 생성할 때 데이터 속도가 7배 증가했습니다.

협업 환경

MLB 계열사는 국내 및 해외의 프로 및 마이너 리그 팀에 걸쳐 있습니다. 데이터브릭스는 조직의 분산에 관계없이 데이터 엔지니어, 데이터 과학자, 데이터 분석가를 위한 협업 환경을 제공합니다. 이를 통해 한 지붕 아래에서 원활한 데이터 공유, 모델 개발 및 개선이 가능합니다.

Collaborative Environment

결론

결론적으로, 생체역학이 메이저리그 야구에서 선수의 경기력과 부상 예방에 혁신을 가져올 수 있는 잠재력은 부인할 수 없는 사실입니다. 하지만 이러한 이점을 실현하려면 현대적이고 민첩하며 확장 가능한 데이터 처리 플랫폼이 필요합니다. 레이크하우스 아키텍처를 갖춘 Databricks는 MLB 팀이 생체역학 데이터의 잠재력을 최대한 활용할 수 있도록 지원하는 획기적인 솔루션입니다. 데이터브릭스를 사용하면 데이터의 양, 다양성, 속도, 실시간 인사이트, 비정형 데이터 처리, 고급 분석에 대한 강력한 지원 등의 문제를 극복할 수 있습니다. 그렇다면 왜 기다릴까요? 지금 바로 생체 역학 분석의 미래에 동참하여 Databricks로 팀의 새로운 가능성을 열어보세요. 직접 사용해 보고 조직이 얻을 수 있는 경쟁 우위를 경험해 보세요.

데이터 브릭스의 스포츠 팀에 연락하실려면 Harrison Flax에게 연락하세요.