주요 컨텐츠로 이동

데이터 과학 활용 사례: 기업 운영을 혁신하는 15가지 실제 적용 사례

제조, 의료, 소매 및 금융 분야의 15가지 엔터프라이즈 데이터 과학 애플리케이션을 사례 연구, 코드 예제 및 입증된 결과와 함께 살펴보세요.

Data Science Use Cases: 15 Real-World Applications Transforming Enterprise Operations
데이터 + AI 기반Less than a minute

작성자: Databricks 직원

Summary

  • 통합 데이터 분석은 데이터 처리와 AI 기술을 결합하여 기업이 AI 이니셔티브를 가속화하고 AI를 더 큰 규모로 달성할 수 있도록 돕는 솔루션 범주입니다.
  • 이 접근 방식은 조직이 사일로화된 스토리지 시스템 전반에 걸쳐 데이터 파이프라인을 구축하고, 레이블이 지정된 데이터 세트를 준비하고, 기존 데이터에서 모델을 미세 조정하기 위해 AI 알고리즘을 반복적으로 적용할 수 있도록 합니다.
  • 데이터 과학자와 데이터 엔지니어가 전체 개발-운영 라이프사이클에 걸쳐 효과적으로 협업할 수 있는 협업 기능을 제공합니다.

데이터 과학은 학술적 실험을 훨씬 넘어섰습니다. 제조 현장, 병원 시스템, 금융 기관 및 전자 상거래 플랫폼 전반에 걸쳐 조직은 측정 가능한 비즈니스 결과(비용 절감, 의사 결정 속도 향상, 시간이 지남에 따라 복리되는 데이터 기반 의사 결정 및 경쟁 우위 확보)를 창출하는 정교한 데이터 과학 애플리케이션을 배포하고 있습니다.

McKinsey 분석에 따르면 수요 예측 정확도가 10~20% 향상되면 일반적으로 재고 비용이 5% 감소하고 수익이 2~3% 증가하는 것으로 나타났습니다. 이 단일 결과는 중요한 의미를 보여줍니다. 데이터 과학이 올바른 수준의 세분성으로 올바른 접근 방식을 사용하여 적용될 때, 그 영향은 집계 보고서가 결코 포착할 수 없는 방식으로 운영 전반에 걸쳐 파급됩니다.

이 가이드는 15개 도메인에 걸친 구체적인 데이터 분석 구현(제조 OEE 모니터링부터 GPU 가속 텍스트 분류까지)을 바탕으로 엔터프라이즈 규모의 데이터 과학이 실제로 어떻게 보이는지, 그리고 실무자가 직면하는 아키텍처 패턴과 절충점을 보여줍니다.

현대 데이터 과학이 새로운 인프라를 요구하는 이유

기존 분석 도구는 집계되고 배치 지향적인 처리를 위해 구축되었습니다. 경쟁 우위를 제공하는 애플리케이션은 오늘날 근본적으로 다른 것을 요구합니다. 빅데이터 스트림을 처리하고, 대규모로 모델을 학습시키고, 필요한 운영 시스템과 사람들에게 결과를 제공하는 능력입니다.

분산 컴퓨팅의 발전, 특히 Apache Spark와 클라우드 네이티브 레이크하우스는 데이터를 요약 테이블로 미리 집계하지 않고도 수십억 개의 레코드에 대해 복잡한 머신러닝 알고리즘을 실행하는 것을 실용적으로 만들었습니다. 데이터 과학자는 이제 개별 트랜잭션, 환자 또는 센서 판독 수준에서 모델을 학습시켜 데이터가 롤업될 때 사라지는 지역화된 패턴을 포착할 수 있습니다. 집계에서 세분화된 데이터 분석으로의 이러한 전환은 후속 사례 연구 대부분의 기반이 되는 아키텍처적 잠금 해제입니다.

1. 제조: 실시간 전체 설비 효율성 모니터링

전체 설비 효율성(OEE)은 제조 생산성을 측정하는 표준 지표입니다. OEE 85%는 세계 최고 수준으로 간주되지만, 업계 평균 범위는 40~60%로, 실현되지 않은 생산 능력 수십억 달러를 나타냅니다.

기존 OEE 계산은 수동적인 배치 지향적 작업이었습니다. 작업자는 교대 종료 시 데이터를 추출하여 가용성, 성능 및 품질 비율을 계산하고 몇 시간 후에 결과를 확인했습니다. 이는 문제가 발생한 프로세스에 개입하기에는 너무 늦었습니다. OEE를 개선하려면 최신 정보를 사용해야 하며, 이는 IoT 센서, ERP 시스템 및 생산 라인에서 동시에 지속적으로 데이터를 수집해야 함을 의미합니다.

메달리온 아키텍처Spark Declarative Pipelines (SPD)를 기반으로 이 패턴을 지원합니다. Bronze 테이블은 IoT 소스에서 직접 JSON 형식으로 원시 센서 페이로드를 수집합니다. Silver 변환은 주요 필드를 구문 분석하고, ERP 시스템에서 인력 데이터를 병합하고, 품질 검사를 적용합니다. Gold 계층은 Structured Streaming 상태 저장 집계를 사용하여 여러 공장에 걸쳐 OEE 측정값(가용성, 성능 및 품질)을 지속적으로 계산하며, 이들은 동일한 기본 데이터를 통해 비즈니스 임원 및 현장 작업자에게 지연 시간 없이 제공됩니다.

이러한 지속적인 파이프라인을 통해 제조업체는 OEE 드리프트를 정확히 파악하고 특정 기계 또는 교대와 상관 관계를 파악하며, 다운타임이 생산 중단으로 이어지기 전에 경고를 트리거할 수 있습니다.

2. 공급망: 대규모 세분화된 수요 예측

수요 계획은 오랫동안 근본적인 긴장 관계에 시달려 왔습니다. 계산적으로 다루기 쉬운 수요 모델은 운영상 유용할 만큼 정확하지 않은 경우가 많고, 할당 결정을 안내할 만큼 정확한 모델은 대부분의 조직이 가져본 적 없는 계산 규모를 필요로 합니다.

수천 개의 소매업체에 대한 분석에 따르면 소매업체 수요 예측의 업계 평균 부정확도는 32%로, 이는 과잉 재고와 품절 모두에서 엄청난 낭비를 나타냅니다. 세분화된 수요 예측은 집계된 예측에 의존하여 지역 수요 패턴을 모호하게 하는 대신 각 제품-위치 조합에 대해 별도의 예측 모델을 구축하여 이를 해결합니다. 이전 판매 주기의 과거 데이터와 날씨 및 휴일 신호를 통합함으로써 조직은 집계 모델이 놓치는 지역화된 역학을 포착합니다.

Citi Bike NYC 대여 데이터를 사용하여 스테이션을 상점 위치로, 대여를 거래로 취급한 연구는 이 문제를 잘 보여줍니다. 기준선 Facebook Prophet 모델은 5.44의 RMSE와 0.73의 MAPE를 생성했습니다. 온도와 강수량과 같은 인과적 특징을 회귀 변수로 추가했을 때 개선은 미미했습니다. 세분화된 데이터 분포는 푸아송 분포를 따르며, 전통적인 시계열 방법이 모델링하기 어려운 고수요 기간의 긴 꼬리를 가집니다.

시간적 특징을 가진 랜덤 포레스트 회귀자는 3.4의 RMSE와 0.39의 MAPE를 달성하여 상당한 개선을 보였습니다. 날씨 특징을 추가하면 RMSE가 2.37로 증가하여 집계 패턴에 숨겨진 외부 영향은 세분화된 수준에서 명시적으로 통합되어야 함을 보여줍니다. Apache Spark를 통한 Python 기반 병렬 처리를 사용하여 수백 개의 제품-위치 조합에 대한 모델 학습을 수행함으로써 조직은 클라우드 리소스를 탄력적으로 프로비저닝하여 컴퓨팅 비용을 예산 내에서 유지하면서 정기적인 주기로 수백만 개의 예측을 생성할 수 있습니다.

핵심 통찰력: 다른 알고리즘이 다른 데이터 하위 집합에서 우승하므로, 자동화된 모델 경연 대회(각 데이터 하위 집합에 대해 가장 성능이 좋은 방법이 우승하는 방식)는 공급망 관리에서 점점 더 일반적인 패턴이 되고 있습니다.

3. 스트리밍 미디어: 서비스 품질 분석

구독 비디오 플랫폼이 수백만 명의 동시 시청자로 확장됨에 따라 짧은 품질 저하조차도 측정 가능한 이탈을 유발합니다. CDN 엣지 노드에 지연이 발생하거나 클라이언트 장치 클래스가 버퍼링 이상을 겪는 경우, 감지 및 수정 창은 몇 시간이나 몇 분으로 측정됩니다.

서비스 품질(QoS) 분석에는 애플리케이션 이벤트 및 CDN 로그의 지속적인 수집, 성능 기준선에 대한 지속적인 집계, 성능이 정의된 임계값을 초과할 때 자동 경고가 필요합니다. Bronze, Silver, Gold 계층을 사용하는 Delta 아키텍처는 이 문제에 자연스럽게 매핑됩니다. 원시 이벤트는 Bronze에, Silver 변환은 JSON 페이로드를 구문 분석하고 GDPR 준수를 위해 IP 데이터를 익명화하며, Gold 집계는 네트워크 운영 센터 대시보드와 자동 수정 파이프라인 모두에 공급됩니다.

스트리밍 팀은 지연 시간이 기준선보다 10% 이상 초과할 때 트리거되는 경고를 구성하거나, 특정 장치 유형에 대해 5% 이상의 클라이언트가 재생 오류를 보고할 때 제품 팀에 알리거나, ISP 수준의 버퍼링 이상을 고객 서비스 팀에 자동으로 표시할 수 있습니다. 머신러닝 알고리즘은 이를 더욱 확장합니다. 실패 지점 시나리오를 미리 예측하고, QoS 신호를 이탈 모델에 통합하여 취소하기 전에 위험에 처한 가입자를 식별합니다.

4. 책임감 있는 AI: 머신러닝에서 편향 탐지 및 완화

머신러닝 시스템이 대출 승인, 가석방 추천 및 채용과 같은 중요한 영역에서 인간 의사 결정자를 대체함에 따라 데이터 과학 팀은 정확도 측정만으로는 해결할 수 없는 일련의 문제에 직면합니다. 편향 완화에는 명시적인 측정, 정량화 및 신중한 개입이 필요합니다.

잘 문서화된 예는 ProPublica가 분석한 COMPAS 재범 예측 시스템으로, 재범하지 않은 흑인 피고인이 백인 피고인(45% 대 23%)에 비해 고위험으로 잘못 분류될 가능성이 거의 두 배 높다는 사실을 발견했습니다. 이것이 모델 편향, 데이터 편향 또는 형사 사법 시스템의 구조적 불평등을 반영하는지는 데이터 과학 기술이 밝히는 데 도움이 될 수 있는 질문이지만, 혼자서는 답할 수 없습니다.

SHAP(SHapley Additive Explanations)는 개별 예측에 대한 각 특징의 기여도를 정량화할 수 있게 합니다. 11,757명의 피고인에 대해 학습된 재범 모델에 적용된 SHAP는 아프리카계 미국인이라는 사실이 예측에 약간의 직접적인 영향을 미쳤지만, 이전 체포 횟수(구조적 요인으로 인해 인구 통계적 특성과 상관 관계가 있음)가 주요 동인이었음을 밝혔습니다. 이 구분은 완화 전략에 있어 엄청나게 중요합니다.

Fairlearn의 ThresholdOptimizer는 더 나아가, 동등한 확률을 달성하기 위해 다른 인구 통계 그룹에 대해 다른 결정 임계값을 학습하여 아프리카계 미국인 및 비 아프리카계 미국인 피고인 간의 TPR/FPR 격차를 26.5%에서 약 3~4%로 줄입니다. 절충점은 전반적인 정확도의 작은 감소인데, 이는 궁극적으로 데이터 과학 문제가 아닌 정책 문제입니다. MLflow는 모든 실험 변형을 추적하여 팀 간의 재현 가능한 비교 분석을 가능하게 합니다.

5. 소매: 실시간 판매 시점 분석

팬데믹 이전에는 소매업체의 71%가 재고에 대한 지속적인 가시성 부족을 옴니채널 목표 달성의 주요 장애물로 꼽았습니다. 온라인 구매 후 매장 픽업(BOPIS) 거래는 밤새 실행되는 배치 ETL 주기가 단순히 제공할 수 없는 정확한 재고 데이터에 의존합니다.

시간에 민감한 POS 분석을 지원하는 데이터 파이프라인은 여러 데이터 전송 모드를 동시에 처리해야 합니다. 판매 거래는 스트리밍 ETL에 이상적인 지속적인 삽입 중심 스트림을 생성합니다. 주기적인 재고 스냅샷은 일괄 수집에 적합한 대량으로 도착합니다. 반품은 변경 데이터 캡처 처리가 필요한 이전 레코드 업데이트를 트리거합니다. 레이크하우스 아키텍처는 이전에 운영 복잡성을 더했던 별도의 Lambda 및 Kappa 시스템 대신 단일 일관된 접근 방식으로 세 가지 패턴을 모두 수용합니다.

Bronze, Silver, Gold 계층을 사용하면 조직은 초기 데이터 정리 및 형식 정규화를 더 복잡한 변환이 필요한 현재 재고 수준과 같은 비즈니스 관련 계산과 분리할 수 있습니다. 이 패턴을 사용하는 소매업체는 옴니채널 경험을 지원하는 데 필요한 데이터 최신 상태를 달성하는 동시에 프로모션 모니터링 및 보안 분석과 같은 후속 사용 사례를 위한 기반을 구축합니다.

가격 결정도 이점을 얻습니다. 재고 신호가 몇 초 내에 사용 가능하면 동적 가격 책정 알고리즘은 하루 지난 스냅샷이 아닌 실제 재고 수준에 맞춰 조정하여 제품 범주 전반에 걸쳐 마진과 판매율을 모두 개선할 수 있습니다.

6. 금융 서비스: 실시간 개인화 및 변경 데이터 캡처

개인화는 소매 은행부터 보험, 투자 플랫폼에 이르기까지 모든 유형의 금융 서비스 회사를 위한 경쟁 우위 요소입니다. 그러나 기반은 종종 불완전한 아키텍처로 구현되어 오래된 통찰력을 제공하고 새 기능의 시장 출시 시간을 연장하며 팀이 별도의 스트리밍, AI 및 보고 서비스를 통합하도록 강요합니다.

효과적인 개인화에는 시간적 데이터 기반이 필요합니다. 모든 고객 상호 작용, 거래, 기본 설정 업데이트 및 행동 신호는 몇 초 내에 통합 저장소로 흘러 들어가야 하며, 분석 및 모델 추론 모두에 대해 최신 상태를 항상 사용할 수 있어야 합니다.

변경 데이터 캡처(CDC) 파이프라인은 은행 앱의 트랜잭션 데이터베이스 업데이트를 수집하고, 늦게 도착하거나 순서가 잘못된 레코드를 정상적으로 처리하며, 데이터 과학 팀이 다음 최적 행동 모델에 사용할 수 있는 지속적으로 업데이트되는 고객 프로필을 유지합니다.

고객의 모바일 세션 중에 개인화된 마케팅 캠페인 및 제안을 보내려는 소매 은행을 생각해 보십시오. 관련성을 위한 시간 창은 몇 시간이 아니라 몇 초입니다.

Debezium과 같은 도구를 통한 CDC 수집은 SPD로 들어가고, Python 기반 기능 엔지니어링 및 낮은 지연 시간 모델 서빙과 결합되어 정확히 이것을 가능하게 합니다. 즉, 고객이 가장 수용적인 정확한 순간에 올바른 제안을 표시하는 추천 시스템입니다.

은행 구현의 사례 연구 증거는 이러한 아키텍처가 이탈 감소, 고객 평생 가치 증가 및 순 추천 지수(NPS)의 측정 가능한 개선을 지원한다는 것을 보여줍니다. 이러한 지표는 직접적으로 수익으로 이어집니다.

보고서

기업을 위한 에이전틱 AI 플레이북

7. 의료: NLP 및 지식 그래프를 사용한 환자 코호트 구축

의료 데이터 과학은 구조화된 EHR 기록과 구조화되지 않은 임상 노트, 퇴원 요약 및 병리학 보고서에 잠긴 방대한 임상 관련 정보의 교차점에서 작동합니다. 정확한 환자 코호트 구축(임상 시험 등록, 인구 건강 관리 및 부작용 감시 필수)은 이러한 구조화되지 않은 텍스트에서 개체 및 관계를 추출해야 합니다.

자연어 처리 파이프라인은 수백만 개의 레코드 데이터 세트에 걸쳐 대규모로 의료 문서에서 약물 이름, 복용량, 빈도, 부작용, 진단 및 절차를 포함한 임상 개체를 추출할 수 있습니다. 관계 추출 모델은 개체 간의 연결을 매핑합니다(약물을 복용량에 연결, 증상을 진단에 연결, 절차를 적응증에 연결). 그리고 구조화되지 않은 텍스트를 구조화된 지식 표현으로 변환합니다.

965개의 임상 기록을 기반으로 구축된 지식 그래프는 구조화된 데이터만으로는 불가능한 쿼리를 가능하게 합니다. 특정 기간 동안 특정 약물을 처방받은 모든 환자를 식별하거나, NSAID와 와파린을 함께 처방하는 것과 같은 위험한 약물 조합을 찾거나, 흉통을 보이는 고혈압 또는 당뇨병 환자를 찾는 것입니다. 이러한 진단 기능은 임상 시험 등록(80%의 시험이 등록 문제로 지연됨) 및 희귀 질환 또는 특정 유전체 바이오마커를 대상으로 하는 정밀 의학 응용 프로그램에 중요합니다.

이 접근 방식은 또한 조직이 40개 이상의 포함 및 제외 기준이 있는 복잡한 프로토콜에 대한 코호트 구축을 자동화하고, 시험이 시작되기 전에 환자 데이터를 사용하여 자격 여부를 추정할 수 있도록 합니다.

8. 물류: 확장 가능한 경로 최적화

라스트 마일 배송 비용은 현대 소매 및 물류 운영에서 가장 중요한 비용 항목 중 하나입니다. 대규모 차량에 대한 경로 계획 및 최적화에는 수천 개의 픽업 및 배송 지점 간의 정확한 이동 시간 추정치가 필요합니다. 직선 거리 근사치는 운영 계획에 충분하지 않습니다.

OSRM(Open Source Routing Machine) 프로젝트는 OpenStreetMap 데이터를 사용하여 경로 계산을 위한 빠르고 저렴한 API를 제공합니다. 문제는 확장성입니다. 데이터 과학 팀이 경로 분석을 위해 공유 OSRM 인스턴스를 통해 대량의 과거 및 시뮬레이션 주문 데이터를 푸시하면 서버가 병목 현상이 됩니다. 분산 컴퓨팅 클러스터 내에 OSRM을 배포하면 작업량에 따라 라우팅 용량을 탄력적으로 확장하여 이 문제를 해결합니다.

데이터 과학자는 이제 용량 제약 없이 수백만 개의 과거 주문에 대해 새로운 라우팅 접근 방식을 평가할 수 있으며, 운전자 시간과 연료 비용을 줄이는 접근 방식에 대해 더 빠르게 반복할 수 있습니다. 컴퓨팅 할당은 집중적인 시뮬레이션 실행에 필요할 때 확장되고 분석이 완료되면 릴리스되어 전용 라우팅 인프라를 유지하는 비용을 피합니다.

9. 지리 공간 분석: 대규모 폴리곤 내 지점 조인

휴대폰 위치 분석부터 국가 매핑 프로젝트에 이르기까지 지리 공간 분석은 종종 수백만 개의 지점 중 어느 것이 수백만 개의 폴리곤 중 어느 것에 속하는지 결정해야 합니다. 단순한 데카르트 곱 접근 방식은 O(n×m)×O(v) 복잡도를 생성하며, 여기서 v는 폴리곤 꼭짓점의 수이므로 대규모에서는 계산적으로 해결할 수 없습니다.

H3(Uber의 육각형 그리드)와 같은 공간 인덱스 시스템은 이를 근사 동등 관계로 변환합니다. 각 지점에는 단일 인덱스 ID가 할당되고, 각 폴리곤에는 해당 영역을 나타내는 인덱스 ID 세트가 할당됩니다. PIP 조인은 훨씬 저렴한 인덱스 ID 대 인덱스 ID 조인이 되며, 정확한 포함 관계를 확인해야 하는 "더러운" 경계 셀에만 보조 PIP 필터가 적용됩니다.

모자이크 기술은 전체 지오메트리가 아닌 폴리곤과 해당 인덱스 셀의 교차점인 폴리곤 조각만 저장하여 경계 셀 처리를 더욱 개선합니다. 이는 조인 중에 셔플되는 데이터와 후속 PIP 작업에 대한 꼭짓점 수를 모두 줄입니다.

수십억 개의 일일 휴대폰 핑을 수십만 개의 지오펜스 폴리곤에 대해 처리하는 대체 데이터 인텔리전스 회사인 Thasos는 이 접근 방식을 구현한 후 비용을 10배 절감하고 파이프라인 실행 속도를 29-38% 향상시켰습니다. 그들의 인구 조사 블록 PIP 파이프라인은 실행당 $130에서 $13.08로 감소했습니다. 결과 지리 공간 출력의 데이터 분석 및 시각화를 통해 기관 투자자는 관심 있는 속성의 실시간 유동 인구를 측정할 수 있습니다. 이는 이 규모를 달성하기 전에는 존재하지 않았던 제품 개발 기능입니다.

10. 텍스트 분석: 대규모 GPU 가속 감성 분석

텍스트 기반 감성 분석은 모든 산업 분야의 고객 인텔리전스 프로그램의 기초입니다. 고객 리뷰, 소셜 미디어 게시물, 지원 티켓 및 설문 조사 응답을 대규모로 분석하려면 최신 딥 러닝 아키텍처의 언어 이해 기능과 수백만 개의 문서에 걸쳐 추론을 효율적으로 실행하기 위한 컴퓨팅 인프라가 모두 필요합니다.

Hugging Face 트랜스포머는 레이블이 지정된 학습 데이터 없이도 텍스트 감성을 높은 정확도로 분류할 수 있는 DistilBERT와 같은 사전 학습된 임베딩을 제공합니다. PyTorch의 DataParallel은 여러 GPU에서 동시에 추론을 가능하게 하며, DataLoader는 배치 제공 및 GPU 장치 간 데이터 자동 분할을 처리합니다.

소셜 미디어 데이터, 마케팅 캠페인 피드백 또는 제품 리뷰가 포함된 여러 파일을 처리하는 조직의 경우 이 패턴은 자연스럽게 확장됩니다. 각 파일을 로드하고, 동일한 사전 학습된 모델을 통해 토큰화하고, 사용 가능한 모든 GPU 장치에서 추론을 실행하고, 결과를 Delta 테이블에 기록하여 다운스트림 분석을 수행합니다. 이는 전체 파이프라인을 조정하며, 배치 감성 점수 매기기를 실행하는 것과 동일한 인프라가 챗봇 또는 고객 세분화 모델을 지원할 수 있습니다.

딥 러닝은 또한 품질 검사 및 문서 처리를 위한 컴퓨터 비전 응용 프로그램과 사기 탐지(청구 또는 거래에서 이상 언어 패턴 식별), 고객의 목소리를 위한 토픽 모델링, 자동화된 고객 서비스 워크플로를 위한 의도 분류와 같은 인접 사용 사례를 가능하게 했습니다.

사례 연구: 데이터 과학을 활용하는 조직

다음 사례 연구는 다양한 산업 분야의 조직이 정량화 가능한 비즈니스 결과를 달성하기 위해 위에서 설명한 패턴을 적용한 방법을 보여줍니다.

Jumbo Supermarkets는 온라인 및 오프라인 구매 데이터를 결합하여 백만 명 이상의 고객을 위한 옴니채널 추천 엔진을 구축하기 위해 레이크하우스 아키텍처를 배포했습니다. 데이터 과학 팀은 고객 세분화 알고리즘을 지속적으로 실행하여 신제품 및 일상 품목에 대한 개인화된 추천을 생성하며, 이는 충성도 프로그램 참여를 측정 가능하게 증가시켰습니다. Databricks SQL은 엔지니어링 개입 없이 비즈니스 분석가에게 고객 행동 패턴에 대한 셀프 서비스 액세스를 제공합니다. 아이디어에서 프로덕션까지의 속도가 이제 몇 달이 아닌 몇 주 단위로 측정됩니다.

Ordnance Survey (Great Britain)는 모자이크 공간 분할 기법을 구현하여 국가 규모에서 3,700만 개의 주소 지점과 4,600만 개의 건물 폴리곤 간의 지점-폴리곤 조인을 실행했습니다. 최적화된 접근 방식은 PIP 연산을 10억 개 이상의 비교에서 1억 8,600만 개로 줄여 이전에 완전히 실패했던 조인을 37초 만에 완료했습니다. 이는 경계 상자 접근 방식에 비해 런타임이 69배 향상된 것입니다.

HSBC는 페타바이트 규모의 사이버 보안 데이터 과학을 위한 레이크하우스를 사용하여 SIEM(보안 인시던트 및 이벤트 관리) 아키텍처를 강화했습니다. 이 은행은 1,500만 개 이상의 엔드포인트에서 데이터를 처리하고 한 시간 이내에 위협 분석을 실행합니다. 사기 탐지 범위가 확장되어 쿼리 보존 기간이 며칠에서 몇 달로 증가했으며, 위협 헌터는 분석가당 2~3배 더 많은 조사를 실행할 수 있게 되었습니다. 예측 분석 모델은 고신뢰도 경고를 자동으로 표시하여 분석가 워크로드를 줄이고 인시던트 대응을 가속화합니다.

City of Spokane은 Azure Databricks 위에 데이터 품질 플랫폼을 사용하여 정부 데이터 소스(재무 보고서, 허가, GIS 데이터) 전반의 ETL 처리를 자동화하여 중복 데이터를 80% 줄이고 총 소유 비용을 50% 절감했습니다. 공공 안전 및 커뮤니티 계획에 대한 정보에 입각한 결정은 이제 파편화된 부서 시스템이 아닌, 단일의 지속적으로 유지 관리되는 진실 공급원에서 파생됩니다.

Thasos는 Databricks에서 Mosaic을 채택하기 전후에 지오펜스 PIP 파이프라인을 벤치마킹했습니다. 첫 번째 파이프라인은 2.5배 더 나은 가격/성능을 달성했습니다. 두 번째 파이프라인인 센서스 블록 조인은 10배의 비용 절감과 더 빠른 런타임을 제공하여 회사가 새로운 인텔리전스 제품 개발을 위해 데이터 과학자를 온보딩할 수 있게 되었습니다.

기업 데이터 과학 프로젝트의 공통점

이 15가지 예제 및 사례 연구 전반에 걸쳐 몇 가지 아키텍처 및 조직 패턴이 일관되게 반복됩니다.

첫째, 집계보다 세분화된 것이 우수합니다. 매장-품목 수요 예측, 환자별 코호트 구축 또는 센서별 OEE 계산이든, 가장 낮은 의미 있는 수준의 세분화로 훈련된 모델은 집계된 데이터를 합산한 모델보다 성능이 뛰어납니다. 계산 요구 사항은 더 높지만 분산 컴퓨팅을 통해 처리 가능합니다.

둘째, 데이터 과학 기술은 데이터를 공급하는 데이터 파이프라인만큼만 좋습니다. 위의 모든 예제는 시간 민감한 분석을 위한 전제 조건으로 안정적이고 낮은 지연 시간의 데이터 수집(스트리밍 또는 거의 실시간)에 의존합니다. 이 기반을 건너뛰는 조직은 가장 정교한 모델이 어제의 데이터로 작동하는 것을 발견합니다.

셋째, 데이터 과학자는 모델링 접근 방식 전반에 걸쳐 신속하게 반복해야 합니다. 예측 예제는 모든 제품-위치 조합에서 단일 접근 방식이 지배적이지 않음을 보여줍니다. 편향 완화 예제는 다른 공정성 기준이 실질적으로 다른 모델 아키텍처를 산출함을 보여줍니다. 데이터 과학 프로젝트에 확장 가능한 컴퓨팅, 실험 추적 및 협업 노트북에 대한 액세스를 제공하는 것이 프로덕션 품질 결과를 생성하는 반복 속도를 가능하게 합니다.

마지막으로, Python 및 R과 함께 동일한 환경에서 쿼리 언어와 스크립팅을 사용하는 것은 아키텍처적 타협이 아니라 실질적인 필요성입니다. 비즈니스 분석가는 실행 가능한 보고서를 생성하기 위해 데이터를 사용하고, 데이터 엔지니어는 SQL을 사용하여 파이프라인을 구축 및 검증하며, 데이터 과학자는 모델 훈련을 위해 Python을 사용하고, 경영진은 골드 계층 집계를 쿼리하는 대시보드를 사용합니다. 시스템 간 데이터 이동 없이 이러한 모든 데이터 분석 프로세스를 지원하는 통합 플랫폼은 전체 데이터 과학 생태계를 일관되게 만듭니다.

자주 묻는 질문

기업 조직을 위한 데이터 과학의 가장 영향력 있는 응용 분야는 무엇인가요?

데이터 과학의 가장 영향력 있는 응용 분야는 일반적으로 네 가지 영역에 집중됩니다. 수요 계획(예측 정확도 향상이 재고 비용 절감으로 직접 이어짐), 고객 인텔리전스(추천 시스템 및 이탈 예측 모델이 측정 가능한 수익 증대를 생성함), 운영 효율성(제조 및 물류 성능의 지속적인 모니터링을 통해 더 빠른 개입 가능), 위험 관리(사기 탐지 및 예측 분석이 위협이 실현되기 전에 이를 감지함). 가장 높은 ROI를 제공하는 특정 사용 사례는 산업 맥락과 데이터 가용성에 따라 달라집니다.

데이터 과학자는 기업 비즈니스 문제를 위한 예측 모델 구축에 어떻게 접근하나요?

효과적인 데이터 과학 프로젝트는 명확하게 범위가 지정된 비즈니스 문제와 잘 이해된 데이터셋으로 시작됩니다. 데이터 과학자는 모델링 접근 방식을 선택하기 전에 데이터의 통계적 속성(분포, 누락, 시간 패턴)을 탐색합니다. 개별 제품, 고객 또는 자산과 같은 세분화된 수준이 필요한 비즈니스 결정의 경우 Apache Spark와 같은 분산 프레임워크를 통해 병렬 모델 훈련이 가능합니다. MLflow와 같은 도구를 통한 실험 추적은 모델 비교가 재현 가능하고 각 데이터 하위 집합에 대한 최상의 성능 접근 방식을 체계적으로 식별할 수 있도록 보장합니다.

NLP는 의료 데이터 과학 응용 분야에서 어떤 역할을 하나요?

자연어 처리(NLP)는 대부분의 고급 임상 분석을 위한 기반 기술입니다. 왜냐하면 임상적으로 관련된 정보의 대부분은 구조화된 EHR 필드보다는 비정형 문서에 존재하기 때문입니다. 이러한 파이프라인은 임상 엔터티(증상, 진단, 약물, 절차)를 추출하고 그들 간의 관계를 매핑합니다. 이 구조화된 출력은 환자 코호트 쿼리, 임상 시험 등록 자동화, 부작용 진단 및 수동 검토로는 달성할 수 없는 규모와 속도의 인구 건강 감시를 지원하는 지식 그래프에 공급됩니다.

스트리밍 데이터 인프라는 데이터 과학에서 무엇을 가능하게 하나요?

스트리밍 수집은 데이터 과학을 배치 보고 기능에서 운영 기능으로 전환합니다. 데이터 파이프라인이 몇 시간 대신 몇 초 안에 현재 상태를 제공하면 예측 모델이 아직 실행 가능한 결정에 영향을 줄 수 있습니다. 예를 들어 시청자가 버퍼링을 경험하기 전에 CDN 라우팅 조정, 활성 은행 세션 중 개인화된 제안, 재고 부족 발생 전 재고 알림 등이 있습니다. 스트리밍 데이터로의 전환은 모델 훈련에 사용할 수 있는 신호도 변경하여 조직이 배치 처리가 평탄화하는 동작 시퀀스와 최신 효과를 통합할 수 있게 합니다.

어떤 산업이 데이터 과학 투자로부터 가장 큰 수익을 얻고 있나요?

은행 및 금융 기관, 의료 기관, 소매 및 전자 상거래 회사, 제조 기업은 데이터 과학 투자로부터 지속적으로 가장 강력한 수익을 보고하고 있습니다. 사기 탐지, 개인화된 추천, 알고리즘 가격 책정과 관련된 금융 서비스 사용 사례는 특히 높은 레버리지를 보여주었습니다. 환자 코호트 구축 및 임상 시험 등록과 관련된 의료 응용 분야는 재정적 이해관계와 인간적 영향이 모두 막대한 문제를 해결합니다. 소매 및 전자 상거래 조직은 세분화된 수요 예측과 실시간 사용자 행동 분석의 조합을 대규모로 활용하여 이익을 얻습니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요