주요 컨텐츠로 이동

데이터 사이언티스트: AI 및 분석의 미래를 이끄는 원동력

작성자: Databricks 직원

  • 데이터 사이언티스트는 분석, 머신러닝, AI 전반에서 비즈니스 의사결정을 이끄는 예측 모델, 실험, 추천으로 원시 데이터를 변환합니다.
  • 이들의 가장 큰 과제로는 프로젝트 속도를 늦추고 모델 도입을 제한하는 파편화된 도구와 데이터, 일관되지 않은 거버넌스, 까다로운 프로덕션 이관, 부서 간 협업 워크플로우 등이 있습니다.
  • 통합되고 거버넌스가 적용된 플랫폼은 데이터 사이언티스트가 탐색에서 배포까지 더 빠르게 진행할 수 있도록 지원하여, 단순히 모델 정확도만 최적화하는 것이 아니라 매출, 고객 유지, 효율성, 고객 경험과 같은 비즈니스 성과를 개선합니다.

데이터 사이언티스트는 분석, 머신러닝(ML) 및 AI의 교차점에 서서, 복잡하고 정돈되지 않은 현실 세계의 데이터를 비즈니스 성과를 이끄는 의사 결정으로 전환합니다. 엔터프라이즈 데이터의 양과 복잡성이 증가함에 따라 이 역할의 전략적 중요성도 커졌습니다. 오늘날 데이터 사이언티스트는 현대 조직에서 가장 수요가 많은 전문가 중 하나입니다.

AI는 예측 모델링에서 생성형 애플리케이션과 에이전트 시스템으로 확장되었습니다. 데이터 사이언티스트의 업무 범위도 이와 함께 확장되었습니다. 이 글에서는 이 역할이 어떻게 진화해 왔으며 현대적인 플랫폼이 이러한 진화를 어떻게 지원하는지 살펴봅니다.

데이터 사이언티스트란 무엇인가요?

데이터 사이언티스트는 원시 데이터를 비즈니스 성과를 이끄는 결과물로 변환합니다. 데이터 분석가가 어떤 일이 왜 일어났는지 설명한다면, 데이터 사이언티스트는 한 걸음 더 나아가 다음에 일어날 일을 예측하고 비즈니스가 이에 대해 어떻게 대응해야 하는지 권장하는 시스템을 구축합니다.

이 역할은 세 가지 핵심 전문 분야를 기반으로 합니다.

  1. 모델의 기반이 되는 통계 및 수학
  2. 모델을 구축하고 자동화하는 프로그래밍
  3. 구축된 모델이 실제로 올바른 질문에 답할 수 있도록 보장하는 도메인 지식

데이터 사이언티스트는 수요 예측, 고객 세분화 모델, 추천 엔진, 이상 거래 탐지 시스템, A/B 테스트 결과 등 다양한 결과물을 생성합니다. 이러한 각 결과물은 데이터를 비즈니스 의사 결정에 직접 연결하는 역할을 합니다.

데이터 사이언티스트 역할의 진화 과정

데이터 사이언티스트의 역할은 지난 몇 년 동안 크게 확장되었습니다. 이제 전통적인 모델링은 훨씬 더 넓은 범위의 일부에 불과합니다. 데이터 사이언티스트는 대규모 언어 모델을 다루고, 생성형 AI 애플리케이션을 구축하며, 모델을 프로덕션 배포 및 지속적인 모니터링 단계까지 이끌어가는 역할을 점점 더 많이 요구받고 있습니다.

이러한 변화는 기술적인 측면뿐만 아니라 조직적인 측면에서도 일어나고 있습니다. 데이터 사이언티스트는 개인 기여자로서 보내는 시간보다 엔지니어링, 분석 및 비즈니스 팀 간에 공유되는 협업적이고 프로덕션 수준의 워크플로에 더 많은 시간을 할애하고 있습니다. 이제 성공이란 기술적 엄격함을 측정 가능한 성과로 연결하는 것을 의미합니다. 데이터 사이언티스트는 단순히 목표 정확도 점수를 달성했는지가 아니라, 모델이 매출을 개선했는지, 고객 이탈을 줄였는지, 제품 의사 결정을 가속화했는지 등 비즈니스 영향력을 기준으로 평가받는 경우가 많아지고 있습니다.

현대 데이터 사이언티스트에게 필요한 핵심 역량

데이터 과학은 구체적인 역할, 산업군, 팀의 성숙도에 따라 다양한 기술을 필요로 합니다.

아래 표는 엔터프라이즈 데이터 과학 역할에 필요한 주요 기술 영역, 구체적인 관련 기술 및 지식, 그리고 현재 AI 환경에서 이것이 중요한 이유를 보여줍니다.

기술 영역주요 내용현재 중요한 이유
프로그래밍Python, SQL, R분석, 모델링 및 파이프라인의 기반
통계 및 수학확률, 선형대수학, 추론모델링 및 실험의 기반이 됨
머신러닝지도 학습, 비지도 학습, 딥러닝예측 및 생성형 사용 사례 지원
데이터 엔지니어링 기초파이프라인, 변환, 스토리지 포맷프로덕션 데이터를 다루는 데 필수적임
MLOps 이해도모델 배포, 모니터링, 재학습모델은 노트북뿐만 아니라 프로덕션 환경에서도 작동해야 함
커뮤니케이션스토리텔링, 시각화, 이해관계자 맞춤형 설명인사이트 및 모델의 도입을 촉진함
도메인 전문 지식산업 또는 직무별 지식문제 정의 및 지표 선택을 정교화함

데이터 사이언티스트와 관련 역할 비교

데이터 과학은 여러 관련 역할과 겹치는 부분이 있으며, 팀과 조직에 따라 그 경계가 모호해 보일 수 있습니다.

다음 표는 다양한 역할의 주요 초점과 이러한 역할이 생성하는 일반적인 결과물에 대한 맥락을 제공하여 명확한 이해를 돕습니다.

역할주요 초점일반적인 결과물
데이터 사이언티스트모델링, 실험, 인사이트 도출예측 모델, 분석 보고서, 권장 사항
데이터 분석가보고 및 기술 분석대시보드, 임시 분석, KPI 보고서
ML 엔지니어모델 프로덕션화 및 확장배포된 모델 서비스, ML 파이프라인
데이터 엔지니어데이터 파이프라인 구축 및 유지 관리신뢰할 수 있는 데이터 세트 및 수집 인프라
분석 엔지니어분석용 데이터 모델링 및 큐레이션변환된 테이블, 시맨틱 레이어

많은 조직, 특히 규모가 작은 팀에서는 데이터 사이언티스트가 이전에는 공식적으로 ML 엔지니어나 분석 엔지니어의 영역이었던 책임을 맡기도 합니다. 데이터 사이언티스트를 구분하는 가장 명확한 특징은 모델링 및 실험 프로세스에 대한 소유권, 즉 문제를 정의하고 모델을 선택 및 구축하며 결과를 비즈니스 용어로 해석하는 역량입니다.

데이터 사이언티스트가 사용하는 도구 및 플랫폼

현대적인 데이터 과학 스택은 대화형 노트북을 중심으로 합니다. 이는 코드를 작성하고 결과를 시각화하며 작업을 문서화하기 위한 브라우저 기반 환경입니다. 또한 대부분의 팀은 이해관계자와 결과를 공유하기 위해 SQL 엔진, ML 라이브러리, 실험 추적 도구 및 BI 도구에 의존합니다.

일반적인 하루 일과는 Python에서 데이터를 전처리하고, SQL로 학습 데이터 세트를 가져오고, scikit-learn 또는 PyTorch로 모델을 학습시키고, MLflow로 실험을 추적하고, 대시보드에 결과를 시각화하는 등 여러 작업을 거치며 진행됩니다.

흔히 사용되는 언어 및 라이브러리로는 Python, SQL, pandas, scikit-learn, PyTorch, Spark 및 MLflow가 있습니다. 데이터 하위 세트를 대상으로 하는 로컬 개발은 프로덕션 규모에서 실행 불가능하기 때문에, 엔터프라이즈 팀은 대부분 클라우드 및 통합 데이터 플랫폼으로 이전했습니다. AI 어시스턴트도 표준으로 자리 잡아가고 있으며, 데이터 사이언티스트가 코드를 작성하고 데이터 세트를 탐색하며 파이프라인을 더 빠르게 디버깅할 수 있도록 지원합니다.

데이터 사이언티스트가 비즈니스 가치를 창출하는 방법

데이터 사이언티스트는 모델 결과물을 매출, 비용 및 고객 경험에 영향을 미치는 의사 결정에 연결함으로써 비즈니스 가치를 창출합니다. 예를 들어, 수요 예측은 재고 낭비를 줄이고 주문 처리를 개선하는 데 도움이 될 수 있습니다. 이탈 모델을 사용하면 고객 유지 팀이 고객이 떠나기 전에 개입할 수 있습니다. 추천 엔진은 참여도와 구매율을 높입니다. 가격 최적화는 판매량을 줄이지 않으면서 마진을 개선합니다. 각각의 경우에서 모델은 최종 제품이 아니며, 비즈니스 성과가 최종 목적입니다.

그렇기 때문에 데이터 사이언티스트의 성과는 모델 지표 자체보다 비즈니스 영향력을 기준으로 평가받는 경우가 많아지고 있습니다. 배포되어 비즈니스에 채택되고 실행되는 약간 낮은 정확도의 모델이, 프로덕션에 배포되지 않는 성능이 더 뛰어난 모델보다 훨씬 더 가치 있습니다. 지표 선택과 명확한 이해관계자 커뮤니케이션은 기술적 역량만큼이나 중요합니다. 훌륭한 데이터 사이언티스트는 올바른 모델을 구축하고, 올바른 대상을 측정하며, 행동을 이끌어낼 수 있는 방식으로 결과를 제시합니다.

보고서

기업을 위한 에이전틱 AI 플레이북

AI 및 ML 라이프사이클에서 데이터 사이언티스트의 역할

데이터 사이언티스트는 비즈니스 질문이 정의되는 순간부터 배포된 모델을 모니터링하고 재학습시키는 시점까지 프로젝트 라이프사이클의 모든 단계에 기여합니다.

아래 목록은 각 라이프사이클 단계별 주요 데이터 과학 기여 활동을 설명합니다.

  1. 문제 정의. 비즈니스 질문을 정의된 대상 지표가 있는 측정 가능한 모델링 문제로 변환합니다. 이 단계는 도메인 전문 지식이 가장 중요한 단계입니다. 문제 정의가 잘못되면 기술적 완성도와 관계없이 잘못된 모델이 생성됩니다.
  2. 데이터 액세스. 작업에 필요한 거버넌스가 적용된 데이터 세트를 찾고, 평가하고, 검색합니다. 엔터프라이즈 환경에서는 피처 엔지니어링에 투자하기 전에 권한을 탐색하고, 계보를 이해하고, 데이터 품질을 확인하는 작업이 포함됩니다.
  3. 탐색 및 준비. 데이터를 프로파일링하고, 결측값과 이상치를 처리하며, 모델링에 적합한 형태로 입력을 구성합니다. 이 단계는 일반적으로 실제 프로젝트에서 다른 어떤 단계보다 많은 시간이 소요됩니다.
  4. 피처 엔지니어링. 파생 변수, 집계, 인코딩 등 모델의 예측력을 높이는 신호를 구축합니다. 잘 설계된 피처는 여러 프로젝트에서 재사용할 수 있으며 지속적인 경쟁 우위의 원천이 됩니다.
  5. 모델 개발. 후보 모델을 학습 및 튜닝하고, 정의된 기준선과 성능을 비교합니다. 이 단계는 대중이 생각하는 데이터 과학과 가장 밀접한 단계이지만, 가장 시간이 많이 걸리거나 가장 가치 있는 단계인 경우는 드뭅니다.
  6. 실험. 오프라인 평가와 필요한 경우 A/B 테스트와 같은 실시간 테스트를 통해 결과를 검증합니다. 신뢰할 수 있는 결과를 생성하려면 이 단계에서 통계적 엄격함이 필수적입니다.
  7. 배포. 승인된 모델을 프로덕션으로 이동하여 사용 사례에 따라 배치, 스트리밍 또는 실시간 모드로 예측을 필요한 애플리케이션과 팀에 제공할 수 있도록 합니다.
  8. 모니터링 및 재학습. 시간이 지남에 따라 발생하는 데이터 드리프트와 성능 저하를 모니터링하고, 필요할 때 새로운 데이터로 재학습을 수행하며, 더 이상 비즈니스 요구사항을 충족하지 않는 모델은 폐기합니다.

데이터 과학자가 직면하는 과제

데이터 과학자들은 일반적으로 기업의 조직 방식과 역사적으로 데이터 및 도구가 구축된 방식에서 비롯된 과제에 직면합니다. 이러한 과제는 몇 가지 반복되는 패턴으로 분류됩니다.

파편화된 데이터와 도구

데이터가 웨어하우스, 데이터 레이크, SaaS 애플리케이션 및 운영 시스템에 분산되어 있으면 학습 데이터 세트를 구성하는 데 모델 자체를 빌드하는 것만큼 많은 시간이 소요될 수 있습니다. 테이블을 추적하고, 충돌하는 정의를 조정하고, 이미 통합되어 있어야 할 소스를 수동으로 조인하는 작업은 모두 본격적인 작업을 시작하기도 전에 진행 속도를 늦추는 장애물입니다. 서로 연결되지 않은 도구 간의 전환은 문제를 더욱 악화시킵니다. 컨텍스트 전환이 일어날 때마다 재작업, 불일치, 마찰이 발생하여 전체 워크플로우를 방해합니다.

거버넌스가 적용된 데이터 액세스

데이터 과학자가 최상의 성과를 내려면 데이터에 대한 폭넓은 액세스가 필요합니다. 보안 정책, 개인정보 보호 규정, 컴플라이언스 통제 및 기타 거버넌스 요구사항은 때로 이러한 요구와 상충되는 것처럼 보일 수 있습니다.

하지만 이러한 명백한 갈등은 대개 거버넌스 요구사항 자체 때문이 아니라 잘못 구현된 거버넌스에서 비롯됩니다. 액세스 제어가 명확하고 권한이 잘 정의되어 있으며 데이터 리니지가 투명하면, 데이터 과학자는 액세스를 요청하거나 데이터 품질을 의심하거나 올바른 버전의 데이터 세트를 가지고 있는지 걱정하는 데 시간을 덜 쓰게 되므로 작업 속도가 느려지는 것이 아니라 오히려 더 빨라집니다.

노트북에서 프로덕션으로 모델 이동

개발 환경은 프로덕션 환경과 다르고, 데이터 파이프라인이 변경되며, 인프라 요구사항은 더 까다롭고, 프로덕션 시스템에 필요한 엔지니어링 표준이 실험 중에는 거의 적용되지 않습니다. 결과적으로 개발 단계에서 우수한 성능을 보이는 많은 모델이 프로덕션에 도달하지 못합니다. 이러한 격차를 줄이려면 모델 버전 관리, CI/CD 파이프라인, 자동화된 모니터링과 같은 MLOps 모범 사례가 필요합니다. 또한 데이터 과학자와 프로덕션 인프라를 담당하는 엔지니어 간의 긴밀한 협업도 필요합니다.

데이터, 엔지니어링 및 비즈니스 팀 간의 협업

데이터 과학 프로젝트는 기술적인 이유뿐만 아니라 조직적인 이유로도 실패할 수 있습니다. 데이터 과학자, 데이터 엔지니어, ML 엔지니어 및 비즈니스 이해관계자는 종종 서로 다른 도구를 사용하고, 동일한 지표에 대해 서로 다른 정의를 사용하며, 서로 다른 일정에 따라 작업합니다.

핵심 지표에 대해 합의된 정의, 공유 피처 라이브러리 및 공통 데이터 모델은 부서 간 협업의 마찰을 줄여줍니다. 공통 플랫폼도 마찬가지입니다. 데이터 과학자와 엔지니어가 동일한 데이터와 동일한 리니지에 액세스할 수 있는 동일한 환경에서 작업하면 인수인계가 더 원활해지고 오해를 더 빨리 발견할 수 있습니다.

빠르게 변화하는 AI 환경에 발맞추기

빠른 변화로 유명한 업계에서도 AI 분야는 놀라운 속도로 움직이고 있습니다. 생성형 AI는 데이터 과학자가 출시와 거의 동시에 이해하고 적용해야 하는 새로운 등급의 모델과 사용 사례를 도입했습니다. AI 모델이 추론하고 계획하며 다단계 작업을 수행하는 에이전트형(Agentic) 시스템도 이와 유사한 기대를 불러일으키고 있습니다.

동시에 통계적 엄격함, 사려 깊은 문제 정의, 신중한 평가라는 기본 역량은 그 어느 때보다 중요합니다. 데이터 과학자는 연구 결과의 신뢰성을 보장하는 엄격함을 유지하면서 새로운 기술을 평가하고 도입해야 합니다. 데이터 과학자에게 레거시 워크플로우 유지와 최신 기술 습득을 동시에 요구하기보다, 현대적인 도구에 대한 액세스와 실험할 수 있는 시간을 제공하는 조직이 이들을 지원하기에 가장 좋은 위치에 서게 될 것입니다.

Databricks 플랫폼이 데이터 과학자를 지원하는 방법

Databricks 플랫폼은 개별 도구를 사용할 때 필요한 컨텍스트 전환 없이 분석, AI 및 ML 전반에 걸친 데이터 과학 작업을 위한 통합 환경을 제공합니다. 거버넌스가 적용된 데이터 액세스, 협업 노트북, ML 실험 및 프로덕션 배포가 모두 하나의 플랫폼에서 이루어지며, 이는 기업의 데이터 볼륨과 컴플라이언스 요구사항에 맞춰 쉽게 확장할 수 있는 개방형 레이크하우스 아키텍처를 기반으로 구축되었습니다.

데이터 과학자에게 이는 인프라와 도구에 소비하는 시간을 줄이고 가치를 창출하는 작업에 더 많은 시간을 할애할 수 있음을 의미합니다. 탐색, 피처 엔지니어링, 모델 개발 및 배포는 파편화된 인수인계 과정이 아니라 연속적인 워크플로우 내에서 이루어집니다. 또한 데이터 및 AI 자산이 플랫폼 전반에서 일관되게 거버넌스되므로, 데이터 과학자는 학습에 사용하는 데이터가 프로덕션에서 모델이 보게 될 데이터와 동일하다고 신뢰할 수 있습니다.

데이터 과학 워크플로우를 지원하는 Databricks 플랫폼의 구체적인 기능은 다음과 같습니다.

  • 협업 노트북. 공동 작성, Git 통합 및 역할 기반 액세스 제어 기능을 갖춘 단일 작업 공간에서 Python, SQL, R 및 Scala로 분석을 빌드하고 공유하세요.
  • Unity Catalog. 엔드투엔드 리니지 및 세분화된 권한을 통해 테이블, 피처, 모델 및 함수를 포함한 데이터 및 AI 자산에 대한 거버넌스가 적용된 액세스를 배포하세요.
  • Agent Bricks. MLflow를 통한 통합 실험 추적, 모델 서빙 및 에이전트 개발 도구를 사용하여 기업 데이터에서 기존 ML 및 생성형 AI 모델을 빌드, 미세 조정 및 서빙하세요.

데이터 과학자 역할의 미래

AI는 데이터 과학자의 역할을 변화시키고 있을 뿐, 없애는 것이 아닙니다. AI 어시스턴트와 에이전트는 일상적인 코딩 작업 자동화, 보일러플레이트 생성, 탐색적 분석 실행, 모델 아키텍처 제안 등을 점점 더 잘 수행하고 있으며, 이는 모두 실질적인 생산성 향상으로 이어집니다. 하지만 AI가 인간의 판단을 대체하지는 못합니다. 문제를 지능적으로 정의하고, 결과가 신뢰할 수 있는지 평가하며, 기술적 발견을 실행 가능한 비즈니스 권장 사항으로 변환하는 것은 여전히 인간 고유의 역량입니다.

에이전트형 워크플로우의 등장은 이를 명확하게 보여줍니다. 데이터 과학자들은 단일 프롬프트에서 복잡하고 다단계의 작업을 수행하는 AI 에이전트와 함께 일하는 경우가 점점 더 많아지고 있습니다. 거버넌스가 적용된 데이터 액세스를 위해 Unity Catalog를 기반으로 하는 Databricks Data Science Agent와 같은 도구가 실제 사례입니다. 이러한 워크플로우에서 데이터 과학자의 역할은 에이전트가 올바른 문제를 해결하도록 안내하고, 그 출력을 비판적으로 평가하며, 그에 따른 결정에 책임을 지는 것입니다.

자주 묻는 질문

데이터 과학자와 데이터 분석가의 차이점은 무엇인가요?

데이터 분석가는 대시보드, 쿼리 및 KPI 보고서를 통해 이미 발생한 상황을 설명하는 데 집중합니다. 데이터 과학자는 한 걸음 더 나아가 다음에 일어날 일을 예측하고 이에 대응하는 조치를 권장하는 예측 모델을 빌드합니다. 가장 명확한 차이점은 모델링 및 실험 프로세스에 대한 소유권입니다.

데이터 과학자와 머신러닝 엔지니어의 차이점은 무엇인가요?

데이터 과학자는 문제를 정의하고, 모델을 빌드하며, 결과를 비즈니스 용어로 해석합니다. ML 엔지니어는 이러한 모델을 가져와 프로덕션에서 안정적으로 작동하도록 만듭니다. 소규모 팀에서는 역할이 겹치는 경우가 많으며, 대규모 조직에서는 일반적으로 역할이 분리되어 있습니다.

데이터 과학자는 생성형 AI를 어떻게 활용하고 있나요?

두 가지 방식이 있습니다. 첫째는 LLM 미세 조정, RAG 애플리케이션 구축, AI 에이전트 개발을 포함한 새로운 종류의 사용 사례로 활용하는 것이고, 둘째는 AI 어시스턴트를 사용하여 코드를 생성하고 데이터를 탐색하며 분석을 가속화하는 생산성 도구로 활용하는 것입니다.

데이터 과학자에게 거버넌스가 적용된 데이터 액세스가 중요한 이유는 무엇인가요?

강력한 거버넌스는 제약이 아니라 촉진제입니다. 명확한 권한, 문서화된 리니지, 잘 카탈로그화된 데이터 자산 덕분에 적절한 데이터 세트를 찾는 데 시간을 덜 쓰고 모델 출력에 대한 신뢰도를 높일 수 있습니다.

데이터 과학자는 비즈니스 임팩트를 어떻게 측정하나요?

모델 출력을 이해관계자에게 중요한 지표인 매출, 리텐션, 전환율, 사기율 및 비용과 연결함으로써 측정합니다. 이를 위해서는 모델을 빌드하기 전에 비즈니스 용어로 성공을 정의하고, 시간이 지남에 따라 성능을 추적하여 성과가 유지되는지 확인해야 합니다.

데이터 과학자의 작업 속도 향상 지원

생성형 AI, 에이전트 워크플로, 프로덕션 ML로 역할이 확장됨에 따라 데이터 사이언티스트에게는 이에 발맞출 수 있는 환경이 필요합니다. 즉, 통합 플랫폼, 거버넌스가 적용된 데이터 액세스, 그리고 작업의 장애물을 만드는 것이 아니라 줄여주는 도구가 필요합니다. 적절한 인프라를 갖추면 데이터 사이언티스트는 문제 정의, 모델 구축, 결과를 중요한 의사 결정에 연결하는 일 등 실제 가치를 창출하는 작업에 집중할 수 있습니다.

Databricks Platform이 데이터, 분석, AI, ML 전반에서 데이터 사이언티스트를 어떻게 지원하는지 알아보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.