주요 컨텐츠로 이동

TabPFN AI로 Databricks에서 비즈니스 혁신 가속화

Databricks의 TabPFN이 정형 ML 예측을 가속화하고, 재학습 주기를 없애며, 완전한 거버넌스를 통해 핵심 비즈니스 운영 전반에 AI를 확장하는 방법을 알아보세요.

TapPFN AI Accelerates Business Transformation on Databricks

Summary

  • 클래식 ML 워크플로가 복잡하고 리소스 집약적인 이유와 TabPFN이 이를 근본적으로 바꾸는 방법
  • Databricks를 통해 팀이 레이크하우스 데이터와 함께 TabPFN 예측을 직접 구축, 배포 및 관리하는 방법
  • 실현된 비즈니스 가치: 예측 시간 단축, Data Science 오버헤드 감소, 핵심 운영 전반에 걸친 ML 채택 확대

요즘에는 인공지능(AI)을 중심으로 다루지 않는 비즈니스 저널, 분기별 실적 발표, 업계 백서 또는 비즈니스 변환에 대한 전략 발표를 찾기 어렵습니다. 현대의 AI는 조직이 콘텐츠를 소비, 해석, 생성하는 방식에 근본적인 변화를 가져왔으며, 이를 통해 기업은 이전에는 깊은 전문 지식과 수년간의 특화된 지식이 필요했던 광범위한 작업을 보강하고 자동화할 수 있습니다.

AI가 텍스트, 이미지, 오디오 등 비정형 콘텐츠를 이해하고생성하는 능력으로 모든 관심이 쏠리고 있지만, 즉, 수많은 핵심 비즈니스 프로세스는 오랫동안 고전적인 머신러닝(ML)에 의존해 왔습니다. 이는 정형 데이터 입력에서 예측 레이블을 생성하는 관련 기술이면서도 다른 기술입니다(그림 1). 지금까지 AI의 혁신적인 힘은 고전적인 ML에 거의 영향을 미치지 못했습니다.

기존 ML 워크플로가 계속 사용되는 이유는 내재된 복잡성과 노동 집약성 때문입니다. 데이터 사이언티스트들은 일반적으로 모델 학습이 시작되기도 전에 구조화된 데이터 입력 준비 및 검증, 피처 엔지니어링, 올바른 모델 클래스 선택과 같은 활동에 시간의 80% 이상을 소비합니다. 또한, 기본 데이터 분포가 변화하고 시간이 지남에 따라 모델 성능이 저하되므로 이 작업은 일회성 투자가 아니라 모니터링, 디버깅, 재학습의 지속적인 주기입니다.

규모가 커지면 이 문제는 더욱 심화됩니다. 수백, 수천 개의 ML 모델을 배포하는 조직은 자동화된 실험 프레임워크에 의존하여 수천 개의 파라미터 조합을 평가합니다. 하지만 자동화조차도 근본적인 리소스 제약을 극복할 수는 없습니다.

현실은 냉혹합니다. 기업은 제한된 리소스와 신속하게 비즈니스 결과를 도출해야 하는 필요성을 고려하여 어떤 모델에 최적화 노력을 기울일지, 어떤 모델을 "충분히 좋은" 수준으로 실행할지 선택해야 합니다. 하지만 구조화된 데이터 입력과 예측 출력에 초점을 맞춘 새로운 AI 모델의 등장은 마침내 앞으로 나아갈 길을 제시할 수 있습니다.

비디오 1. Databricks 솔루션 가속기의 일부로 TabPFN 모델과 상호 작용

TabPFN 소개: 머신러닝을 위한 AI 모델

이 분야에서 가장 유망한 발전 중 하나는 구조화된 데이터에 대한 machine learning(ML) 워크플로를 근본적으로 재구성하는 Prior Labs 의 파운데이션(AI) 모델인 TabPFN 입니다. 각 예측 작업에 대해 고유한 모델을 구축하고 학습해야 하는 기존 ML 접근 방식과 달리, TabPFN은 LLM의 동일한 "사전 학습된, 바로 사용 가능한" 패러다임을 표 형식 비즈니스 데이터에 적용합니다. 이 모델은 1억 3천만 개 이상의 합성 데이터 세트에서 사전 학습되었으며, 사실상 모든 도메인 또는 사용 사례에 걸쳐 구조화된 데이터로부터 '학습하는 방법을 학습'합니다(그림 1).

TabPFN이 지원하는 산업별 핵심 비즈니스 프로세스
Figure 1. Core business processes by industry supported by TabPFN

ML 타임라인 단축

ML 생산성에 미치는 영향은 엄청납니다. 기존 접근 방식에서는 데이터 사이언티스트가 데이터 준비, 특성 공학, 모델 선택, 하이퍼파라미터 튜닝에 몇 시간 또는 며칠을 투자해야 하지만, TabPFN은 일반적으로 몇 초 단위로 측정되는 단일 포워드 패스로 프로덕션 등급의 예측을 제공합니다.

이 모델은 일반적으로 Data Science 작업의 대부분을 차지하는 광범위한 전처리 없이도 원시 입력을 직접 처리하며 결측값, 혼합 데이터 유형, 범주형 및 텍스트 특징, 이상치를 자동으로 관리합니다. 아마도 가장 중요한 점은 TabPFN이 모델 재학습이라는 지속적인 유지 관리 부담을 없애준다는 것입니다. 새로운 데이터를 사용할 수 있게 되면 조직은 새로운 학습 주기를 시작하는 대신 모델의 컨텍스트를 간단히 업데이트하면 됩니다.

트레이드오프 없는 성능

TabPFN은 수 시간의 자동 튜닝이 필요한 기존 방법의 정확도를 능가합니다. 이러한 성능 프로필은 앞서 설명한 경제성을 근본적으로 바꿉니다. 조직은 더 이상 모델 정확도와 리소스 할당이라는 이분법적인 선택에 직면할 필요가 없습니다. 대신, 데이터 과학 팀을 비례적으로 확장하지 않고도 더 광범위한 사용 사례에 예측 기능을 신속하게 배포할 수 있으며, 이를 통해 일반적으로 전담 최적화 노력이 필요한 소수의 최고 가치 애플리케이션을 넘어 ML을 대중화할 수 있습니다(그림 2).

분류 및 회귀 유형 예측
Figure 2. TabPFN has been demonstrated to deliver higher accuracy results for both classification and regression-type predictions

구조화된 예측으로 AI 영향력 확장

TabPFN은 현재 최대 100,000개의 행과 2,000개의 피처가 있는 데이터 세트를 지원하며, 엔터프라이즈 버전 은 1,000만 개 행까지 확장되어 리테일, 금융, 의료, 제조 및 기타 산업 전반에 걸친 대부분의 운영 ML 사용 사례를 포괄합니다. 콘텐츠 생성 및 자연어 작업을 넘어 AI를 운영하려는 조직에게 TabPFN과 같은 파운데이션 모델은 오랫동안 데이터 기반 의사 결정의 중추를 형성해 온 구조화된 데이터 및 예측 분석에 동일한 단계적 생산성 향상을 가져오는 핵심 요소입니다(그림 3).

TabPFN 데이터 세트
Figure 3. TabPFN delivers exceedingly better performance on larger datasets than traditional models

TabPFN은 이미 전 세계 기업의 많은 실제 애플리케이션에 사용되고 있습니다. Taktile을 사용한 재무 위험 관리부터 NHS를 사용한 건강 결과 평가, Hitachi를 사용한 예측 유지보수에 이르기까지 다양한 도메인에 배포되어 효율성과 결과 품질 모두에서 향상을 보였습니다. TabPFN은 기존 ML 방법을 지속적으로 능가하여 기준선을 10%-65% 개선하고 Data Science 워크플로를 90% 단축합니다. 조직은 수익 증대, 건강 결과 개선, 유지보수 비용 절감, 고객 이탈 방지 등 훨씬 더 많은 이점을 얻고 있습니다.

5X 리더

Gartner®: Databricks 클라우드 데이터베이스 리더

Databricks에서 TabPFN 사용하기

Databricks는 Machine Learning(ML)으로 예측 기능을 구축하려는 데이터 사이언티스트들이 오랫동안 선호해 온 플랫폼입니다. 오픈 플랫폼인 TabPFN은 Databricks 플랫폼 내에서 사용하기에 매우 적합합니다.

데이터가 있는 곳에서 구축

대부분의 엔터프라이즈 클래식 ML은 거래, 운영 원격 측정, 고객 이벤트, 재고 신호, 위험 지표와 같은 Lakehouse 데이터에서 시작됩니다. 데이터를 외부 환경으로 옮기면 중복이 발생하고 보안 위험이 증가하며 재현성과 감사 가능성이 약화되어 팀의 작업 속도가 느려집니다. Databricks는 거버넌스가 적용된 데이터 바로 옆에서 TabPFN 워크플로를 직접 실행할 수 있도록 지원하므로 팀은 제어를 유지하면서 데이터 이동을 최소화할 수 있습니다. Unity Catalog를 사용하면 조직은 액세스 제어 및 감사를 중앙 집중화하고 데이터 및 AI 자산 전반에 걸쳐 리니지를 보존할 수 있으며, 이는 어떤 데이터가 사용되었는지, 기능이 어떻게 파생되었는지, 의사 결정 시점에 누가 액세스했는지를 증명해야 할 때 중요합니다.

결과의 효율적인 운영화

TabPFN은 모델링 접근 방식입니다. 프로덕션에 영향을 미치려면 배치 및 실시간 스코어링, 평가, 거버넌스, 모니터링과 같은 반복 가능한 엔터프라이즈 패턴과 통합해야 합니다. Databricks는 확장 가능한 compute 및 실시간 추론 인프라를 통해 TabPFN을 신뢰할 수 있는 운영 프로세스로 전환할 수 있는 이러한 워크플로를 위한 강력한 플랫폼입니다. 평가 및 모니터링을 위해 MLflow는 감사 가능한 방식으로 버전, 계보, 승격 워크플로를 관리할 수 있도록 실험 추적 및 모델 레지스트리를 제공합니다.

지속적인 모델 거버넌스 제공

Databricks는 TabPFN 모델 성능을 지속적으로 모니터링하여 예측이 실제 비즈니스 결과에서 drift되는 시점을 감지합니다. 조정이 필요할 때 TabPFN의 아키텍처는 기존의 몇 주가 걸리는 재학습 주기를 없애줍니다. 팀은 단순히 최신 데이터로 모델의 컨텍스트를 업데이트하고 며칠이 아닌 몇 분 내에 다시 배포합니다. 이러한 자동화된 모니터링과 신속한 refresh 기능의 조합은 지속적인 모델 유지 관리에 일반적으로 필요한 데이터 과학 리소스를 크게 줄이는 동시에 예측 품질이 변화하는 시장 상황에 맞춰 유지되도록 보장합니다.

팀이 최소한의 설정으로 TabPFN을 테스트할 수 있도록, 거버넌스가 적용된 Lakehouse 데이터로 Databricks에서 TabPFN을 엔드투엔드로 실행하는 방법을 보여주는 공개적으로 사용 가능한 솔루션 가속기 를 게시했습니다. 이 액셀러레이터에는 다양한 산업 시나리오의 데이터를 현실적으로 시뮬레이션하고 TabPFN을 사용하여 예측을 구축하는 일련의 노트북이 포함되어 있습니다(비디오 1).

지금 바로 시작하여 ML 워크로드에 AI의 혁신적인 힘을 적용하고 전반적인 비즈니스 프로세스 혁신을 주도하세요.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

ETL and BI Migration Strategies

솔루션

2025년 1월 27일/1분 이내 소요

Databricks로의 마이그레이션 탐색: 아키텍처와 전략적 접근법

DeepSeek R1 on Databricks

공지사항

2025년 1월 31일/1분 이내 소요

DeepSeek R1 on Databricks