주요 컨텐츠로 이동

MLflow 3.0: 통합 AI 실험, 관찰 가능성, 그리고 거버넌스

MLflow 3.0

Summary

  • MLflow 3.0은 전통적인 ML, 딥 러닝, 그리고 GenAI 개발을 하나의 플랫폼에서 통합하여, 별도의 전문화된 도구가 필요 없습니다
  • 새로운 GenAI 기능에는 생산 규모 추적, 개선된 품질 평가 경험, 피드백 수집 API 및 UI, 그리고 프롬프트와 애플리케이션에 대한 종합적인 버전 추적이 포함됩니다
  • 플랫폼은 완전한 GenAI 개발 워크플로우를 가능하게 합니다: 추적으로 디버그, LLM 판사로 품질 측정, 전문가 피드백으로 개선, 버전 관리로 변경 추적, 그리고 생산에서 모니터링, 이 모든 것은 전자 상거래 챗봇 예제를 통해 보여집니다

MLflow는 매월 3천만 번 이상 다운로드되고 전 세계 850명 이상의 개발자들의 기여로 수천 개의 기업에서 ML 및 딥러닝 작업을 지원하며, 대규모 MLOps의 기반이 되었습니다. 오늘, 우리는 MLflow 3.0을 발표하게 되어 매우 기쁩니다. 이는 생성 AI에 대해 동일한 엄격함과 신뢰성을 가져오면서 모든 AI 작업에 대한 핵심 기능을 향상시키는 주요한 발전입니다. 이 강력한 새로운 기능들은 오픈 소스 MLflow와 Databricks에서 완전히 관리되는 서비스로 사용할 수 있으며, 이들은 기업용 GenAI 개발 경험을 제공합니다.

생성 AI는 관찰 가능성, 품질 측정, 그리고 빠르게 변화하는 프롬프트와 구성을 관리하는 새로운 도전을 제시하지만, MLflow 3.0은 또 다른 전문 플랫폼을 통합할 필요 없이 이러한 문제를 해결합니다. MLflow 3.0은 생성 AI 애플리케이션, 전통적인 머신러닝, 그리고 딥러닝을 통합하는 플랫폼입니다. GenAI 에이전트를 구축하든, 분류기를 훈련시키든, 뉴럴 네트워크를 미세 조정하든, MLflow 3.0은 일관된 워크플로우, 표준화된 거버넌스, 그리고 규모에 따라 확장 가능한 생산 수준의 신뢰성을 제공합니다.

MLflow 3.0 한눈에 보기:

  • 포괄적인 생성 AI 기능: 트레이싱, LLM 판사, 인간 피드백 수집, 애플리케이션 버전 관리, 프롬프트 관리 등이 설계되어 높은 애플리케이션 품질과 완전한 관찰성을 제공합니다
  • 빠른 디버깅 및 근본 원인 분석: 입력, 출력, 대기 시간, 비용과 함께 완전한 추적을 볼 수 있으며, 이를 생성한 정확한 프롬프트, 데이터, 앱 버전에 연결됩니다
  • 생산 데이터로부터의 지속적인 개선: 실제 사용과 피드백을 더 나은 평가 데이터셋과 개선된 애플리케이션으로 전환합니다
  • 통합 플랫폼: MLflow는 생성 AI, 전통적인 ML, 딥러닝 작업을 모두 지원하는 단일 플랫폼으로, 협업, 생명주기 관리, 거버넌스를 위한 일관된 도구를 제공합니다
  • Databricks에서의 엔터프라이즈 규모: 전 세계 수천 개의 조직에서 AI 작업 부하를 지원하는 검증된 신뢰성과 성능

GenAI 챌린지: 파편화된 도구, 희박한 품질

생성 AI는 우리가 품질에 대해 생각하는 방식을 바꿨습니다. 전통적인 ML과는 달리, GenAI 출력물은 자유 형식이며, 뉘앙스가 있고 다양합니다. 단일 프롬프트로 수십 가지의 다른 응답을 얻을 수 있으며, 모두 동등하게 정확합니다. 챗봇의 응답이 "좋은" 것인지 어떻게 측정하나요? 에이전트가 환영하는 것을 어떻게 보장하나요? 복잡한 프롬프트, 검색, 도구 호출의 연쇄를 어떻게 디버그하나요?

이 질문들은 모든 조직이 GenAI 애플리케이션을 구축할 때 직면하는 세 가지 핵심 도전 과제를 가리킵니다:

  1. 관찰 가능성: 특히 문제가 발생했을 때 애플리케이션 내부에서 무슨 일이 일어나는지 이해하기
  2. 품질 측정: 수동 병목 현상 없이 대규모로 자유 형식 텍스트 출력물 평가
  3. 지속적인 개선: 생산 인사이트를 더 높은 품질의 애플리케이션으로 전환하는 피드백 루프 생성

​​오늘날, 이러한 도전을 해결하려는 조직들은 파편화된 환경에 직면하고 있습니다. 그들은 데이터 관리, 관찰 및 평가, 배포를 위해 별도의 도구를 사용합니다. 이 접근 방식은 중요한 차이를 만듭니다: 디버깅 문제는 플랫폼 간 이동을 필요로 하며, 평가는 실제 생산 데이터와는 독립적으로 이루어지며, 사용자 피드백은 애플리케이션을 개선하기 위해 돌아오지 않습니다. 팀들은 GenAI 앱을 개선하는 것보다 도구를 통합하는 데 더 많은 시간을 보냅니다. 이러한 복잡성에 직면하여 많은 조직들은 체계적인 품질 보증에 대해 포기하기도 합니다. 그들은 비구조화된 수동 테스트에 의존하며, 것들이 "충분히 좋아 보일" 때 생산에 출하하고, 최선을 다합니다.

이러한 GenAI 문제를 해결하고 고품질의 애플리케이션을 출시하기 위해서는 새로운 기능이 필요하지만, 여러 플랫폼을 다루는 것은 필요하지 않습니다. 그래서 MLflow 3.0은 우리의 검증된 MLOps 기반을 확장하여 하나의 플랫폼 에서 GenAI를 포괄적으로 지원하며, 다음을 포함하는 통합 경험을 제공합니다:

  • 포괄적인 트레이싱: 20개 이상의 GenAI 라이브러리에 대한 트레이싱, 개발 및 생산에서 모든 요청에 대한 가시성 제공, 생성된 코드, 데이터, 프롬프트에 연결된 트레이스
  • 연구 기반 평가 LLM 판사를 통해 체계적으로 GenAI 품질을 측정하고 개선 기회를 식별
  • 통합 피드백 수집 배포 위치에 상관없이 생산에서 최종 사용자와 전문가의 통찰력을 캡처하여, 지속적인 품질 개선을 위해 평가 및 관찰 스택에 직접 피드백을 제공합니다
"MLflow 3.0의 추적 기능은 우리의 AI 기반 보안 플랫폼을 확장하는 데 필수적이었습니다. 이를 통해 모든 모델 결정에 대한 종단간 가시성을 얻어 더 빠르게 디버깅하고 성능을 모니터링하며, 위협이 변화함에 따라 우리의 방어를 진화시키는 데 도움이 됩니다. 원활한 LangChain 통합과 자동 로깅을 통해, 추가 엔지니어링 오버헤드 없이 이 모든 것을 얻을 수 있습니다."
— Sam Chou, Barracuda의 주요 엔지니어

MLflow 3.0이 조직이 고품질의 생성 AI 애플리케이션을 구축, 평가, 배포하는 방식을 어떻게 변화시키는지 보여주기 위해, 우리는 실제 세계의 예를 따를 것입니다: 전자 상거래 고객 지원 챗봇을 구축합니다. 우리는 MLflow가 디버깅에서 배포까지 빠르게 이동할 수 있도록 하는 세 가지 핵심 GenAI 도전 과제를 어떻게 해결하는지 살펴볼 것입니다. 이 여정을 통해, 우리는 Databricks에서의 Managed MLflow 3.0의 전체적인 힘을 활용할 것입니다, 이에는 Review App, Deployment Jobs, 그리고 Unity Catalog 거버넌스와 같은 통합 도구가 포함되어 있습니다. 이는 대규모에서 실용적인 기업 GenAI 개발을 가능하게 합니다.

단계 1: 생산 등급 트레이싱으로 성능 문제를 정확하게 파악

귀하의 전자 상거래 챗봇이 베타 버전에서 라이브로 전환되었지만, 테스터들은 느린 응답과 부정확한 제품 추천에 대해 불평합니다. 귀하의 GenAI 애플리케이션의 복잡한 프롬프트, 검색, 도구 호출 체인에 대한 가시성이 없으면, 귀하는 디버깅을 맹목적으로 하고 관찰 가능성 도전에 직면하게 됩니다.

MLflow 3.0의 생산 규모 추적은 모든 것을 바꿉니다. 몇 줄의 코드만으로 개발부터 생산까지의 모든 환경에서 20개 이상의 GenAI 라이브러리와 사용자 정의 비즈니스 로직에서 상세한 추적을 캡처할 수 있습니다. 가벼운 mlflow-tracing 패키지는 성능을 최적화하여 필요한 만큼의 추적을 빠르게 로깅할 수 있습니다. OpenTelemetry를 기반으로 하여 최대의 이식성으로 엔터프라이즈 규모의 관찰 가능성을 제공합니다.

MLflow 추적을 코드에 도입한 후에는 MLflow UI로 이동하여 자동으로 캡처된 모든 추적을 볼 수 있습니다.

MLflow 추적을 코드에 도입한 후에는 MLflow UI로 이동하여 자동으로 캡처된 모든 추적을 볼 수 있습니다. 타임라인 뷰는 응답이 15초 이상 걸리는 이유를 보여줍니다: 앱이 각 창고의 재고를 개별적으로 확인하고(5번의 순차적 호출), 최근 구매 내역만 필요한 상황에서 고객의 전체 주문 이력(500+ 주문)을 검색합니다. 창고 확인을 병렬화하고 최근 주문으로 필터링하면 응답 시간이 50% 이상 줄어듭니다.

단계 2: LLM 판사를 이용한 품질 측정 및 개선

대기 시간 문제가 해결되면, 베타 테스터들이 여전히 관련 없는 제품 추천에 대해 불평하기 때문에 우리는 품질에 주목합니다. 품질을 향상시키기 전에, 우리는 그것을 체계적으로 측정해야 합니다. 이것은 두 번째 GenAI 도전 과제를 강조합니다: GenAI 출력물이 자유 형식이고 다양할 때 품질을 어떻게 측정합니까?

MLflow 3.0은 품질 평가를 간단하게 만듭니다. 생산 추적에서 평가 데이터셋을 생성한 다음, Databricks Mosaic AI Agent Evaluation에 의해 구동되는 연구 기반 LLM 판사를 실행합니다:

이 판사들은 GenAI 트레이스의 품질에 대한 다양한 측면을 평가하고 감지된 문제에 대한 자세한 근거를 제공합니다.


이 판사들은 GenAI 추적의 다양한 품질 측면을 평가하고 감지된 문제에 대한 자세한 근거를 제공합니다. 평가 결과를 보면 문제가 드러납니다: 안전성과 실제성 점수는 좋아 보이지만, 65%의 검색 관련성 점수는 검색 시스템이 종종 잘못된 정보를 가져오는 것을 확인시켜주며, 이로 인해 응답의 관련성이 떨어집니다.

MLflow의 LLM 판사들은 인간의 전문성을 매치하는 신중하게 조정된 평가자들입니다. 귀하의 비즈니스 요구에 맞춰 맞춤형 판사를 만들 수 있습니다. 실제 사용자 대화를 포함한 평가 데이터셋을 구축하고 버전화하십시오, 이에는 성공적인 상호작용, 엣지 케이스, 그리고 도전적인 시나리오가 포함됩니다. MLflow는 어떤 애플리케이션 크기에 대해서도 체계적인 품질 평가를 실용적으로 만드는 평가를 처리합니다.

단계 3: 전문가 피드백을 사용하여 품질 향상

65%의 검색 관련성 점수는 귀하의 근본 원인을 가리키지만, 이를 수정하려면 시스템이 어떤 것을 검색해야 하는지 이해해야 합니다. Review App을 소개합니다, 이는 AI 출력에 대한 구조화된 전문가 피드백을 수집하기 위한 웹 인터페이스로, 이제 MLflow 3.0과 통합되었습니다. 이것은 생산 통찰력을 더 높은 품질의 애플리케이션으로 전환하는 지속적인 개선 여정의 시작입니다

제품 전문가들이 검색 결과가 불량한 추적을 검토하는 라벨링 세션을 만듭니다. 고객이 "aptX HD 코덱 지원과 30+ 시간 배터리 수명을 가진 200달러 미만의 무선 헤드폰"을 요청했지만 일반적인 헤드폰 결과를 받았을 때, 전문가들은 모든 요구사항을 충족하는 정확한 제품을 주석 처리합니다.

Review App은 도메인 전문가가 실제 응답과 소스 문서를 직관적인 웹 인터페이스를 통해 검토할 수 있게 해주며, 코딩이 필요하지 않습니다. 그들은 어떤 제품이 정확하게 검색되었는지 표시하고 혼란스러운 점(예: 유선 vs 무선 헤드폰)을 식별합니다. 전문가의 주석은 미래의 개선을 위한 훈련 데이터가 되며, 실제 세계의 품질 표준에 따라 LLM 판사를 조정하는 데 도움이 됩니다.


리뷰 앱

단계 4: 프롬프트, 코드, 구성 변경 추적

전문가 주석을 활용하여 검색 시스템을 재구축합니다. 키워드 매칭에서 기술 사양을 이해하는 의미 검색으로 전환하고, 확인되지 않은 제품 기능에 대해 더욱 신중하게 프롬프트를 업데이트합니다. 그러나 이러한 변경 사항을 어떻게 추적하고 품질이 향상되는지 확인할 수 있을까요?
MLflow 3.0의 버전 추적은 애플리케이션 코드, 프롬프트, LLM 매개변수, 검색 로직, 재순위 지정 알고리즘 등을 포함한 전체 애플리케이션을 스냅샷으로 캡처합니다. 각 버전은 사용 중에 생성된 모든 트레이스와 메트릭을 연결합니다. 문제가 발생하면, 문제가 있는 응답을 생성한 정확한 버전으로 추적할 수 있습니다.

버전 추적

프롬프트는 특별한 주의가 필요합니다: 작은 어휘 변경이 애플리케이션의 동작을 크게 바꿀 수 있어, 테스트하기 어렵고 회귀에 취약합니다. 다행히도, MLflow의 새로운 프롬프트 레지스트리는 프롬프트 관리에 특별히 엔지니어링 엄격성을 가져옵니다. Git 스타일의 추적을 통한 버전 프롬프트, 프로덕션에서 다양한 버전을 테스트하고 필요한 경우 즉시 롤백합니다. UI는 버전 간의 시각적 차이를 보여주어, 무엇이 변경되었는지 쉽게 파악하고 성능 영향을 이해할 수 있게 합니다. MLflow 프롬프트 레지스트리는 또한 DSPy 최적화 도구와 통합하여 평가 데이터로부터 자동으로 개선된 프롬프트를 생성합니다.

종합적인 버전 추적이 구현된 상태에서, 변경 사항이 실제로 품질을 개선했는지 측정합니다:

결과는 수정 사항이 효과가 있다는 것을 확인합니다: 검색 관련성은 65%에서 91%로 급증하고, 응답 관련성은 93%로 개선됩니다.

단계 5: 생산에 배포하고 모니터링

검증된 개선 사항이 있으면, 이제 배포할 시간입니다. MLflow 3.0 배포 작업은 품질 요구사항을 충족하는 검증된 애플리케이션만이 제작에 도달하도록 보장합니다. 새로운 버전의 애플리케이션을 등록하면 자동으로 평가가 실행되고 결과가 승인을 위해 제시되며, 완전한 Unity 카탈로그 통합은 거버넌스와 감사 추적을 제공합니다. 이 동일한 모델 등록 워크플로우는 전통적인 ML 모델, 딥 러닝 모델, 그리고 GenAI 애플리케이션을 지원합니다.

배포 작업이 자동으로 추가 품질 검사를 실행하고 이해관계자들이 결과를 검토한 후, 개선된 챗봇은 모든 품질 게이트를 통과하고 생산에 승인됩니다. 이제 수천 명의 고객에게 서비스를 제공하게 될 것이므로, 애플리케이션에 도구를 추가하여 최종 사용자 피드백을 수집합니다:

대시보드

생산에 배포한 후, 대시보드는 고객들이 개선 덕분에 정확한 제품 추천을 받아 만족도가 높다는 것을 보여줍니다. LLM 판사로부터의 자동화된 품질 모니터링과 실시간 사용자 피드백의 조합은 애플리케이션이 가치를 제공하고 있다는 확신을 줍니다. 문제가 발생하면, 이를 빠르게 이해하고 해결할 수 있는 추적 및 피드백이 있습니다.

데이터를 통한 지속적인 개선

생산 데이터는 이제 개선을 위한 로드맵이 되었습니다. 이것으로 생산 인사이트에서 개발 개선까지의 지속적인 개선 사이클이 완성됩니다. 부정적인 피드백이 있는 추적을 평가 데이터셋으로 직접 내보냅니다. 버전 추적을 사용하여 배포를 비교하고 무엇이 작동하는지 확인합니다. 새로운 문제가 발생하면 체계적인 프로세스가 있습니다: 문제가 있는 추적을 수집하고, 전문가의 주석을 얻고, 앱을 업데이트하고, 확신을 가지고 배포합니다. 각 문제는 영구적인 테스트 케이스가 되어, 회귀를 방지하고 시간이 지남에 따라 더 강력한 애플리케이션을 구축합니다.

MLflow 3.0은 우리가 자신감을 가지고 Q&A 에이전트를 디버그하고 개선하는 데 필요한 가시성을 제공했습니다. 이전에는 수시간의 추측이 필요했던 것을 이제는 몇 분 안에 진단할 수 있으며, 각 검색, 추론 단계, 도구 호출에 대한 완전한 추적성을 가집니다."
— Toyota에서의 기술 리드인 Daisuke Hashimoto.

규모에 따라 확장 가능한 통합 플랫폼

MLflow 3.0은 이러한 AI 기능을 모두 하나의 플랫폼에서 결합합니다. 귀하의 GenAI 애플리케이션의 모든 세부 사항을 캡처하는 동일한 추적 인프라는 전통적인 ML 모델 서빙에 대한 가시성도 제공합니다. 동일한 배포 워크플로우는 딥 러닝 모델과 LLM 기반 애플리케이션 모두를 커버합니다. Unity Catalog와의 동일한 통합은 모든 유형의 AI 자산에 대한 전투 검증된 거버넌스 메커니즘을 제공합니다. 이 통합된 접근 방식은 복잡성을 줄이면서 모든 AI 이니셔티브에 대해 일관된 관리를 보장합니다.

MLflow 3.0의 개선 사항은 모든 AI 작업에 이점을 줍니다. 새로운 LoggedModel 추상화는 GenAI 애플리케이션의 버전 관리를 단순화하며, 깊은 학습 체크포인트를 훈련 반복에 걸쳐 추적하는 것도 단순화합니다. GenAI 버전이 그들의 추적과 메트릭에 연결되는 것처럼, 전통적인 ML 모델과 깊은 학습 체크포인트는 이제 훈련 실행, 데이터셋, 그리고 환경에 걸쳐 계산된 평가 메트릭과의 완전한 연계성을 유지합니다. Deployment Jobs는 모든 유형의 모델에 대한 자동화된 품질 게이트를 통해 고품질의 머신 러닝 배포를 보장합니다. 이것들은 MLflow 3.0이 모든 유형의 AI 자산의 통합 관리를 통해 클래식 ML 및 딥 러닝 모델에 가져온 개선 사항의 몇 가지 예입니다. 

Databricks에서 MLOps와 AI 관찰성의 기반이되는 MLflow 3.0은 Mosaic AI 플랫폼 전체와 원활하게 통합됩니다. MLflow는 모델, GenAI 애플리케이션, 프롬프트, 데이터셋의 중앙 집중식 거버넌스를 위해 Unity Catalog를 활용합니다. Databricks AI/BI를 사용하여 MLflow 데이터로부터 대시보드를 구축하고, AI 메트릭을 비즈니스 인사이트로 전환할 수도 있습니다.

MLflow 3.0 시작하기

GenAI를 처음 시작하는 경우든, 수백 개의 모델과 에이전트를 대규모로 운영하는 경우든, Databricks에서 관리하는 MLflow 3.0은 필요한 도구를 제공합니다. 이미 MLflow를 사용하고 있는 수천 개의 조직에 가입하고, 왜 AI 개발의 표준이 되었는지 알아보세요.

Databricks에서 무료로 관리되는 MLflow에 가입하십시오 MLflow 3.0을 몇 분 안에 사용하기 시작하세요. 엔터프라이즈 등급의 신뢰성, 보안, 그리고 Databricks Lakehouse Platform 전체와의 원활한 통합을 얻게 될 것입니다.

기존의 Databricks에서 관리하는 MLflow 사용자들은 MLflow 3.0으로 업그레이드하면 새로운 강력한 기능에 즉시 접근할 수 있습니다. 현재의 실험, 모델, 워크플로우는 계속해서 원활하게 작동하면서, 별도의 마이그레이션 없이 생성 AI 애플리케이션에 대한 생산 수준의 추적, LLM 판사, 온라인 모니터링 등을 얻게 됩니다.

다음 단계

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요