주요 컨텐츠로 이동

95% 더 낮은 비용으로 고품질의 도메인별 에이전트 구축

MLflow GenAI 평가를 위한 토큰 기반 요금제 소개

Introducing Token Based Pricing for Agent Evaluation

Published: October 15, 2025

제품2분 소요

Summary

  • 95% 절감된 평가 비용: MLflow의 새로운 토큰 기반 가격 책정은 엄격함을 유지하면서 일일 평가 비용을 절감합니다.
    오픈소스 프롬프트: 금융, 의료, 기술 문서, 안전 등 다양한 분야에 걸쳐 프로덕션 테스트를 거친 평가 프롬프트에 액세스하세요.
  • 유연한 Judge(심사위원) 옵션: 내장된 최적화 모델을 사용하거나 자체 LLM을 가져와 대규모로 규정 준수, 비용 및 도메인별 요구 사항을 충족합니다.

고품질 GenAI 에이전트는 지속적으로 평가해야 합니다. 하지만 테스트 규모를 확장하면 비용이 예산을 초과할 수 있습니다. Databricks의 MLflow를 사용하면 팀은 비용 장벽 없이 다양한 지표에 걸쳐 에이전트를 테스트할 수 있습니다.

사전 정의된 Judge(심사위원)를 위한 새로운 토큰 기반 요금 모델

에이전트가 프로토타입에서 프로덕션으로 전환됨에 따라 성공은 일반적인 벤치마크뿐만 아니라 계약, 고객 지원, 서류 제출과 같은 도메인을 이해하는 데 달려 있습니다. MLflow의 사전 정의된 Judge(심사위원)는 프롬프트 엔지니어링에 의존하는 대신 정확성, 충실성, 관련성, 안전성, 검색을 자동으로 평가하여 도움을 줍니다.

고객들은 프로덕션 규모에서 평가 비용을 개선할 수 있는 방법을 검토해 달라고 요청했습니다. 그래서 오늘 저희는 고정 블록 결제 방식이 아닌 Judge(심사위원)를 위한 토큰 기반 요금제를 출시합니다.

  • 백만 입력 토큰당 $0.15의 요금이 부과됩니다.
  • 그리고 출력 토큰 1백만 개당 $0.60
  • 평균적으로 정확도 손실 없이 비용이 약 95% 절감됩니다.

10,000개 추적에 대한 예시

이전

  • Judge 요청당 $0.0175
  • 요청당 5,000개 토큰
  • 결과: 10,000개 트레이스 × 5명의 저지 = 하루 $875

현재

  • 입력 토큰 1백만 개당 $0.15
  • 출력 토큰 1백만 개당 $0.60
  • 결과: 10,000개 추적 × Judge 5명 = $45/일
    • 입력: 50,000개 요청 × 4,000개 토큰 × $0.15/1백만 = $30
    • 출력: 50,000개 요청 × 500개 토큰 × $0.60/1백만 = $15

토큰 기반 접근 방식을 통해 비용을 대폭 절감하고 비용 계산 방식에 대한 완전한 투명성을 확보할 수 있습니다.

MLflow의 Trace는 LLM 평가자가 자동으로 평가하거나 인간 주석가가 평가할 수 있습니다.
Traces in MLflow can be automatically assessed by LLM judges, or by human annotators.

실전 테스트를 거친 평가 프롬프트 오픈소싱

효과적인 평가 프롬프트를 작성하는 것은 특히 도메인별 애플리케이션의 경우 정확도와 토큰 효율성 간의 균형을 맞추는 것을 의미합니다. 팀은 금융, 의료 또는 기술 문서를 위해 프롬프트를 미세 조정하는 데 몇 주를 소비하며 각 그룹은 반복적인 작업을 수행합니다.

이를 돕기 위해 MLflow GenAI의 기반이 되는 평가 프롬프트를 오픈소스로 공개합니다. 이 프롬프트는 금융, 의료, 기술 문서, 안전과 같은 산업별 컨텍스트에 걸쳐 실제 시나리오에서 우수한 성능을 발휘하도록 개선되었습니다. 그대로 사용하거나 특정 사용 사례에 맞게 조정하여 사용하세요.

프로덕션 등급 프롬프트는 여기에서 살펴볼 수 있습니다. 

이 프롬프트는 다음을 포함한 엄격한 벤치마크에서 검증되었습니다.

  • FinanceBench: 금융 문서 질문 답변
  • HotPotQA: 문서 간 멀티홉 추론
  • DocsQA: 기술 문서 이해
  • RAGTruth: 검색 증강 생성 정확도
  • 자연어 질문: 실제 Google 검색어
  • HarmBench: LLM 안전성
  • Databricks 고객 데이터세트(허가 하에 사용)

내장된 Judge(심사위원) 외에 자체 모델 사용하기

저희의 내장 Judge(심사위원)는 강력하지만 일부 조직에서는 완전한 제어가 필요합니다. 이제 추가 비용 없이 자체 모델(OpenAI, Anthropic 또는 파인튜닝된 모델)을 연결하여 평가할 수 있습니다. 모델 사용량에 대해서만 비용을 지불하면 됩니다.

이를 통해 다음을 수행할 수 있습니다.

  • 모델 선택에 대한 특정 규정 준수 요구 사항 충족
  • LLM 공급업체와의 기존 엔터프라이즈 계약 활용
  • 자체 데이터로 학습된 특화 모델 사용
  • 전체 평가 파이프라인 제어

첫날부터 프로덕션에 사용 가능

프로덕션 요구 사항에 맞춰 확장할 수 없다면 비용 효율적인 평가는 의미가 없습니다. Databricks에서의 MLflow GenAI 평가는 다음을 제공합니다.

  • Unity Catalog 통합: 엔터프라이즈급 보안으로 추적 및 평가 데이터 관리
  • Delta Lake 스토리지: 트레이스 및 평가 데이터를 Delta 형식으로 저장하여 트레이스 및 평가 데이터로 맞춤형 대시보드와 데이터 파이프라인을 구축할 수 있습니다.
  • 전체 MLflow 통합: MLflow에서 직접 추적 및 평가 결과 보기
  • 서버리스 컴퓨팅: 인프라 관리 없이 사용한 만큼만 비용 지불

오늘 시작하기

모든 Databricks 고객은 새로운 요금제와 오픈 소스 프롬프트를 즉시 사용할 수 있습니다. 시작하는 방법은 다음과 같습니다.

  1. 기존 MLflow 평가 사용자: Judge(심사위원)에 새로운 요금 모델이 자동으로 적용되므로 별도의 조치가 필요하지 않습니다.
  2. 신규 사용자: 빠른 시작 가이드로 시작하세요. Databricks에서 AI 에이전트를 빌드하는 방법을 이해하기 위해 최신 강좌를 살펴볼 수도 있습니다.
    1. AI 에이전트 기본 사항: AI 에이전트가 조직에 가치를 창출하는 방법에 대한 실제 예시를 통해 AI 에이전트의 기본을 다루는 90분 입문 과정입니다.
    2. AI 에이전트 시작하기: 2시간 남짓한 시간 안에 이론부터 Databricks에서 첫 번째 에이전트를 구축하고 배포하는 과정까지 알아보세요.
  3. MLflow OSS 사용자: MLflow 3.4.0 이상으로 업데이트하여 오픈소스 프롬프트에 액세스하세요.

GenAI 애플리케이션 평가의 새로운 장

비용을 95% 절감하고 프로덕션에서 검증된 프롬프트를 오픈소싱하여 대규모 평가에 대한 접근성을 높입니다. 금융, 의료, CX 등 어떤 분야에서든 예산에 부담 없이 에이전트 품질을 지속적으로 모니터링할 수 있습니다.

에이전트 평가 전략을 혁신할 준비가 되셨나요? 무료로 시작 하거나 설명서를 살펴보세요.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요