주요 컨텐츠로 이동
제품

95% 더 저렴한 비용으로 고품질의 도메인별 에이전트 구축

MLflow GenAI 평가를 위한 토큰 기반 가격 책정 소개

작성자: Avesh Singh, Euirim Choi, 삼라즈 무르자니 , 유키 와타나베

  • 95% 낮은 평가 비용: MLflow의 새로운 토큰 기반 가격 책정으로 엄격함을 희생하지 않고 일일 평가 비용을 절감합니다.
  • 오픈 소스 프롬프트: 금융, 의료, 기술 문서, 안전 등 다양한 분야의 프로덕션 테스트 평가 프롬프트를 이용하세요.
  • 유연한 평가자 옵션: 내장된 최적화 모델을 사용하거나 자체 LLM을 가져와 규정 준수, 비용 및 도메인별 요구 사항을 대규모로 충족하세요.

고품질 GenAI 에이전트는 지속적으로 평가되어야 합니다. 하지만 테스트 규모를 늘리면 비용이 예산을 초과할 수 있습니다. Databricks의 MLflow를 사용하면 팀이 비용 부담 없이 다양한 지표에 걸쳐 에이전트를 테스트할 수 있습니다.

사전 정의된 판사의 새로운 토큰 기반 가격 책정 모델

에이전트가 프로토타입에서 프로덕션으로 전환됨에 따라 성공은 일반적인 벤치마크뿐만 아니라 도메인(예: 계약, 고객 지원, 제출 서류)을 이해하는 데 달려 있습니다. MLflow의 사전 정의된 판사는 프롬프트 엔지니어링에 의존하는 대신 정확성, 충실도, 관련성, 안전성 및 검색을 자동으로 평가하여 이를 돕습니다.

고객들은 프로덕션 규모에서 평가 비용을 개선할 수 있는 방법에 대해 저희에게 문의했습니다. 따라서 오늘 저희는 고정된 블록에 대한 비용을 지불하는 대신 판사에 대한 토큰 기반 가격 책정을 출시합니다.

  • 입력 토큰 백만 개당 $0.15가 청구됩니다.
  • 출력 토큰 백만 개당 $0.60가 청구됩니다.
  • 평균적으로 정확도 손실 없이 비용이 약 95% 감소합니다.

10,000개의 추적에 대한 예시

이전

  • 판사 요청당 $0.0175
  • 요청당 5,000 토큰
  • 결과: 10,000개의 추적 × 5명의 판사 = $875/일

현재

  • 입력 토큰 100만 개당 $0.15
  • 출력 토큰 100만 개당 $0.60
  • 결과: 10,000개의 추적 × 5명의 판사 = $45/일
    • 입력: 50,000개 요청 × 4,000 토큰 × $0.15/1M = $30
    • 출력: 50,000개 요청 × 500 토큰 × $0.60/1M = $15

토큰 기반 접근 방식은 비용을 대폭 절감하고 계산 방식을 완전히 투명하게 제공합니다.

MLflow의 추적은 LLM 판사 또는 인간 주석가에 의해 자동으로 평가될 수 있습니다.
MLflow의 추적은 LLM 판사 또는 인간 주석가에 의해 자동으로 평가될 수 있습니다.

전투 테스트된 평가 프롬프트 오픈 소싱

효과적인 평가 프롬프트를 만드는 것은 특히 도메인별 애플리케이션의 경우 정확성과 토큰 효율성 간의 균형을 맞추는 것을 의미합니다. 팀은 각 그룹이 작업을 반복하면서 금융, 의료 또는 기술 문서에 대해 몇 주 동안 미세 조정합니다.

이를 돕기 위해 MLflow GenAI의 평가 프롬프트를 오픈 소싱합니다. 실제 시나리오에서 잘 작동하도록 금융, 의료, 기술 문서, 안전과 같은 산업별 컨텍스트에서 개선되었습니다. 그대로 사용하거나 특정 사용 사례에 맞게 조정하세요.

여기에서 프로덕션 등급 프롬프트를 탐색할 수 있습니다. 여기.

이 프롬프트는 다음을 포함한 엄격한 벤치마크에서 검증되었습니다.

  • FinanceBench: 금융 문서 질의 응답
  • HotPotQA: 문서 간 다중 홉 추론
  • DocsQA: 기술 문서 이해
  • RAGTruth: 검색 증강 생성 정확도
  • Natural Questions: 실제 Google 검색어
  • HarmBench: LLM 안전성
  • Databricks 고객 데이터 세트(허가 시)

내장 판사 이상: 자체 모델 가져오기

내장 판사는 강력하지만 일부 조직에서는 완전한 제어가 필요합니다. 이제 추가 비용 없이 평가를 위해 자체 모델(OpenAI, Anthropic 또는 미세 조정된 모델)을 연결할 수 있습니다. 모델 사용량에 대해서만 비용을 지불하면 됩니다.

이를 통해 다음을 수행할 수 있습니다.

  • 모델 선택에 대한 특정 규정 준수 요구 사항 충족
  • LLM 제공업체와의 기존 엔터프라이즈 계약 활용
  • 자체 데이터로 학습된 특수 모델 사용
  • 전체 평가 파이프라인 제어

첫날부터 프로덕션 준비 완료

비용 효율적인 평가가 프로덕션 요구 사항에 맞게 확장될 수 없다면 의미가 없습니다. Databricks의 MLflow GenAI 평가는 다음을 제공합니다.

  • Unity Catalog 통합: 엔터프라이즈급 보안으로 추적 및 평가 데이터 관리
  • Delta Lake 스토리지: 추적 및 평가 데이터를 Delta 형식으로 저장하여 추적 및 평가 데이터에서 사용자 지정 대시보드 및 데이터 파이프라인 구축 가능
  • 전체 MLflow 통합: MLflow에서 직접 추적 및 평가 결과 보기
  • 서버리스 컴퓨팅: 인프라 관리 없이 사용한 만큼만 비용 지불

오늘 시작하기

새로운 가격 책정 및 오픈 소스 프롬프트는 모든 Databricks 고객에게 즉시 제공됩니다. 시작하는 방법은 다음과 같습니다.

  1. 기존 MLflow 평가 사용자: 판사는 자동으로 새로운 가격 책정 모델을 사용합니다. 작업이 필요하지 않습니다.
  2. 신규 사용자: 빠른 시작 가이드에서 시작하세요. Databricks에서 AI 에이전트 구축 방법을 이해하기 위해 최신 과정을 살펴볼 수도 있습니다.
    1. AI 에이전트 기초: AI 에이전트의 기본 사항과 조직에 가치를 창출하는 실제 사례에 대한 90분 소개 과정입니다.
    2. AI 에이전트 시작하기: 2시간이 조금 넘는 시간 동안 이론에서 Databricks에서 첫 번째 에이전트를 구축하고 배포하는 과정까지 진행합니다.
  3. MLflow OSS 사용자를 위한: 오픈 소스 프롬프트를 사용하려면 MLflow 3.4.0 이상으로 업데이트하세요.

생성형 AI 애플리케이션 평가를 위한 새로운 장

비용을 95% 절감하고 프로덕션에서 검증된 프롬프트를 오픈 소싱함으로써 대규모 평가를 가능하게 합니다. 금융, 의료 또는 CX 분야에 관계없이 예산을 초과하지 않고 에이전트 품질을 지속적으로 모니터링할 수 있습니다.

에이전트 평가 전략을 혁신할 준비가 되셨나요? 무료로 시작하거나 문서를 살펴보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.