MLflow GenAI 평가를 위한 토큰 기반 가격 책정 소개
작성자: Avesh Singh, Euirim Choi, 삼라즈 무르자니 , 유키 와타나베
고품질 GenAI 에이전트는 지속적으로 평가되어야 합니다. 하지만 테스트 규모를 늘리면 비용이 예산을 초과할 수 있습니다. Databricks의 MLflow를 사용하면 팀이 비용 부담 없이 다양한 지표에 걸쳐 에이전트를 테스트할 수 있습니다.
에이전트가 프로토타입에서 프로덕션으로 전환됨에 따라 성공은 일반적인 벤치마크뿐만 아니라 도메인(예: 계약, 고객 지원, 제출 서류)을 이해하는 데 달려 있습니다. MLflow의 사전 정의된 판사는 프롬프트 엔지니어링에 의존하는 대신 정확성, 충실도, 관련성, 안전성 및 검색을 자동으로 평가하여 이를 돕습니다.
고객들은 프로덕션 규모에서 평가 비용을 개선할 수 있는 방법에 대해 저희에게 문의했습니다. 따라서 오늘 저희는 고정된 블록에 대한 비용을 지불하는 대신 판사에 대한 토큰 기반 가격 책정을 출시합니다.
10,000개의 추적에 대한 예시
이전
현재
토큰 기반 접근 방식은 비용을 대폭 절감하고 계산 방식을 완전히 투명하게 제공합니다.
효과적인 평가 프롬프트를 만드는 것은 특히 도메인별 애플리케이션의 경우 정확성과 토큰 효율성 간의 균형을 맞추는 것을 의미합니다. 팀은 각 그룹이 작업을 반복하면서 금융, 의료 또는 기술 문서에 대해 몇 주 동안 미세 조정합니다.
이를 돕기 위해 MLflow GenAI의 평가 프롬프트를 오픈 소싱합니다. 실제 시나리오에서 잘 작동하도록 금융, 의료, 기술 문서, 안전과 같은 산업별 컨텍스트에서 개선되었습니다. 그대로 사용하거나 특정 사용 사례에 맞게 조정하세요.
여기에서 프로덕션 등급 프롬프트를 탐색할 수 있습니다. 여기.
이 프롬프트는 다음을 포함한 엄격한 벤치마크에서 검증되었습니다.
내장 판사는 강력하지만 일부 조직에서는 완전한 제어가 필요합니다. 이제 추가 비용 없이 평가를 위해 자체 모델(OpenAI, Anthropic 또는 미세 조정된 모델)을 연결할 수 있습니다. 모델 사용량에 대해서만 비용을 지불하면 됩니다.
이를 통해 다음을 수행할 수 있습니다.
비용 효율적인 평가가 프로덕션 요구 사항에 맞게 확장될 수 없다면 의미가 없습니다. Databricks의 MLflow GenAI 평가는 다음을 제공합니다.
새로운 가격 책정 및 오픈 소스 프롬프트는 모든 Databricks 고객에게 즉시 제공됩니다. 시작하는 방법은 다음과 같습니다.
비용을 95% 절감하고 프로덕션에서 검증된 프롬프트를 오픈 소싱함으로써 대규모 평가를 가능하게 합니다. 금융, 의료 또는 CX 분야에 관계없이 예산을 초과하지 않고 에이전트 품질을 지속적으로 모니터링할 수 있습니다.
에이전트 평가 전략을 혁신할 준비가 되셨나요? 무료로 시작하거나 문서를 살펴보세요.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.