MLflow GenAI 평가를 위한 토큰 기반 요금제 소개
작성자: Avesh Singh, Euirim Choi, 삼라즈 무르자니 , 유키 와타나베
고품질 GenAI 에이전트는 지속적으로 평가해야 합니다. 하지만 테스트 규모를 확장하면 비용이 예산을 초과할 수 있습니다. Databricks의 MLflow를 사용하면 팀은 비용 장벽 없이 다양한 지표에 걸쳐 에이전트를 테스트할 수 있습니다.
에이전트가 프로토타입에서 프로덕션으로 전환됨에 따라 성공은 일반적인 벤치마크뿐만 아니라 계약, 고객 지원, 서류 제출과 같은 도메인을 이해하는 데 달려 있습니다. MLflow의 사전 정의된 Judge(심사위원)는 프롬프트 엔지니어링에 의존하는 대신 정확성, 충실성, 관련성, 안전성, 검색을 자동으로 평가하여 도움을 줍니다.
고객들은 프로덕션 규모에서 평가 비용을 개선할 수 있는 방법을 검토해 달라고 요청했습니다. 그래서 오늘 저희는 고정 블록 결제 방식이 아닌 Judge(심사위원)를 위한 토큰 기반 요금제를 출시합니다.
10,000개 추적에 대한 예시
이전
현재
토큰 기반 접근 방식을 통해 비용을 대폭 절감하고 비용 계산 방식에 대한 완전한 투명성을 확보할 수 있습니다.
효과적인 평가 프롬프트를 작성하는 것은 특히 도메인별 애플리케이션의 경우 정확도와 토큰 효율성 간의 균형을 맞추는 것을 의미합니다. 팀은 금융, 의료 또는 기술 문서를 위해 프롬프트를 미세 조정하는 데 몇 주를 소비하며 각 그룹은 반복적인 작업을 수행합니다.
이를 돕기 위해 MLflow GenAI의 기반이 되는 평가 프롬프트를 오픈소스로 공개합니다. 이 프롬프트는 금융, 의료, 기술 문서, 안전과 같은 산업별 컨텍스트에 걸쳐 실제 시나리오에서 우수한 성능을 발휘하도록 개선되었습니다. 그대로 사용하거나 특정 사용 사례에 맞게 조정하 여 사용하세요.
프로덕션 등급 프롬프트는 여기에서 살펴볼 수 있습니다.
이 프롬프트는 다음을 포함한 엄격한 벤치마크에서 검증되었습니다.
저희의 내장 Judge(심사위원)는 강력하지만 일부 조직에서는 완전한 제어가 필요합니다. 이제 추가 비용 없이 자체 모델(OpenAI, Anthropic 또는 파인튜닝된 모델)을 연결하여 평가할 수 있습니다. 모델 사용량에 대해서만 비용을 지불하면 됩니다.
이를 통해 다음을 수행할 수 있습니다.
프로덕션 요구 사항에 맞춰 확장할 수 없다면 비용 효율적인 평가는 의미가 없습니다. Databricks에서의 MLflow GenAI 평가는 다음을 제공합니다.
모든 Databricks 고객은 새로운 요금제와 오픈 소스 프롬프트를 즉시 사용할 수 있습니다. 시작하는 방법은 다음과 같습니다.
비용을 95% 절감하고 프로덕션에서 검증된 프롬프트를 오픈소싱하여 대규모 평가에 대한 접근성을 높입니다. 금융, 의료, CX 등 어떤 분야에서든 예산에 부담 없이 에이전트 품질을 지속적으로 모니터링할 수 있습니다.
에이전트 평가 전략을 혁신할 준비가 되셨나요? 무료로 시작 하거나 설명서를 살펴보세요.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.