고품질 GenAI 에이전트는 지속적으로 평가해야 합니다. 하지만 테스트 규모를 확장하면 비용이 예산을 초과할 수 있습니다. Databricks의 MLflow를 사용하면 팀은 비용 장벽 없이 다양한 지표에 걸쳐 에이전트를 테스트할 수 있습니다.
에이전트가 프로토타입에서 프로덕션으로 전환됨에 따라 성공은 일반적인 벤치마크뿐만 아니라 계약, 고객 지원, 서류 제출과 같은 도메인을 이해하는 데 달려 있습니다. MLflow의 사전 정의된 Judge(심사위원)는 프롬프트 엔지니어링에 의존하는 대신 정확성, 충실성, 관련성, 안전성, 검색을 자동으로 평가하여 도움을 줍니다.
고객들은 프로덕션 규모에서 평가 비용을 개선할 수 있는 방법을 검토해 달라고 요청했습니다. 그래서 오늘 저희는 고정 블록 결제 방식이 아닌 Judge(심사위원)를 위한 토큰 기반 요금제를 출시합니다.
10,000개 추적에 대한 예시
이전
현재
토큰 기반 접근 방식을 통해 비용을 대폭 절감하고 비용 계산 방식에 대한 완전한 투명성을 확보할 수 있습니다.
