많은 팀이 GenAI 프로젝트를 파일럿에서 프로덕션 단계로 전환하는 데 어려움을 겪습니다. 고객 만족에 필수적인 품질 요구 사항을 측정하거나 충족할 수 없어 어려움을 겪기 때문입니다. 프로덕션에 도달한 팀은 회귀 및 예측 불가능한 출력 품질 변화에 직면하여 안전하게 반복 작업을 수행하는 데 어려움을 겪는 경우가 많습니다.
Databricks는 고객이 Judge Builder와 같은 솔루션을 통해 체계적인 평가 인프라를 구축하도록 지원하여 이러한 문제를 해결하는 동시에 시간이 지남에 따라 복합적인 전략적 가치를 창출합니다. 이 게시물에서 논의하는 평가 방법론은 Agent Bricks 의 기반이 되는 동일한 연구 중심 접근 방식을 반영하며, Databricks AI 플랫폼 전반에서 에이전트 품질을 측정, 모니터링, 지속적으로 개선하는 방법의 토대를 형성합니다.
운영 측면에서 평가는 성능 변화를 정량화하고 특정 비즈니스 요구사항에 대한 배포 결정을 알려줌으로써 더 빠른 배포를 가능하게 합니다. 강력하고 지속적인 평가는 성능, 안전, 규정 준수 표준을 일관되게 충족하면서 기업 전체에 AI 애플리케이션을 확장하는 데 필요한 확신을 제공합니다.
전략적 측면에서 생성된 평가 데이터(사람의 피드백, 모델 판단, 에이전트 추적)는 재사용 가능한 자산이 됩니다. 고객은 이 데이터를 활용하여 미래의 모델을 훈련하고, 진화하는 에이전트 워크플로를 검증하며, 빠르게 발전하는 AI 환경에서 다음에 등장할 모든 것에 적응할 수 있습니다. 평가는 조직의 전문 지식을 지속적인 경쟁 우위로 체계화합니다.
강력한 AI 시스템 평가와 이에 상응하는 신뢰할 수 있는 AI 시스템을 구축하는 것은 여러 부서에 걸친 중요한 조직적 과제이며, 다음 각 차원에 걸쳐 명확한 전략적 접근이 필요합니다.
- 조직의 Judge 포트폴리오 설계 및 우선순위 지정: 다양한 이해관계자가 측정할 가치가 있는 품질 차원에 대해 합의하도록 지원
- 전문 지식의 정확하고 신뢰성 있는 체계화: 최소한의 노력과 노이즈로 제한된 전문가 집단으로부터 주제 전문 지식을 포착하고 인코딩
- 기술적 실행: 심사자(judge)에 대한 신속한 반복 작업과 배포, 그 리고 대규모의 강력한 측정, 감사 가능성, 거버넌스를 지원하는 툴링 구축
이 블로그 게시물의 나머지 부분에서는 이 세 가지 차원을 각각 살펴보고 고객이 이러한 문제를 해결하도록 돕는 방법을 알아봅니다. Judge Builder 는 이러한 경험을 바탕으로 구축되었으며 이 프로세스를 간소화하여 팀이 대규모로 심사자(judge)를 신속하게 개발, 테스트 및 배포할 수 있도록 지원합니다. 맞춤형 LLM 심사자(judge) 개발에 협력하는 데 관심이 있으시면 담당 어카운트 팀에 문의해 주세요.
조직의 Judge 포트폴리오 설계 및 우선순위 지정
LLM Judge는 단순한 측정을 넘어선 역할을 합니다. LLM Judge는 제품 사양의 역할을 하는 동시에 팀이 이를 기준으로 최적화함에 따라 실제 모델 동작을 근본적으로 형성합니다. 따라서 잘못 보정되거나 결함이 있는 Judge는 애플리케이션의 품질과 관련 없는 신호를 수집하고 완전히 잘못된 것을 위해 최적화하는 결과를 낳을 수 있습니다.
따라서 Judge를 만들고 보정하기 전에 팀은 먼저 어떤 Judge가 필요한지 결정해야 합니다. 이 논의에는 다양한 이해관계자가 참여해야 합니다. 일부 Judge는 여러 팀에서 공유할 수 있으므로, 고품질 Judge에 투자하면 조직 전체의 GenAI 개발을 가속화하고 큰 이점을 얻을 수 있습니다.
저희는 고객이 정확한 품질 차원에 초점을 맞춰 Judge를 정의하도록 조언합니다. 예를 들어, '응답이 관련성 있고, 사실에 기반하며, 간결한가'를 평가하는 Judge는 세 개의 개별 Judge로 분해해야 합니다.
단일 종합 Judge는 근본 원인을 파악하기 어렵게 만듭니다. 실패한 '전반적인 품질' 점수는 무언가 잘못되었다는 것을 알려주지만 무엇을 수정해야 하는지는 알려주지 않습니다. 분해된 Judge는 평가를 실행 가능한 디버깅으로 전환합니다. 품질이 저하되면 사실성 문제인지, 관련성 문제인지, 또는 서식 문제인지 즉시 알 수 있으며, 이에 따라 개선 노력을 집중할 수 있습니다. 하지만 이는 심사자(judge)의 급증으로 이어질 수도 있으므로 우선순위를 정하는 것이 중요합니다.
심사자(judge) 선택은 하향식과 상향식 고려 사항을 모두 결합해야 합니다:
하향식: 처음부터 관련성이 있는 것으로 알려진 품질 요구사항입니다.
- 이러한 고려 사항을 바탕으로 도출된 심사자는 지속적인 모니터링 작업에서 핵심적인 역할을 하는 경우가 많습니다.
- 예를 들어 규범적인 의학적 조언을 제공하지 않도록 하고, 비즈니스와 관련 없는 질문에 대한 답변을 거부하며, 서식 가이드라인을 준수하는 것 등이 있습니다.
- 이는 규제 요건, 비즈니스 이해관계자 관점, 기업 스타일 요건 등을 포함하되 이에 국한되지 않는 다양한 정보를 기반으로 할 수 있습니다.
상향식: 이 접근 방식은 모델의 출력에서 관찰된 실제 실패 모드를 식별합니다.
- 이러한 심사자(judge)는 해결이 필요한 특정 문제를 정확히 찾아내는 데 중요하며, 성능 개선을 위해 오프라인 평가에서 많이 사용됩니다.
- 몇 가지 예로는 반복적인 출력, 구분 기호의 잘못된 사용, 비즈니스 전 문 용어에 대한 오해 등이 있습니다.
- 이러한 실패 모드와 Judge를 파악하는 기법으로는 개방 코딩 및 축 코딩[1]과 같은 기법과, 실패의 고유한 범주를 발견하고 정의하기 위한 알고리즘 clusters 등이 있습니다.
예를 들어, 한 고객은 AI가 정확한 정보를 인용하도록 정확성에 대한 하향식 Judge를 구축했습니다. 에이전트 추적에 대한 상향식 분석을 통해 그들은 정확한 응답이 거의 항상 상위 두 개의 검색 결과를 인용한다는 패턴을 발견했습니다. 이 인사이트는 실측 정보 레이블을 사용할 수 없는 프로덕션 환경에서 정확성을 대리할 수 있는 새로운 심사자(judge)가 되었습니다. 두 가지 접근 방식을 조합하여 어느 하나만 사용하는 것보다 더 강력한 평가 시스템을 만들고 대규모 실시간 모니터링을 지원했습니다.
목표는 애플리케이션의 가장 우선순위가 높은 품질 차원을 정확하게 반영하는 최소한의 Judge 집합을 찾는 것입니다. 가장 효과적인 접근 방식은 하향식 인사이트와 상향식 인사이트를 모두 결합하여 Judge가 포괄적이면서도 애플리케이션의 실제 성능과 관련이 있도록 보장하는 것입니다.
이것은 반복적인 프로세스입니다. 애플리케이션의 품질과 요구사항이 발전함에 따라 Judge 포트폴리오도 함께 발전할 것입니다. Judge를 시스템과 함께 성장하는 살아있는 결과물로 취급하세요.
전문 지식의 정확하고 신뢰성 있는 체계화
출력이 주관적이고, 문맥에 따라 다르며, 평가에 전문 지식이 필요한 도메인별 작업의 경우 '
