주요 컨텐츠로 이동

신뢰성 있는 판단: PGRM, 프롬프터블 보상 모델을 만나보세요


이 포스트 공유하기
Judging with Confidence: Meet PGRM, the Promptable Reward Model

AI는 기업의 운영 방식을 변화시키고 있지만, AI 시스템이 정말로 도움이 되고 안전하며 귀하의 요구 사항과 일치하는지를 보장하는 것은 여전히 주요한 도전 과제입니다 - 특히 규모를 키워 생산에 투입할 때입니다. 수동 검토는 느리고 비용이 많이 들며, 기존의 모니터링 도구는 유연성이 부족하거나 비효율적이거나 투명성이 부족할 수 있습니다. 깊은 전문 지식이 필요 없는 단일, 적응 가능한 도구로 AI의 행동을 신뢰성 있게 모니터링하고 평가하고 제어할 수 있다면 어떨까요?

여기서 Databricks의 새로운 Prompt-Guided Reward Model (PGRM)이 등장합니다. PGRM을 AI의 품질 관리 검사관으로 생각해보세요. 새로운 규칙에 즉시 적응하고, 불확실한 경우를 검토하기 위해 플래그를 설정하며, 모든 결정에 대해 확신을 가진 명확한 점수를 제공할 수 있습니다. LLM 판사처럼 유연하면서도 목적에 맞게 효율적이고 조정된 분류기처럼 작동합니다. 안전 지침을 강제하든, 사실적인 정확성을 보장하든, 브랜드와 일치하는 출력을 원하든, PGRM은 이를 대규모로 투명하게 가능하게 합니다.

왜 이것이 중요한가요? PGRM을 사용하면 다음과 같은 작업을 수행할 수 있습니다:

  • 단일 적응형 프롬프트로 LLM 가드레일과 평가를 통합하세요
  • 전문가의 시간을 가장 중요한 곳에 집중시키세요
  • 당신의 필요성이 변화함에 따라 감독을 조정하십시오 - 처음부터 다시 훈련할 필요 없이

뿐만 아니라, PGRM은 고급 보상 모델링 워크플로우를 지원하여 AI에서 최상의 응답을 자동으로 찾아내고, 강화 학습으로 모델을 특정 요구 사항에 맞게 미세 조정하고, 수동 노력을 크게 줄이면서 지속적인 개선을 추진할 수 있습니다.

PGRM은 LLM 판사와 보상 모델의 장점을 모두 제공합니다. LLM 판사로서, 그것은 판단 품질을 측정하는 내부 벤치마크에서 83.3% 의 평균 정확도를 달성하며, 답변의 정확성과 문맥에 대한 충실성과 같은 주요 평가 작업에서 GPT-4o (83.6%)와 일치합니다. 보상 모델로서, RewardBench2라는 새롭고 어려운 공개 벤치마크에서 PGRM은 순차 분류기로서 2위, 전체적으로는 4위를 차지하며, 전체 점수는 80.0으로 대부분의 전용 보상 모델을 앞질러 GPT-4o (64.9) 및 Claude 4 Opus (76.5)와 같은 최첨단 LLM을 미세한 보상 평가에서 능가합니다. 이로 인해 PGRM은 효율성을 저하시키지 않고 지시 가능한 판단과 고정밀 보상 모델링 모두에서 최첨단 결과를 제공하는 첫 번째 모델이 됩니다.

이제 PGRM이 전통적인 보상 모델과 유연한 LLM 판사 사이의 간극을 어떻게 연결하는지, 그리고 신뢰할 수 있는 AI를 구축하는 데 어떤 의미를 가지는지 자세히 살펴보겠습니다.

PGRM: 새롭고, 지시 가능한 하이브리드

AI 행동의 확장 가능한 감독이 필요한 시기는 언제나보다 더 큽니다. 이 문제에 대한 가장 일반적인 자동화된 해결책은 LLM을 사용하여 AI 시스템이 가이드라인에 따라 적절하게 행동했는지 "판단"하는 것입니다. 이 판사 접근법은 LLM이 다양한 자연어 지시를 따르는 능력에 의존합니다. 예를 들어, LLM 판사에게 다양한 입력을 어떻게 평가할지 설명하는 루브릭을 제공합니다. 출력이 "안전한", "진실한", "브랜드에 맞는"지 알고 싶으신가요? 루브릭을 변경하면 됩니다. 그러나, LLM 판사들은 비용이 많이 들고, 자신들의 판단 정확도에 대한 자신감을 추정하는 데 있어 악명이 높습니다.

보상 모델(RMs)에 대해 어떻게 생각하십니까? 이들은 인공지능의 응답을 어떻게 평가할지 예측하는데 훈련된 특수한 유형의 분류기입니다. RMs는 일반적으로 RLHF와 같은 기법에서 인간의 선호도와 기반 모델을 일치시키는 데 사용됩니다. 그들은 출력을 생성할 필요가 없으므로 효율적이고 확장 가능하며, AI가 생성한 많은 응답 중에서 가장 좋은 응답을 찾는 데 유용합니다. LLM 판사와 달리, 그들은 보정되어 있습니다: 예측을 생성하는 것 외에도, 그 예측이 맞는지에 대해 얼마나 확실하거나 불확실한지를 정확하게 추측합니다. 하지만 그들은 일반적으로 평가나 모니터링과 같은 것들에 대한 대화에는 참여하지 않습니다, 아마도 LLM 판사의 지시 가능성을 부족하기 때문일 것입니다. 대신, 각 RM은 고정된 사양이나 기준 세트에 맞춰 조정되며, "좋은"의 정의를 업데이트하거나 조정하는 것은 처음부터 비싼 재교육을 의미합니다. 이러한 이유로, RMs는 일반적으로 RLHF, 최고의 N과 같은 테스트 시간 계산 워크플로우, 또는 TAO와 같은 RL 미세 조정 방법에만 고려됩니다.

판단과 보상 모델링은 종종 별개로 취급되지만 같은 동전의 양면이기 때문에 PGRM을 개발했습니다. PGRM은 RM 형태의 LLM 판사를 패키징함으로써 이 간극을 메웁니다. 결과적으로, RM의 속도와 보정력과 LLM 판사의 지시 가능성을 결합한 모델이 탄생하였고, 이는 양쪽 모두에서 새로운 잠재력을 해제하는 혼합체를 만들어냈습니다.

 보상 모델LLM JudgePGRM
지시 가능
확장성
보정된

이러한 주요 개념 중 일부를 정의해 봅시다. 지시 가능 은 시스템이 예제가 어떻게 점수를 매기거나 판단되어야 하는지 설명하는 임의의 자연어 지시를 허용한다는 것을 의미합니다. 간단한 예로, “프랑스의 수도는 무엇입니까? 파리.”는 ‘정확하게 대답하라’는 가이드라인이라면 좋지만 ‘완전한 문장으로 대답하라’는 가이드라인이라면 나쁠 수 있습니다. 지시 가능한 시스템은 이러한 규칙을 정의할 수 있게 해줍니다. 확장 가능한 접근법은 LLM과 관련된 오버헤드 (즉, 텍스트 생성에 소요되는 시간과 비용)를 피하는 것입니다. 마지막으로, 고수준에서 보면, 조정된 은 시스템이 무언가를 좋거나 나쁘게 판단하는 것뿐만 아니라 얼마나 확신 하는지도 전달한다는 것을 의미합니다. 좋은 보정은 어떤 LLM 출력이 가장 문제가 될 가능성이 높은지 우선 순위를 정하고 후보 집합 중에서 최상의 응답을 식별하는 등 많은 작업에 유용합니다. 또한 평가 맥락에서 해석 가능성과 제어의 층을 추가합니다. PGRM은 이러한 모든 기능을 하나의 모델로 결합합니다.

PGRM을 작업에 활용하기

PGRM은 Databricks에서 AI를 위한 새로운 툴킷을 제공하고, RM 기반 방법에 대한 새로운 수준의 사용자 정의를 추가하여 AI 시스템을 개선합니다. PGRM이 AI 개발 생명주기를 어떻게 재구성할 수 있는지에 대해 알아봅시다:

  • 간소화된 감독: 단일 조정 가능한 프롬프트로 가드레일과 판사를 모두 관리하는 것을 상상해보세요. PGRM의 지시 가능성은 평가 노력을 집중시키고 AI를 변화하는 비즈니스 규칙과 일치시키는 데 도움이 됩니다 - 모두 하나의 프롬프트로 가능합니다.
  • 대상 지향적 품질 분류 및 더 스마트한 라벨링: PGRM의 보정된 신뢰 점수는 전문가의 주의가 필요한 모호한 경우를 찾아내는 데 도움이 됩니다. 이는 AI 시스템을 검토하는 데 들어가는 노력을 줄이고, 고품질 데이터셋을 더 빠르게 구성하는 것을 의미합니다.
  • 도메인 전문가 조정: "좋은" 또는 "나쁜" 응답이 무엇인지를 조직의 기준에 맞게 쉽게 조정할 수 있습니다. PGRM의 조정 가능한 점수는 자동 판단이 전문가와 동기화되도록 돕고, 신뢰성을 높이고 정확성을 향상시킵니다.
  • 지속적인 모델 개선: PGRM의 보상 모델링 기능을 활용하여 TAO동안 최고의 AI 응답을 자동으로 찾아내고 홍보하십시오 - "최고"가 무엇을 의미하는지에 대한 완전한 통제권을 가집니다. PGRM으로 모델을 미세 조정함으로써 품질, 안전성, 일치성에 대한 목표 지향적인 개선을 추진할 수 있습니다.

판사로서의 PGRM 벤치마킹

PGRM은 LLM만큼 적응성이 있으면서도 목적에 맞게 만들어진 보상 모델만큼 실용적이고 효율적인 판단 시스템을 제공합니다. 보상 모델과 달리 "판사"는 모델의 유형이 아니라 기본적으로 표준 LLM에 제공된 일련의 지시입니다. 즉, 일반적으로 어떤 기준에 따라 응답을 평가하도록 LLM에 지시하여 판사를 만듭니다. 따라서, 다양한 품질 차원에서 응답을 판단하려면 지시사항을 따를 수 있는 모델이 필요합니다. 표준 RM은 이 요구사항을 충족시키지 못하므로 일반적인 관행은 LLM 판사에 의존하는 것입니다. 그러나 PGRM은 판사처럼 지시사항을 처리하도록 설계된 RM입니다.

PGRM이 AI 시스템을 평가하고 모니터링하는 데 필요한 판단 작업을 처리할 수 있는지 보여주기 위해, 우리는 그것의 판단 정확도를 GPT-4o와 몇 가지 작업에 대해 비교합니다. 특히, 우리의 mlflow 평가 제품을 구동하는 동일한 작업입니다.

이 그래프는 PGRM과 GPT-4o의 평균 및 작업별 정확도를 보여줍니다. 여기서 각 작업은 모델에게 특정 방식으로 주어진 응답을 판단하도록 요청하는 특정 지시에 의해 정의됩니다. 예를 들어, Answer Correctness 는 모델이 응답이 사전 검증된 기본 진실과 일치하는지 판단하도록 요구하고, Faithfulness 는 응답이 사용 가능한 맥락에 의해 지원되었는지 여부를 묻습니다. 보여주는 것처럼, PGRM은 GPT-4o와 거의 동등하게 성취하며, 선두 LLM의 판단 품질을 효과적으로 맞춥니다.

자신감을 가지고 판단하기

지시 가능한 보상 모델로서, PGRM은 강력한 LLM의 판단 능력을 맞추면서 확장성과 보정을 도입합니다. LLM 판사는 좋은 합격/불합격 판단을 제공할 수 있지만, 그 신뢰도를 신뢰할 수 있는 지표로 제공하지는 않습니다. 기본적으로 분류를 위해 구축된 모델로서, PGRM의 점수는 자연스럽게 그 판결에 대한 신뢰도를 나타내며, 더 극단적인 점수는 더 높은 확신을 나타냅니다.

왼쪽의 그림은 보정을 보여줍니다. 우리는 두 개의 히스토그램을 겹쳐서 보여줍니다: 기본 진실 판결이 "통과"였던 벤치마크 예제에 대한 PGRM 점수 (녹색)와 "실패"였던 것들 (주황색). 우리는 각 점수 버킷에서 통과/실패 예제의 비율을 측정하고 (빨강), 완벽하게 보정된 분류기에서 기대할 수 있는 것과 비교하여 밀접한 대응을 관찰할 수 있습니다. 다시 말해, PGRM이 그것의 확신이 70%라고 말하면, 그것은 약 70%의 시간 동안 정확할 것입니다.

반면에, LLM은 능력 있는 분류자로 잘 알려져 있지만, 자신의 신뢰도를 보고하는 데는 덜 능숙합니다. 이는 합격/불합격 판단에서는 좋은 정확도를 나타내지만, 판단이 결정 경계에 얼마나 가까운지에 대한 검증 가능성은 없습니다. 그러나 흥미롭게도, PGRM이 가장 확신이 없는 예제에서는 GPT-4o도 가장 정확하지 않다는 것을 발견했습니다. 이는 오른쪽의 그림에서 확인할 수 있습니다. 이것은 PGRM과 GPT-4o가 동일한 모호성 또는 어려움의 원인을 파악하고 있음을 암시하지만, PGRM만이 이러한 경우를 식별할 수 있습니다.

이는 단지 PGRM의 흥미로운 속성이 아니라, 판사로서 중요한 새로운 기능을 도입합니다. 첫째, 잘 보정된 신뢰 점수를 사용하면 AI 시스템에서 명백한 실패와 경계선상의 실패를 구분할 수 있어, 추가 검토가 필요한 고우선 순위 예제를 쉽게 식별할 수 있습니다. 또한, PGRM을 더 보수적이거나 더 관대하게 재보정하는 것은 단순히 애플리케이션에 가장 적합한 합격/불합격 점수 임계값을 선택하는 문제입니다. 반면에, LLM은 자신의 신뢰도를 외부화하지 않기 때문에, 그들을 보정하는 것은 프롬프트 수준에서 이루어져야 하며, 이는 추가적인 프롬프트 엔지니어링(생각보다 어려움)이나 몇 번의 시연(실행 비용을 더욱 높임)을 필요로 합니다.

RewardBench2에서 RM 품질 벤치마킹

PGRM을 통해 판단과 보상 모델링을 동전의 양면으로 볼 수 있습니다. 두 경우 모두, 우리는 기본적으로 AI의 응답이 얼마나 좋은지를 측정하려고 하지만, 보상 모델링의 경우는 그 품질을 고도의 정밀도로 측정하는 데 중점을 둡니다. 고수준에서 보면, RM들은 후보군에서 최상의 응답을 찾아낼 수 있어야 합니다. RewardBench2는 그런 능력을 정확하게 측정하기 위해 설계된 최신 벤치마크입니다. 이 블로그 작성 시점에서, PGRM은 RewardBench2 리더보드에서 두 번째로 높은 순차 분류 모델이며, 모든 모델 중에서 네 번째로 높습니다.

이 그래프는 RewardBench2에서 여러 모델의 부분 집합별 및 전체 성능을 보여줍니다. PGRM은 선두 모델인 Skywork-Reward-V2-Llama-3.1-8B와 경쟁력이 있으며, 모든 다른 순차 분류 모델을 앞섭니다. GPT-4o가 보상 모델로서 성능이 떨어지는 것을 강조하는 것이 중요하며, 이는 GPT-4o와 같은 LLM들이 단순히 잘 보정된 점수를 생성하기 위해 훈련되지 않았음을 보여줍니다. 그들은 대략적인 판단(즉, 합격/불합격), 그러나 더 세밀한 것이 필요할 때는 적합한 도구가 아닙니다.

다음은 무엇인가요?

보상 모델링과 판단을 결합함으로써, PGRM은 각각에게 더 많은 것을 요구할 수 있게 해줍니다. 특정 요구 사항에 맞춰 조정된 보상으로 RM 기반의 미세 조정, "좋은 응답"의 일반적인 개념을 실제로 중요하게 생각하는 것으로 대체합니다. 규모에 맞게 AI 에이전트를 모니터링할 수 있는 판사. 에이전트와 함께 온라인으로 작동할 수 있는 충분히 효율적인 맞춤형 가드레일 모델. PGRM은 이 모든 분야에 문을 엽니다.

우리는 이미 PGRM을 연구 & 제품에 활용하고 있습니다. 예를 들어, Agent Bricks Custom LLM 내에서, 우리는 TAO 미세 조정을 할 때 보상 모델로 PGRM을 사용합니다. 그래서, PGRM 덕분에, Agent Bricks는 레이블이 없는 데이터 없이도 작업과 가이드라인에 최적화된 고품질 모델을 구축할 수 있게 해줍니다. 그리고 이것은 우리가 상상하는 많은 응용 프로그램 중 하나일 뿐입니다.

PGRM은 이 방향으로의 첫 걸음을 나타내며, 조정 가능한 보상 모델링에 대한 새로운 연구 계획을 제시합니다. Databricks에서는 PGRM을 몇 가지 흥미로운 방향으로 확장하는 것을 기대하고 있습니다. 훈련 레시피를 수정함으로써, 우리는 PGRM에게 세밀한, 토큰 수준의 판단을 수행하도록 가르칠 수 있으며, 이는 가드레일, 가치 중심 검색 등 추론 시간에 적용할 때 특히 강력한 도구가 됩니다! 또한, 우리는 추론과 조정된 판단을 결합하는 새로운 아키텍처 형태로 PGRM 자체에 테스트 시간 계산을 가져오는 방법을 탐구하고 있습니다.

PGRM을 사용해 보고 싶다면 이 양식 을 작성하시면 저희 팀이 연락드리겠습니다.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)