LLM 평가를 위한 모범 사례 및 방법

발행일: 2025년 10월 28일

Summary

모델 성능, 안전성, 신뢰성을 측정하는 데 사용되는 주요 측정항목과 프레임워크를 포함하여 대규모 언어 모델(LLM) 평가의 기본 사항을 알아봅니다.
도메인별 사용 사례에 맞춰 자동화된 도구, LLM 심사위원, 인간 평가와 같은 실용적인 평가 기법을 살펴보세요.
고급 및 다중 에이전트 LLM 시스템과 같은 몇 가지 향후 방향뿐만 아니라 LLM 평가를 위한 우수사례를 이해합니다.

LLM 평가 이해하기

더 많은 기업이 비즈니스 추진을 위해 인공지능 (AI) 시스템의 기술과 가능성에 주목하면서, 다양한 애플리케이션을 위한 텍스트 처리 및 생성을 위해 대규모 언어 모델 (LLM)을 구현하고 있습니다. LLM은 방대한 양의 텍스트 데이터로 사람과 유사한 언어를 이해하고 생성하도록 학습되며 챗봇, 콘텐츠 생성, 코딩 지원과 같은 시스템에 배포될 수 있습니다.

Open AI의 GPT-4.1, Anthropic의 Claude, Meta의 Llama와 같은 오픈 소스 모델은 딥러닝 기술을 활용하여 텍스트를 처리하고 생성합니다. 하지만 이는 아직 초기 단계의 기술이므로 배포 전과 배포 기간 내내 안정성, 효율성, 윤리적 고려 사항에 대한 성능을 자주 평가하는 것이 중요합니다. 실제로 LLM을 정기적으로 평가하면 다음과 같은 이점이 있습니다.

모델이 정확하고 일관성 있으며 상황에 맞는 응답을 생성하도록 보장합니다.
연구원과 개발자가 모델을 지속적으로 비교하고 개선이 필요한 영역을 식별할 수 있도록 합니다.
편향, 잘못된 정보 또는 유해한 콘텐츠를 방지합니다.

의료 및 금융부터 교육 및 전자에 이르기까지 거의 모든 산업에서 경쟁 우위를 확보하기 위해 LLM에 의존하고 있으며, LLM 개발에서 높은 기준을 유지하려면 강력한 평가 절차가 중요합니다. 실제로 기업이 고객 대면 및 중차대한 영역에 LLM을 점점 더 많이 배포함에 따라, 안전하고 안정적이며 비용 효율적인 GenAI 를 도입하는 데 있어 강력한 평가는 핵심입니다.

LLM 평가는 세 가지 기본 요소로 구성됩니다.

평가 측정항목: 이러한 측정항목은 정확성, 일관성 또는 편향과 같이 사전 정의된 기준에 따라 모델의 성능을 평가하는 데 사용됩니다.

데이터세트: LLM의 출력을 비교하는 데 사용되는 데이터입니다. 고품질 데이터 세트 는 평가를 위한 객관적인 정답(ground truth)을 제공하는 데 도움이 됩니다.

평가 프레임워크: 구조화된 방법론과 도구는 평가 프로세스를 촉진하여 결과의 일관성과 신뢰성을 보장합니다.

LLM 평가 측정항목 살펴보기

LLM을 평가하는 방법은 다양하지만, 크게 정량적 평가와 정성적 평가로 분류할 수 있습니다. 정량적 지표는 자동화된 평가에서 도출된 수치 점수를 기반으로 객관적이고 확장 가능한 인사이트를 제공합니다. 정성적 지표는 인간의 판단을 수반하며 유창성, 일관성, 윤리적 고려 사항과 같은 측면을 평가합니다.

LLM 평가 측정항목은 참조 출력에 대한 의존도에 따라 분류할 수도 있습니다.

참조 기반 지표: 모델의 출력을 미리 정의된 정답 세트와 비교합니다. 참조 기반 지표의 예는 다음과 같습니다.

BLEU(Bilingual Evaluation Understudy): 원래 기계 번역을 위해 설계된 BLEU는 기계 생성 텍스트와 참조 텍스트 간의 n-gram 중복을 측정하여 정확성에 중점을 둡니다.
요지 평가를 위한 재현율 지향 평가(The Recall-Oriented Understudy for Gisting Evaluation, ROUGE): 주로 요약에 사용되는 ROUGE는 참조 콘텐츠가 모델 출력에 얼마나 포함되어 있는지를 평가합니다.

참조 없는 측정항목 은 참조 답변 없이 출력을 평가하고, 대신 생성된 텍스트의 내재적 품질에 중점을 둡니다. 대화 시스템, 창의적 글쓰기 또는 추론 기반 출력과 같이 단일 '정답' 참조가 존재하지 않거나 적절하지 않을 수 있는 개방형 텍스트 생성 작업을 평가하는 데 유용합니다.

참조 없는 측정항목의 몇 가지 예는 다음과 같습니다.

Perplexity(혼란도): 모델이 시퀀스에서 다음 단어를 얼마나 잘 예측하는지 측정하는 접근 방식입니다. Perplexity가 낮을수록 예측 성능이 우수함을 의미하지만, 실제 태스크에서의 생성 품질과 항상 상관관계가 있는 것은 아닙니다.
독성 및 편향: 사용자는 LLM 출력이 편향, 유해한 콘텐츠, 허위 정보, 잘못된 정보 또는 환각과 같은 문제를 피하도록 해야 합니다. RealToxicityPrompts와 같은 도구는 LLM 출력의 유해한 변질을 테스트하기 위한 벤치마크 프롬프트를 제공합니다.
일관성: 특정 주제나 아이디어에 계속 집중하는 모델의 능력을 의미합니다. 일관성 점수는 텍스트 자체 내의 언어 구조, 의미론적 일관성 및 논리적 진행과 같은 항목을 평가합니다.

참조 기반 및 비참조 기반 측정항목 외에도 연구자가 LLM 출력의 품질을 평가하는 데 사용할 수 있는 다른 벤치마크가 있습니다.

대규모 다중작업 언어 이해(MMLU): 이 벤치마크는 여러 도메인에 걸쳐 모델의 성능을 평가하여 일반적인 지식과 추론 능력을 테스트합니다.
재현율 중심 태스크: 모델이 정보를 얼마나 잘 검색하고 종합하는지 평가하는 ROUGE와 같은 지표를 포함합니다.
BERTScore: BERT(Bidirectional Encoder Representations from Transformers)의 컨텍스트 임베딩을 사용하여 모델이 생성한 텍스트와 참조 텍스트 간의 유사성을 비교함으로써 텍스트 생성을 평가합니다. BERT의 컨텍스트 임베딩을 사용하여 생성된 텍스트와 참조 텍스트 간의 의미론적 유사성을 측정하는 참조 기반 지표입니다.

LLM 평가를 위한 모범 사례

LLM을 평가하는 첫 번째 단계는 다양하고 대표성을 가지며 편향되지 않은 데이터세트를 사용하는 것입니다. 실제 애플리케이션에서 모델의 성능을 평가하기 위해 실제 시나리오를 포함해야 합니다.

또한 다양한 소스에서 데이터 세트를 큐레이션하여 여러 도메인에 걸친 커버리지를 보장하고 반대되는 예시를 통합하여 평가 프로세스를 향상시킬 수 있습니다.

출력을 평가하는 한 가지 기법은 LLM-as-a-Judge로, 사전 정의된 기준에 따라 AI 모델 을 사용하여 다른 AI 모델을 평가하는 방식입니다. 이 솔루션은 확장 가능하고 효율적이며 챗봇, Q&A 시스템 또는 에이전트와 같은 텍스트 기반 제품에 이상적입니다. 이러한 LLM 심사위원의 성공은 프롬프트와 모델의 품질, 그리고 작업의 복잡성에 따라 달라집니다.

자동화된 지표는 일관성과 확장성을 제공하지만, 일관성, 가독성, 윤리적 영향과 같이 생성된 텍스트의 미묘한 차이를 평가하려면 실제 인간의 평가가 필수적입니다. 크라우드소싱 주석가나 주제 전문가는 LLM 출력의 품질과 정확성에 대한 정성적 평가를 제공할 수 있습니다.

각 컨텍스트에는 맞춤형 평가 접근 방식이 필요하므로 평가를 이끌 요소를 결정하는 것이 중요합니다. 예를 들어 고객 서비스에 사용되는 LLM은 정확성과 감성 정렬에 대해 평가해야 하는 반면, 창의적인 글쓰기에 사용되는 LLM은 독창성과 일관성에 대해 평가해야 합니다.

LLM 평가를 위한 프레임워크 및 도구

LLM의 출력이 정확하고 안전하며 잘 관리되는지 측정하기 위한 여러 프레임워크가 있습니다. LLM 평가를 위한 주요 프레임워크는 일부 업계 표준 자연어 처리(NLP) 벤치마크를 활용하지만, 에이전트 및 RAG 파이프라인과 같이 복잡한 엔터프라이즈 규모의 AI 시스템을 평가하는 데에는 여전히 어려움을 겪습니다. 이러한 문제 중 일부는 다음과 같습니다.

애플리케이션의 품질을 평가하기 위한 올바른 측정항목 선택하기.
애플리케이션의 품질을 측정하기 위해 인간의 피드백을 효율적으로 수집합니다.
품질 문제의 근본 원인을 식별합니다.
프로덕션에 배포하기 전에 애플리케이션의 품질을 신속하게 반복 개선합니다.

이것이 Databricks가 Databricks Data Intelligence Platform 에 직접 내장된 Mosaic AI Agent Framework 및 Agent Evaluation 을 도입한 이유입니다.

Agent Evaluation은 통합된 도구 세트를 사용하여 개발부터 프로덕션까지 에이전틱 애플리케이션의 품질, 비용, 지연 시간을 평가하는 데 도움이 됩니다.

통합 LLM 심사위원: 독점 평가 에이전트가 근거, 정확성, 명확성, 일관성에 대해 모델의 응답을 평가합니다. 각 응답은 품질 문제의 근본 원인을 식별하는 데 도움이 되도록 근거와 함께 점수가 매겨집니다.
사용자 지정 측정항목 및 가이드라인: 톤 또는 규정 준수와 같은 자체 평가 기준을 정의하여 도메인 및 사용 사례에 맞게 피드백을 조정하세요.
오프라인 및 온라인 일관성: 평가는 개발(오프라인) 및 프로덕션(온라인) 환경 전반에 걸쳐 통합되어 시간 경과에 따른 drift를 쉽게 모니터링하고 개선할 수 있습니다.
MLflow와의 원활한 통합: 모든 평가 결과, 지표, 추적 정보가 자동으로 기록됩니다. 이를 통해 A/B 테스트, 지속적인 모니터링 및 명확한 감사 추적을 지원할 수 있습니다.

챗봇, 데이터 어시스턴트 또는 복잡한 다중 에이전트 시스템 중 무엇을 구축하든, Mosaic AI Agent Evaluation 은 혁신을 늦추지 않으면서 체계적으로 품질을 개선하고 위험을 줄일 수 있도록 지원합니다.

LLM 평가의 과제

LLM 평가의 주요 과제는 응답의 관련성과 도메인 특수성을 보장하는 것입니다. 일반 벤치마크는 전반적인 일관성을 측정할 수는 있지만, 전문 분야의 성능을 정확하게 반영하는 데는 어려움을 겪을 수 있습니다. 따라서 LLM 평가는 획일적인 솔루션으로 적용될 수 없으며, 특정 조직의 요구 사항에 맞게 맞춤화하고 구축해야 합니다.

LLM은 정답이지만 미리 정의된 참조 답변과 다른 답변을 생성할 수도 있으며, 이는 평가를 어렵게 만들 수 있습니다. 임베딩 기반 유사도 측정 및 적대적 테스트와 같은 기술은 이러한 평가의 신뢰성을 향상시킬 수 있습니다.

최신 LLM은 퓨샷 및 제로샷 학습 능력도 보여줄 수 있습니다. 제로샷 학습 기법은 LLM이 학습된 추론 패턴을 활용할 수 있게 해주는 반면, 퓨샷 학습은 LLM에 구체적인 예시를 프롬프트로 제공하는 기법입니다. 그 능력은 참신하지만, 추론 및 적응성을 테스트하는 벤치마크가 필요하기 때문에 평가가 까다로울 수 있습니다. 동적 평가 데이터세트와 메타 학습 접근 방식은 퓨샷 및 제로샷 평가 방법을 개선하는 데 도움이 될 수 있는 두 가지 새로운 솔루션입니다.

LLM 심사관은 평가하는 LLM의 편견이나 맹점을 그대로 물려받을 수 있다는 점에 유의해야 합니다. 모델만으로는 달성할 수 없는 비판적 판단과 상황 인식의 차원을 고려하기 위해서는 인간의 감독이 필수적입니다. 여기에는 미묘한 오류, 환각에 의한 참조, 윤리적 우려 또는 실제 경험에 기반한 응답을 찾아내는 것이 포함될 수 있습니다.

LLM 평가의 향후 방향

LLM이 계속 발전함에 따라, 이를 평가하는 방법도 함께 발전해야 합니다. 현재의 도구는 단일 에이전트, 텍스트 전용 LLM을 평가할 수 있지만, 미래의 평가는 다중 모드 입력에 걸쳐 품질, 사실적 일관성, 추론 능력을 평가해야 합니다. 이러한 다중 에이전트 및 도구 사용 LLM은 검색 엔진, 계산기 또는 APIs와 같은 도구와의 추론, 조정, 상호 작용이 기능의 핵심이 되는 더 복잡한 환경에서 작동합니다. 실시간으로 적극적으로 정보를 찾고 작업을 수행하는 도구 사용 LLM의 경우, 정확성, 안전성, 효능을 평가하는 방식이 기존의 도구에서 벗어나 발전해야 합니다. 결과적으로 벤치마크는 에이전트가 작업을 해결하기 위해 협업, 협상 또는 경쟁해야 하는 환경을 시뮬레이션해야 합니다.

앞으로 나아가기 위해서는 지속적인 혁신과 다학제간 협업이 필요합니다. 미래의 LLM 평가 방식은 실제 피드백 루프를 통합하고 모델이 인간의 가치 및 윤리적 기준에 부합하도록 보장해야 합니다. 개방형 연구와 엄격한 테스트 방법론을 수용함으로써 LLM은 더 안전하고, 신뢰할 수 있으며, 유능한 언어 모델이 될 수 있습니다.

리소스

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

다음은 무엇인가요?

2024년 7월 24일/1분 이내 소요

GenAI 모델 파인튜닝을 위한 Mosaic AI Model Training 소개

Unlock-Faster-Machine-Learning-with-Graviton

2024년 8월 16일/1분 이내 소요

Summary

LLM 평가 이해하기

LLM 평가 측정항목 살펴보기

LLM 평가를 위한 모범 사례

MLOps의 Big Book

LLM 평가를 위한 프레임워크 및 도구

LLM 평가의 과제

LLM 평가의 향후 방향

리소스

게시물을 놓치지 마세요

Sign up

다음은 무엇인가요?

GenAI 모델 파인튜닝을 위한 Mosaic AI Model Training 소개

Graviton으로 더 빠른 머신 러닝 실현

GenAI 모델 파인튜닝을 위한 Mosaic AI Model Training 소개