더 많은 기업이 비즈니스 추진을 위해 인공지능 (AI) 시스템의 기술과 가능성에 주목하면서, 다양한 애플리케이션을 위한 텍스트 처리 및 생성을 위해 대규모 언어 모델 (LLM)을 구현하고 있습니다. LLM은 방대한 양의 텍스트 데이터로 사람과 유사한 언어를 이해하고 생성하도록 학습되며 챗봇, 콘텐츠 생성, 코딩 지원과 같은 시스템에 배포될 수 있습니다.
Open AI의 GPT-4.1, Anthropic의 Claude, Meta의 Llama와 같은 오픈 소스 모델은 딥러닝 기술을 활용하여 텍스트를 처리하고 생성합니다. 하지만 이는 아직 초기 단계의 기술이므로 배포 전과 배포 기간 내내 안정성, 효율성, 윤리적 고려 사항에 대한 성능을 자주 평가하는 것이 중요합니다. 실제로 LLM을 정기적으로 평가하면 다음과 같은 이점이 있습니다.
의료 및 금융부터 교육 및 전자에 이르기까지 거의 모든 산업에서 경쟁 우위를 확보하기 위해 LLM에 의존하고 있으며, LLM 개발에서 높은 기준을 유지하려면 강력한 평가 절차가 중요합니다. 실제로 기업이 고객 대면 및 중차대한 영역에 LLM을 점점 더 많이 배포함에 따라, 안전하고 안정적이며 비용 효율적인 GenAI 를 도입하는 데 있어 강력한 평가는 핵심입니다.
LLM 평가는 세 가지 기본 요소로 구성됩니다.
평가 측정항목: 이러한 측정항목은 정확성, 일관성 또는 편향과 같이 사전 정의된 기준에 따라 모델의 성능을 평가하는 데 사용됩니다.
데이터세트: LLM의 출력을 비교하는 데 사용되는 데이터입니다. 고품질 데이터 세트 는 평가를 위한 객관적인 정답(ground truth)을 제공하는 데 도움이 됩니다.
평가 프레임워크: 구조화된 방법론과 도구는 평가 프로세스를 촉진하여 결과의 일관성과 신뢰성을 보장합니다.
LLM을 평가하는 방법은 다양하지만, 크게 정량적 평가와 정성적 평가로 분류할 수 있습니다. 정량적 지표는 자동화된 평가에서 도출된 수치 점수를 기반으로 객관적이고 확장 가능한 인사이트를 제공합니다. 정성적 지표는 인간의 판단을 수반하며 유창성, 일관성, 윤리적 고려 사항과 같은 측면을 평가합니다.
LLM 평가 측정항목은 참조 출력에 대한 의존도에 따라 분류할 수도 있습니다.
참조 기반 지표: 모델의 출력을 미리 정의된 정답 세트와 비교합니다. 참조 기반 지표의 예는 다음과 같습니다.
참조 없는 측정항목 은 참조 답변 없이 출력을 평가하고, 대신 생성된 텍스트의 내재적 품질에 중점을 둡니다. 대화 시스템, 창의적 글쓰기 또는 추론 기반 출력과 같이 단일 '정답' 참조가 존재하지 않거나 적절하지 않을 수 있는 개방형 텍스트 생성 작업을 평가하는 데 유용합니다.
참조 없는 측정항목의 몇 가지 예는 다음과 같습니다.
참조 기반 및 비참조 기반 측정항목 외에도 연구자가 LLM 출력의 품질을 평가하는 데 사용할 수 있는 다른 벤치마크가 있습니다.
LLM을 평가하는 첫 번째 단계는 다양하고 대표성을 가지며 편향되지 않은 데이터세트를 사용하는 것입니다. 실제 애플리케이션에서 모델의 성능을 평가하기 위해 실제 시나리오를 포함해야 합니다.
또한 다양한 소스에서 데이터 세트를 큐레이션하여 여러 도메인에 걸친 커버리지를 보장하고 반대되는 예시를 통합하여 평가 프로세스를 향상시킬 수 있습니다.
출력을 평가하는 한 가지 기법은 LLM-as-a-Judge로, 사전 정의된 기준에 따라 AI 모델 을 사용하여 다른 AI 모델을 평가하는 방식입니다. 이 솔루션은 확장 가 능하고 효율적이며 챗봇, Q&A 시스템 또는 에이전트와 같은 텍스트 기반 제품에 이상적입니다. 이러한 LLM 심사위원의 성공은 프롬프트와 모델의 품질, 그리고 작업의 복잡성에 따라 달라집니다.
자동화된 지표는 일관성과 확장성을 제공하지만, 일관성, 가독성, 윤리적 영향과 같이 생성된 텍스트의 미묘한 차이를 평가하려면 실제 인간의 평가가 필수적입니다. 크라우드소싱 주석가나 주제 전문가는 LLM 출력의 품질과 정확성에 대한 정성적 평가를 제공할 수 있습니다.
각 컨텍스트에는 맞춤형 평가 접근 방식이 필요하므로 평가를 이끌 요소를 결정하는 것이 중요합니다. 예를 들어 고객 서비스에 사용되는 LLM은 정확성과 감성 정렬에 대해 평가해야 하는 반면, 창의적인 글쓰기에 사용되는 LLM은 독창성과 일관성에 대해 평가해야 합니다.
LLM의 출력이 정확하고 안전하며 잘 관리되는지 측정하기 위한 여러 프레임워크가 있습니다. LLM 평가를 위한 주요 프레임워크는 일부 업계 표준 자연어 처리(NLP) 벤치마크를 활용하지만, 에이전트 및 RAG 파이프라인과 같이 복잡한 엔터프라이즈 규모의 AI 시스템을 평가하는 데에는 여전히 어려움을 겪습니다. 이러한 문제 중 일부는 다음과 같습니다.
이것이 Databricks가 Databricks Data Intelligence Platform 에 직접 내장된 Mosaic AI Agent Framework 및 Agent Evaluation 을 도입한 이유입니다.
Agent Evaluation은 통합된 도구 세트를 사용하여 개발부터 프로덕션까지 에이전틱 애플리케이션의 품질, 비용, 지연 시간을 평가하는 데 도움이 됩니다.
챗봇, 데이터 어시스턴트 또는 복잡한 다중 에이전트 시스템 중 무엇을 구축하든, Mosaic AI Agent Evaluation 은 혁신을 늦추지 않으면서 체계적으로 품질을 개선하고 위험을 줄일 수 있도록 지원합니다.
LLM 평가의 주요 과제는 응답의 관련성과 도메인 특수성을 보장하는 것입니다. 일반 벤치마크는 전반적인 일관성을 측정할 수는 있지만, 전문 분야의 성능을 정확하게 반영하는 데는 어려움을 겪을 수 있습니다. 따라서 LLM 평가는 획일적인 솔루션으로 적용될 수 없으며, 특정 조직의 요구 사항에 맞게 맞춤화하고 구축해야 합니다.
LLM은 정답이지만 미리 정의된 참조 답변과 다른 답변을 생성할 수도 있으며, 이는 평가를 어렵게 만들 수 있습니다. 임베딩 기반 유사도 측정 및 적대적 테스트와 같은 기술은 이러한 평가의 신뢰성을 향상시킬 수 있습니다.
최신 LLM은 퓨샷 및 제로샷 학습 능력도 보여줄 수 있습니다. 제로샷 학습 기법은 LLM이 학습된 추론 패턴을 활용할 수 있게 해주는 반면, 퓨샷 학습은 LLM에 구체적인 예시를 프롬프트로 제공하는 기법입니다. 그 능력은 참신하지만, 추론 및 적응성을 테스트하는 벤치마크가 필요하기 때문에 평가가 까다로울 수 있습니다. 동적 평가 데이터세트와 메타 학습 접근 방식은 퓨샷 및 제로샷 평가 방법을 개선하는 데 도움이 될 수 있는 두 가지 새로운 솔루션입니다.
LLM 심사관은 평가하는 LLM의 편견이나 맹점을 그대로 물려받을 수 있다는 점에 유의해야 합니다. 모델만으로는 달성할 수 없는 비판적 판단과 상황 인식의 차원을 고려하기 위해서는 인간의 감독이 필수적입니다. 여기에는 미묘한 오류, 환각에 의한 참조, 윤리적 우려 또는 실제 경험에 기반한 응답을 찾아내는 것이 포함될 수 있습니다.
LLM이 계속 발전함에 따라, 이를 평가하는 방법도 함께 발전해야 합니다. 현재의 도구는 단일 에이전트, 텍스트 전용 LLM을 평가할 수 있지만, 미래의 평가는 다중 모드 입력에 걸쳐 품질, 사실적 일관성, 추론 능력을 평가해야 합니다. 이러한 다중 에이전트 및 도구 사용 LLM은 검색 엔진, 계산기 또는 APIs와 같은 도구와의 추론, 조정, 상호 작용이 기능의 핵심이 되는 더 복잡한 환경에서 작동합니다. 실시간으로 적극적으로 정보를 찾고 작업을 수행하는 도구 사용 LLM의 경우, 정확성, 안전성, 효능을 평가하는 방식이 기존의 도구에서 벗어나 발전해야 합니다. 결과적으로 벤치마크는 에이전트가 작업을 해결하기 위해 협업, 협상 또는 경쟁해야 하는 환경을 시뮬레이션해야 합니다.
앞으로 나아가기 위해서는 지속적인 혁신과 다학제간 협업이 필요합니다. 미래의 LLM 평가 방식은 실제 피드백 루프를 통합하고 모델이 인간의 가치 및 윤리적 기준에 부합하도록 보장해야 합니다. 개방형 연구와 엄격한 테스트 방법론을 수용함으로써 LLM은 더 안전하고, 신뢰할 수 있으며, 유능한 언어 모델이 될 수 있습니다.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
