주요 컨텐츠로 이동

생산용 AI 에이전트의 핵심: 평가

The key to production AI agents: Evaluations

Published: September 12, 2025

인사이트1분 이내 소요

작성자: Oliver Chiu

Summary

  • 제품화에 대한 AI 에이전트의 신뢰와 확장을 위해서는, 조직들이 기업 데이터에 연결되어 에이전트의 정확도를 지속적으로 측정하고 향상시키는 에이전트 플랫폼이 필요합니다.
  • 효과적인 에이전트 평가는 작업 수준 벤치마킹, 실질 평가, 변경 추적을 중심으로 구축된 체계적 사고 접근법이 필요합니다.
  • 지속적인 평가는 AI 에이전트를 고정 도구에서 시간이 지남에 따라 개선되는 학습 시스템으로 변화시킵니다.

조직들은 워크플로우를 자동화하고, 고객 문의를 처리하며, 생산성을 향상시키는 등의 일들을 위해 GenAI 에이전트를 배포하고자 열망하고 있습니다. 그러나 실제로는 대부분의 에이전트가 제품화에 도달하기 전에 장애에 부딪힙니다.

최근 The Economist Impact와 Databricks의 설문 조사에 따르면, 조직의 85 퍼센트가 적어도 한 가지 비즈니스 기능에서 GenAI를 적극적으로 사용하고 있으며, 회사의 73 퍼센트가 GenAI가 그들의 장기적인 전략적 목표에 필수적이라고 말하고 있습니다. 에이전트 AI의 혁신은 기업 AI 이니셔티브에 더 많은 흥미와 전략적 중요성을 더하였습니다. 그럼에도 불구하고 광범위하게 채택되었음에도 불구하고, 많은 사람들이 그들의 GenAI 프로젝트가 피롯 단계 이후에 결렬된다는 것을 발견하였습니다.

오늘날의 LLM은 더 넓은 작업과 전략에 대해 놀라운 능력을 보여주고 있습니다. 하지만 얼마나 정교한 제품이라도, 비즈니스 특성에 맞고 정확하고 잘 관리된 출력물을 위해서는 시중 차골에 의존하는 것은 실용적이지 않습니다. 이는 일반 AI 능력과 특정 비즈니스 요구 사이의 격차가 종종 에이전트들이 기업 환경에서 실험적인 배치를 넘어서는 것을 방해하기 때문입니다.

제품화에 대한 AI 에이전트의 신뢰와 확장을 위해서는, 조직들이 기업 데이터에 연결되어 에이전트의 정확도를 지속적으로 측정하고 향상시키는 에이전트 플랫폼이 필요합니다. 성공은 비즈니스 컨텍스트를 이해하는 도메인 특화 에이전트와 출력이 계속해서 정확하고, 관련되고, 준수될 수 있도록 보장하는 철저한 AI 평가가 결합된 상태에서만 달성될 수 있습니다.

이 블로그는 일반적인 측정 기준이 기업 환경에서 종종 실패하는 이유, 효과적인 평가 시스템이 요구하는 것들과 사용자의 신뢰를 쌓는 지속적인 최적화를 만드는 방법에 대해 논의할 것입니다.

일괄평가를 넘어서 가보세요

기업 특화 반응을 대량으로 산출하는지를 측정할 수 없다면, AI 에이전트를 책임감있게 배포할 수 없습니다. 역사적으로, 대부분의 조직들은 평가를 측정할 수 있는 방법이 없으며, 감정적인 "기분 체크"에 의존합니다. 이는 출력이 올바른지 또는 브랜드 톤과 일치하는지에 대한 빠른, 인상 기반의 평가입니다. 이러한 본능적인 체크에만 의존하는 것은 중요한 소프트웨어 롤아웃이 실제로 실행되기 전에 확실히 성공할 시나리오만 거치는 것과 비슷하게 느껴집니다. 그것은 누구에게도 중요한 시스템에 대한 충분한 검증이라고 생각되지 않을 것입니다. 다른 접근 방식에는 기업의 특정 비즈니스, 작업, 데이터에 대해 설계되지 않은 일반적인 평가 프레임워크에 의존하는 것이 포함됩니다. 이러한 형태의 평가는 AI 에이전트가 도메인 특화 문제를 다루는 경우 문제가 발생합니다. 예를 들어, 이러한 벤치마크는 에이전트가 내부 문서를 올바르게 해석하는지, 독점 정책에 기반한 정확한 고객 지원을 제공하는지 또는 회사 특화 데이터와 업계 규정에 기반한 타당한 금융 분석을 제공하는지를 평가할 수 없습니다.

이와 같은 중요한 실패 지점들을 통해 AI 에이전트에 대한 신뢰가 훼손됩니다:

  • 조직들은 고유의 지식 기반 내에서의 정확성을 측정하는 메커니즘이 부족합니다.
  • 비즈니스 소유자들은 에이전트가 특정 결정이나 출력에 도달한 방식을 추적할 수 없습니다.
  • 팀들은 반복 간에 개선을 정량화할 수 없어 진척 상황을 보여주거나 계속 투자를 정당화하는 것이 어렵습니다.

결국, 맥락 없는 평가는 비싼 추측을 의미하며, AI 에이전트를 향상시키는 것을 매우 어렵게 합니다. 품질 문제는 AI 체인의 어떤 구성 요소에서든지 발생할 수 있으며, 쿼리 파싱부터 정보 회수, 반응 생성에 이르기까지 모든 요소에서 문제가 발생할 수 있습니다. 이에 따라 개발팀들은 근본 원인을 파악하고 빠르게 수정사항을 구현하는 데 어려움을 겪게 됩니다.

실제로 작동하는 평가 시스템 만들기

효과적인 에이전트 평가는 3가지 핵심 개념을 중심으로 구축된 체계적 사고 접근법이 필요합니다.

  • 작업 수준 벤치마킹: 에이전트가 무작위 질문에만 답하는 것이 아니라 특정 워크플로우를 완료할 수 있는지 평가합니다. 예를 들어, 고객 환불을 처음부터 끝까지 처리할 수 있나요?
  • 탄탄한 평가: 대답이 일반적인 공공 정보가 아니라 내부 지식과 기업 컨텍스트에서 출발하는지 확신합니다. 법률 AI 에이전트가 실제로 회사 계약을 참조하는지, 아니면 일반적인 법률 원칙을 참조하는지 확인합니까?
  • 변경 추적: 모델 업데이트와 시스템 수정에 따른 성능 변화를 모니터링합니다. 이를 통해 미세한 시스템 업데이트가 예상치 못하게 생산중인 에이전트의 성능을 악화시키는 시나리오를 방지합니다.

기업 에이전트는깊게 연결되어 있으며, 실제 조직이 운영되는 방식을 결정하는 개인 데이터 소스, 독자적인 비즈니스 로직, 작업 특화 워크플로우를 이해해야 합니다. AI 평가는 사용 사례와 조직에 따라 다양할 수 있는 각 에이전트의 특정 목적을 중심으로 맞춤형으로 구축되어야 합니다.

그러나 효과적인 평가를 구축하는 것은 처음 단계에 불과합니다. 실제 가치는 그 평가 데이터를 지속적인 향상으로 전환하는 것에서 발생합니다. 가장 세련된 조직들은 고품질, 도메인 별 에이전트를 작업 설명과 원하는 결과만을 기술하여 구축할 수 있는 시스템을 가능하게 하는 플랫폼으로 이동하고 있습니다. 이러한 플랫폼들은 평가, 최적화, 지속적인 향상을 자동으로 처리해줌으로써 팀들이 기술적 세부사항보다는 사업 결과에 초점을 맞출 수 있게 해줍니다.

평가 데이터를 지속적인 개선으로 전환하기

지속적인 평가는 AI 에이전트를 정적 도구에서 시간이 지남에 따라 개선되는 학습 시스템으로 변화시킵니다. 한 번의 테스팅에 의존하는 것보다는, 고도로 발전된 지속적인 평가 시스템이 성능 문제를 조기에 파악하고, 사용자와의 상호작용에서 학습하고, 높은 영향력을 가진 영역에 개선 노력을 집중시키는 피드백 메커니즘을 만듭니다. 가장 발전된 시스템은 모든 상호작용을 지식으로 전환합니다. 그들은 성공에서 배우며, 실패 패턴을 파악하고, 에이전트의 행동을 기업의 요구에 더 잘 맞게 자동적으로 조정합니다.

궁극적인 목표는 단지 기술적인 정확성만이 아니라 사용자의 신뢰입니다. 에이전트가 다양한 시나리오에서 예측 가능하고 적절하게 행동할 것이라는 확신을 사용자들이 기르면서 신뢰가 생깁니다. 이는 비즈니스 컨텍스트에 부합하는 일관된 성능, 불확실성 처리, 에이전트가 제한을 만났을 때 투명한 소통이 필요합니다.

신뢰를 확장하면 AI를 확장할 수 있습니다.

기업 AI 분야는 성공자와 희망고문자를 구분하고 있습니다. AI 에이전트를 실험해 본 무수히 많은 회사들이 뛰어난 결과를 이룰 것이지만, 일부만이 이런 역량을 비즈니스 가치를 창출하는 생산 시스템으로 성공적으로 확장할 것입니다.

차이는 최고급 AI 모델에 대한 접근 권한이 아닙니다. 대신에, 기업 GenAI를 성공적으로 활용하는 조직은 시간이 지남에 따라 AI 에이전트를 계속해서 개선할 수 있는 최고의 평가와 모니터링 인프라를 가지고 있는 것들이 될 것입니다. 자동 최적화된 에이전트를 활성화하고 지속적인 개선을 가능케 하는 도구와 기술을 도입하는 것을 우선 순위로 두는 조직은 최종적으로 AI 전략을 가장 빠르게 확장할 것입니다.

Agent Bricks 가 어떻게 일관된 비즈니스 가치를 제공하는 생산용 AI 에이전트를 배포하기 위해 필요한 평가 인프라 및 지속적인 개선을 제공하는지 알아보십시오. 더 많은 정보를 여기에서 확인하세요.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요