사람의 피드백에서 학습하는 에이전트 (ALHF): Databricks 지식 도우미 사례 연구

Agent Learning from Human Feedback (ALHF): A Databricks Knowledge Assistant Case Study

이 블로그에서는 사람의 피드백에서 학습하는 에이전트 (ALHF) — 새로운 머신러닝 패러다임에 대해 깊이 들어가 보겠습니다. 이 패러다임에서는 에이전트가 숫자 보상이나 정적 라벨이 아닌 최소한의 자연어 피드백으로 직접 학습합니다. 이로 인해 기업용 애플리케이션에서는 종종 전문화되고 형식화하기 어려운 기대치에 대해 에이전트가 더 빠르고 직관적으로 적응할 수 있게 됩니다.

ALHF는 Databricks Agent Bricks 제품을 구동합니다. 우리의 사례 연구에서는 Agent Bricks를 살펴봅니다. 지식 보조원 (KA) - 전문가 피드백을 통해 지속적으로 응답을 개선합니다. 그림 1에서 보여지는 것처럼, ALHF는 단 4개의 피드백 레코드로 Databricks DocsQA 에서 전반적인 답변 품질을 크게 향상시킵니다. 단지 32개의 피드백 레코드로, 우리는 정적 기준선에 비해 답변 품질을 4배 이상 향상시킵니다. 우리의 사례 연구는 ALHF의 효과를 보여주며, 에이전트 연구에 대한 새로운 방향을 제시합니다.

DocsQA에서의 답변 품질 — Figure 1. KA improves its response quality (as measured by Answer Completeness and Feedback Adherence) with increasing amounts of feedback. See the “**ALHF in Agent Bricks**” section for more details.

가르칠 수 있는 AI 에이전트의 약속

Databricks의 기업 고객들과 함께 일하는 과정에서, 우리가 발견한 주요 도전 과제 중 하나는 많은 기업 AI 사용 사례가 고도로 전문화된 내부 비즈니스 로직, 독점 데이터, 그리고 외부에서 알 수 없는 본질적 기대치에 의존한다는 것입니다(자세한 내용은 우리의 도메인 인텔리전스 벤치마크 를 참조하세요). 따라서, 가장 고급 시스템들조차도 기업 사용 사례의 품질 임계값을 충족시키기 위해 상당한 튜닝이 필요합니다.

이러한 시스템을 튜닝하기 위해, 기존 접근법들은 비싸게 수집하는 명확한 기준 진실 출력이나, 이진/스칼라 신호만을 제공하는 보상 모델에 의존합니다. 이러한 도전 과제를 해결하기 위해, 우리는 인간의 피드백에서 학습하는 에이전트 (ALHF), 즉 전문가로부터의 소량의 자연어 피드백 을 통합하여 행동을 적응시키는 학습 패러다임을 설명합니다. 이 패러다임은 인간과의 상호작용에 대한 자연스럽고 비용 효율적인 채널을 제공하며, 시스템이 풍부한 기대치 신호로부터 학습하게 합니다.

예제

호스팅 데이터베이스 회사를 위한 질문 응답 (QA) 에이전트를 만들어 보겠습니다. 다음은 예시 질문입니다:

에이전트는 weekofyear()함수를 사용하는 것을 제안했는데, 이는 SQL의 여러 버전(MySQL, MariaDB 등)에서 지원됩니다. 이 답변은 적절하게 사용될 때weekofyear() 가 원하는 기능을 달성한다는 점에서 정확합니다. 그러나 이는 사용자 그룹이 선호하는 SQL 버전인 PostgreSQL 에서는 지원되지 않습니다. 우리의 주제 전문가(SME)는 위와 같이 이기대치를 전달하기 위해 응답에 대한 자연어 피드백을 제공할 수 있으며, 에이전트는 이에 따라 적응하게 됩니다:

질문 응답 (QA) 에이전트

ALHF는 이 단일 질문에 대한 시스템 응답뿐만 아니라 피드백이 관련된 미래의 대화에서의 질문에 대해서도 적응합니다, 예를 들면:

이 예시에서 보듯이, ALHF는 개발자와 SME들에게 에이전트의 행동을 자연어를 사용하여 그들의 기대치와 일치시키는 무마찰적이고 직관적인 방법을 제공합니다.

에이전트 브릭스의 ALHF

에이전트 브릭스 제품의 특정 사용 사례 - 지식 어시스턴트 -를 케이스 스터디로 사용하여 ALHF의 힘을 보여줄 것입니다.

지식 도우미 (KA) 는 선언적 접근법을 제공하여 문서 위에 챗봇을 만들 수 있게 하며, 인용이 포함된 높은 품질의 신뢰할 수 있는 응답을 제공합니다. KA는 ALHF를 활용하여 자연어 피드백으로부터 전문가의 기대치를 지속적으로 학습하고 응답의 품질을 향상시킵니다.

KA는 먼저 고수준의 작업 지시를 요청합니다. 일단 관련 지식 소스에 연결되면, 질문에 대한 답변을 시작합니다. 전문가들은 그 후 품질 향상 모드를 활용하여 응답을 검토하고 피드백을 남길 수 있으며, KA는 이를 ALHF를 통해 미래의 답변을 개선하는 데 활용합니다.

평가

KA에서 ALHF의 가치를 보여주기 위해, 우리는 DocsQA 를 사용하여 KA를 평가합니다. 이는 Databricks 문서에 대한 질문과 참조 답변의 데이터셋으로, 우리의 도메인 지능 벤치마크 의 일부입니다. 이 데이터셋에는 또한 정의된 전문가 기대치가 있습니다. KA가 생성한 후보 응답의 작은 집합에 대해, 우리는 이러한 기대치를 바탕으로 간결한 자연어 피드백을 만들고 KA에게 응답을 개선하도록 피드백을 제공합니다. 그런 다음 우리는 피드백의 여러 라운드에 걸쳐 응답 품질을 측정하여 KA가 전문가 기대치를 충족하기 위해 성공적으로 적응하는지 평가합니다.

참조 답변이 사실적 정확성 — 답변이 질문을 해결하는 데 관련된 정확한 정보를 포함하고 있는지 —을 반영하는 반면, 이들은 반드시 전문가 기대치와 일치하는 것은 아닙니다. 앞서 예시에서 보여준 것처럼, 초기 응답은 SQL의 많은 버전에 대해 사실적으로 정확할 수 있지만, 전문가가 PostgreSQL 특정 응답을 기대하는 경우에는 여전히 부족할 수 있습니다.

이 두 가지 정확성 차원을 고려하여, 우리는 두 개의 LLM 판사를 사용하여 응답의 품질을 평가합니다:

답변의 완전성: 데이터셋의 참조 응답과 얼마나 잘 일치하는지에 대한 응답입니다. 이는 사실적 정확성의 기본 측정 기준으로 작용합니다.
피드백 준수: 응답이 특정 전문가 기대치를 얼마나 잘 만족시키는지. 이는 에이전트가 개인화된 기준에 따라 출력을 맞춤화하는 능력을 측정합니다.

결과

그림 2는 DocsQA에서 전문가 피드백의 증가하는 라운드에 따라 KA의 품질이 어떻게 향상되는지 보여줍니다. 우리는 보류된 테스트 세트에 대한 결과를 보고합니다.

답변의 완전성: 피드백 없이 KA는 이미 경쟁 시스템과 비교하여 고품질의 응답을 생성합니다. 최대 32개의 피드백으로, KA의 답변 완전성은 12 퍼센트 포인트 향상되어, 경쟁자들을 확실히 앞섭니다.
피드백 준수: 피드백 준수 와 답변 완전성 사이의 차이는 명확합니다 – 모든 시스템은 피드백 없이 낮은 준수 점수로 시작합니다. 하지만 여기서 ALHF가 빛나는 곳입니다: 피드백을 받으면 KA의 준수 점수는 11.7%에서 거의 80%로 급증하며, ALHF의 극적인 영향을 보여줍니다.

전반적으로, ALHF는 시스템의 행동을 특정 전문가 기대치를 충족하도록 개선하고 적응시키는 효과적인 메커니즘입니다. 특히, 이는 매우 표본 효율적입니다: 수백 또는 수천 개의 예시가 필요하지 않고, 소량의 피드백으로도 명확한 이득을 볼 수 있습니다.

ALHF: 기술적 도전

이러한 놀라운 결과는 KA가 ALHF의 두 가지 핵심 기술적 도전을 성공적으로 해결했기 때문에 가능합니다.

피드백을 적용할 시기를 학습하기

전문가가 한 질문에 피드백을 제공할 때, 에이전트는 어떤 미래의 질문이 그 같은 통찰력에서 이익을 얻어야 하는지 어떻게 알 수 있을까요? 이것이 범위 설정 의 도전 과제입니다 — 각 피드백에 대한 적절한 적용 범위를 결정하는 것입니다. 또는 다르게 말하면, 질문에 대한 피드백의 관련성을 결정하는 것입니다.

우리의 PostgreSQL 예시를 생각해보세요. 전문가가 "답변은 PostgreSQL과 호환되어야 한다"라고 말하면, 이 피드백은 그 한 가지 응답만 수정해서는 안됩니다. 이는 모든 미래의 SQL 관련 질문에 영향을 미쳐야 합니다. 하지만 "이 차트에는 matplotlib 또는 seaborn을 사용해야 할까요?"와 같은 관련 없는 질문에는 영향을 미치지 않아야 합니다.

우리는 모든 이전 피드백을 기록하고 에이전트가 새로운 질문에 대한 관련 피드백을 효율적으로 검색할 수 있도록 하는 에이전트 메모리 접근법을 채택합니다. 이를 통해 에이전트는 현재의 질문에 가장 관련성이 높은 통찰력을 동적이고 전체적으로 결정할 수 있습니다.

적절한 시스템 구성요소 적용하기

두 번째 도전은 할당 — 피드백에 대응하여 시스템의 어떤 부분을 변경해야 하는지 파악하는 것입니다. KA는 단일 모델이 아니라, 검색 쿼리를 생성하고, 문서를 검색하고, 답변을 생성하는 다중 구성 요소 파이프라인입니다. 효과적인 ALHF는 올바른 구성 요소를 올바른 방식으로 업데이트하는 것을 요구합니다.

KA는 피드백에 의해 매개변수화된 일련의 LLM 기반 컴포넌트로 설계되었습니다. 각 구성 요소는 관련 피드백을 받아들이고 그에 따라 행동을 적응시키는 모듈입니다. 이전의 예시에서, SME가 날짜 추출 예시에 대해 다음과 같은 피드백을 제공하는 경우를 생각해보세요:

나중에 사용자는 관련 질문을 던집니다 — "SQL에서 두 날짜 사이의 차이를 어떻게 얻을 수 있나요?". 새로운 피드백을 받지 않아도 KA는 이전의 상호작용에서 배운 것을 자동으로 적용합니다. 검색 쿼리를 검색 단계에서 수정하여 컨텍스트에 맞게 조정하는 것으로 시작합니다:
검색 쿼리 수정

그런 다음, PostgreSQL에 특화된 응답을 생성합니다:

피드백을 적절한 검색 및 응답 생성 구성 요소로 정확하게 라우팅함으로써, ALHF는 에이전트가 전문가 피드백에서 효과적으로 학습하고 일반화하는 것을 보장합니다.

ALHF가 당신에게 의미하는 것: 에이전트 브릭스 내부

인간의 피드백에서 학습하는 에이전트 (ALHF) 는 AI 에이전트가 전문가의 기대치를 진정으로 이해하고 적응하는 데 있어 큰 진전을 나타냅니다. 자연어 피드백을 통해 에이전트의 행동을 점진적으로 형성함으로써, ALHF는 AI 시스템을 특정 기업 요구에 맞게 조정하는 유연하고 직관적이며 강력한 메커니즘이 됩니다. 지식 도우미(KA)와의 사례 연구는 ALHF가 응답 품질과 전문가 기대치의 준수를 최소한의 피드백으로도 크게 향상시킬 수 있음을 보여줍니다. Analytics8의 최고 기술 책임자인 Patrick Vinton이 말했습니다:

ALHF는 이제 에이전트 브릭스 제품 내에 내장된 기능으로, Databricks 고객이 매우 맞춤화된 기업 AI 솔루션을 배포할 수 있게 합니다. 우리는 가르칠 수 있는 AI의 힘을 활용하려는 모든 고객들이 Databricks 계정 팀 과 연결하고 KA 및 다른 에이전트 브릭스 사용 사례를 탐색하여 ALHF가 생성적 AI 워크플로우를 어떻게 변화시킬 수 있는지 확인해 보기를 권장합니다.

Veronica Lyu와 Kartik Sreenivasan은 동등하게 기여하였습니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

사람의 피드백에서 학습하는 에이전트 (ALHF): Databricks 지식 도우미 사례 연구

가르칠 수 있는 AI 에이전트의 약속

에이전트 브릭스의 ALHF

ALHF: 기술적 도전

ALHF가 당신에게 의미하는 것: 에이전트 브릭스 내부

관련 포스트

RLVR의 힘: Databricks에서 선도적인 SQL 추론 모델 훈련하기