2024년 6월 21일

Santalucía Seguros: 고객 서비스 및 상담원 효율성 향상을 위한 엔터프라이즈 레벨의 RAG

작성자: Eduardo Fernández Carrión (Santalucía Seguros), Manuel Valero Méndez (Santalucía Seguros) , 루이스 에레라

보험 업계에서 고객은 자신의 요구를 충족하는 빠르고 효율적인 맞춤형 서비스를 요구합니다. 한편 보험 설계사는 여러 위치에서 다양한 형식의 대량의 문서에 액세스해야 합니다. 100년 이상 고객들을 지원해 온 스페인 기업 Santalucía Seguros는 고객 서비스 및 상담원 효율성 향상을 위해 상품, 보장, 절차 등에 대한 상담원의 문의를 지원할 수 있는 GenAI 기반 가상 비서(VA)를 구현했습니다.

VA는 Microsoft Teams 내에서 액세스할 수 있으며 모든 모바일 디바이스, 태블릿 또는 컴퓨터에서 연중무휴 24시간 실시간으로 상담원의 질문에 자연어로 답변할 수 있습니다. 이 액세스를 통해 보험 설계사의 일상 업무가 훨씬 수월해집니다. 예를 들어 고객이 보험 적용 범위에 대해 문의할 때마다 몇 초 만에 답변을 받을 수 있습니다. 응답 속도는 고객 만족도에 긍정적인 영향을 미칠 뿐만 아니라 즉각적이고 정확한 답변을 제공함으로써 제품 판매를 가속화합니다.

이 솔루션 아키텍처는 Databricks 및 Microsoft Azure 에 의해 구동되는 Santalucía의 고급 분석 플랫폼에서 실행되는 검색 증강 세대(RAG) 프레임 워크를 기반으로 유연성, 개인정보 보호, 보안 및 확장성을 제공합니다. 이 아키텍처는 임베딩 기반 벡터 저장소에 최신 문서를 지속적으로 수집할 수 있게 해주며, 신속한 검색과 검색을 위한 정보를 색인하는 기능을 제공합니다. RAG 시스템은 Databricks의 오픈소스 LLMOps 솔루션인 MLflow에서 pyfunc 모델로 설정 되어있습니다. 또한 Databricks Model Serving 엔드포인트를 사용하여 모든 LLM 모델을 쿼리용으로 호스팅했습니다.

새로 수집된 문서를 RAG 시스템에 원활하게 통합해야 하므로 우수한 LLMOps 관행과 응답 품질을 유지하면서 새 릴리스의 지속적인 배포를 지원하는 것은 어려울 수 있습니다. 응답 품질을 보장하는 것은 비즈니스에 매우 중요하며, 이전에 제공된 릴리스의 품질에 부정적인 영향을 미치지 않는다는 보장 없이 솔루션 코드의 일부를 수정할 수는 없습니다. 이를 위해서는 정확하고 신뢰할 수 있는 답변을 제공하기 위해 철저한 테스트와 검증 프로세스가 필요합니다. 저희는 Databricks 데이터 인텔리전스 플랫폼에서 제공되는 RAG 도구를 사용하여 릴리스에 항상 최신 데이터가 포함되도록 하고, 결과물에 대한 거버넌스 및 가드레일을 적용했습니다.

다음으로 고품질, 확장성, 지속 가능성을 갖춘 GenAI 기반 가상 어시스턴트를 성공적으로 개발하는 데 필수적인 핵심 요소에 대해 살펴봅니다. 이러한 요소 덕분에 솔루션의 개발, 배포, 평가, 모니터링 및 제공이 더욱 쉬워졌습니다. 다음은 가장 중요한 두 가지입니다.

Databricks Model Serving

Databricks Model Serving 에서 사용할 수 있는 GPT-4 또는 기타 모델과 같은 외부 LLM을 Databricks Marketplace 플랫폼에 쉽게 Databricks Model Serving 통합할 수 있습니다. Databricks Model Serving은 이러한 타사 모델의 구성, 자격 증명 및 권한을 REST API 를 통해 액세스할 수 있도록 합니다. 이렇게 하면 모든 애플리케이션이나 서비스에서 통합된 방식으로 사용할 수 있으며, 개발팀이 새로운 모델을 쉽게 추가할 수 있는 추상적인 계층을 제공하여 타사 API 통합이 필요하지 않습니다. 모델 서비스는 토큰 소비, 자격 증명 및 보안 액세스를 관리할 수 있게 해주므로 매우 중요합니다. 저희는 요청 시 CI/CD 적절한 Databricks 워크스페이스에 엔드포인트를 배포하는 프로세스와 함께 간단한 git 리포지토리를 사용하여 새 엔드포인트를 생성하고 배포하는 간단한 방법을 구축했습니다.

개발자는 데이터브릭스 엔드포인트를 통해 간접적으로 LLM 모델(예: Azure OpenAI API와 같은 외부 서비스 또는 데이터브릭스 마켓플레이스에서 배포할 수 있는 자체 호스팅된 기타 타사 모델)과 상호 작용할 수 있습니다. 저희는 자격 증명과 엔드포인트를 매개변수화하는 구성 JSON을 정의하는 git 리포지토리를 통해 플랫폼에 새 모델을 배포합니다. 이러한 자격 증명을 Azure Key 볼트에 안전하게 보관하고, 모델 제공을 위한 CI/CD 파이프라인을 사용하여 MLflow를 통해 Databricks에 모델을 배포합니다

Databricks Model Serving 워크플로 — *Figure 1: Databricks Model Serving workflow*

신규 릴리스 전 평가 심사위원으로서의 LLM

RAG 응답의 품질을 평가하는 것은 Santalucía에게 매우 중요합니다. VA에 새 문서를 수집할 때마다 업데이트된 버전을 릴리스 하기 전에 어시스턴트의 성능을 검토해야 합니다. 즉, 사용자가 응답의 품질을 평가할 때까지 기다릴 수 없으며, 프로덕션으로 확장하기 전에 시스템 자체에서 품질을 평가할 수 있어야 합니다.

저희가 제안한 솔루션은 CI/CD 파이프라인 내에서 대용량 LLM을 판독기로 사용합니다. VA의 답변이 얼마나 좋은지 추적하려면 먼저 전문가들이 검증한 근거가 되는 질문 세트를 만들어야 합니다. 예를 들어, 새로운 제품의 보장 범위를 VA에 포함하려면 문서를 확보하고 (직접 또는 LLM의 도움을 받아) 문서와 관련된 질문 세트와 각 질문에 대한 예상 답변을 개발해야 합니다. 여기서 중요한 점은 각 릴리스마다 실측 자료의 질문 / 답변 세트가 모델의 견고성을 높인다는 점입니다.

평가자로서의 LLM은 예상 답변과 VA에서 제공하는 답변 간의 정확성, 관련성 및 일관성을 측정하기 위한 자연어 기반 기준으로 구성됩니다. 따라서 근거 자료의 각 질문 / 답변에 대해 품질을 채점하는 것을 감독합니다. 예를 들어 다음과 같이 기준을 설계할 수 있습니다:

판단 기준 코드 — *Figure 2: LLM-as-a-judge criteria design*

CI/CD 파이프라인 내에 평가 프로세스를 구축합니다. 보훈처는 근거 자료를 사용하여 각 질문에 답하고, 평가자는 예상 답변과 보훈처가 제공한 답변을 비교하여 점수를 부여합니다. 다음은 두 가지 질문이 있는 예제입니다:

판사로서의 LLM — *Figure 3: example of a LLM-as-a-judge evaluation process*

첫 번째 장점은 분명합니다. VA가 정보를 검색하고 응답을 생성할 때 오작동한다는 사실을 사용자가 알려줄 때까지 기다릴 필요가 없습니다. 또한 프롬프트와 같이 코드의 일부 부분을 약간 조정해야 하는 경우도 종종 있습니다. 이와 같은 평가 시스템은 실측 데이터와 LLM을 기반으로 하여 사용자 경험을 개선하기 위해 프롬프트에 적용한 변경 사항이 이전에 제공된 릴리스의 응답 품질에 영향을 미치는지의 여부를 감지할 수 있게 도와줍니다.

결론

Santalucía Seguros는 GenAI 기반 가상 어시스턴트를 위해 RAG 프레임워크를 사용하여 강력하고 적응력이 뛰어난 아키텍처를 구현했습니다. 크리테오의 솔루션은 외부 LLM 모델과 고급 분석 플랫폼을 결합하여 데이터와 모델의 개인정보 보호, 보안 및 제어를 보장합니다. 응답의 속도와 품질은 비즈니스와 고객 만족에 매우 중요한 요소입니다. Databricks Model Serving 및 LLM-as-a-judge를 사용하여 가상 어시스턴트는 LLM 배포 모범 사례를 보여주면서 사용자의 기대치를 뛰어넘었습니다. 응답 품질, 성능, 비용 측면에서 솔루션을 더욱 개선하기 위해 최선을 다하고 있으며 Databricks 팀과의 더 많은 협력을 기대합니다.

Santalucía Seguros: 고객 서비스 및 상담원 효율성 향상을 위한 엔터프라이즈 레벨의 RAG

Databricks Model Serving

신규 릴리스 전 평가 심사위원으로서의 LLM

결론

최신 게시물을 이메일로 받아보세요

Sign up