주요 컨텐츠로 이동

검색 증강 생성(RAG)이란?

요약

  • RAG(Retrieval Augmented Generation)이 어떻게 대규모 언어 모델(LLM)과 실시간 외부 데이터를 결합하여 더 정확하고 관련성 높은 결과를 만들어내는지 알아보세요.
  • RAG가 고비용의 재학습 없이 환각(hallucination)을 줄이고, 도메인 특화 답변을 제공하는 등 특정 문제들을 어떻게 해결하는지도 확인해보세요.
  • 또한 고객 지원, 컴플라이언스, 엔터프라이즈 검색과 같은 산업 분야에서의 실제 활용 사례와 미래 동향을 살펴보세요.

검색 증강 생성(Retrieval Augmented Generation, RAG)이란?

Retrieval Augmented Generation(RAG)은 최신 외부 데이터 소스를 결합하여 대규모 언어 모델(LLM)을 보강하는 하이브리드 AI 프레임워크입니다. RAG는 정적인 학습 데이터에만 의존하는 대신, 쿼리 시점에 관련 문서를 검색하여 모델에 맥락으로 제공하는 방식을 사용합니다. 새로운 데이터와 문맥 기반 정보를 통합함으로써, AI는 더 정확하고 최신성이 있으며 도메인에 특화된 응답을 생성할 수 있습니다.

RAG는 엔터프라이즈급 AI 애플리케이션을 구축하기 위한 사실상 표준 아키텍처로 빠르게 자리 잡고 있습니다. 최근 조사에 따르면, 60%가 넘는 조직들이 내부 데이터를 활용하여 신뢰성을 높이고, 환각(hallucination)을 줄이며, 출력 결과를 개인화하기 위해 AI 기반 검색 도구를 개발하고 있습니다.

생성형 AI가 고객 서비스, 내부 지식 관리, 컴플라이언스와 같은 비즈니스 기능으로 확장됨에 따라, 일반적인 AI와 특정 조직 지식 간의 격차를 메워주는 RAG의 능력은 신뢰할 수 있고 실제적인 배포를 위한 핵심 기반으로 자리매김하고 있습니다.

자세히 보기

Databricks Data + AI Summit 라이브 스트리밍: 6월 12일 - 13일

라이브 스트리밍으로 제공되는 기조 연설과 주요 세션을 이틀간 무료로 참여하실 수 있으며, 행사 종료 후에는 온디맨드 다시보기가 제공됩니다.

사전 등록 신청

LLM의 잠재력 활용

AI로 효율성을 높이고 비용을 절감하는 방법

지금 다운로드

Databricks는 실행 및 비전 부문에서 #1위를 차지했습니다

2025 Gartner Magic Quadrant™ 데이터 과학 및 머신 러닝 플랫폼 부문.

지금 읽기

RAG의 작동 방식

RAG는 외부 데이터 소스에서 검색한 문맥 기반(real-time, context-aware) 정보를 언어 모델 출력에 주입함으로써 결과를 강화합니다. 사용자가 쿼리를 제출하면, 시스템은 먼저 검색 모델을 작동시켜 벡터 데이터베이스를 활용해 의미적으로 유사한 문서, 데이터베이스 또는 기타 관련 소스를 식별하고 “검색(retrieve)”합니다. 이렇게 식별된 결과는 원래의 입력 프롬프트와 결합되어 생성형 AI 모델에 전달되며, 모델은 새로 추가된 정보를 자체적으로 통합·가공합니다.

이를 통해 LLM은 학습 시점의 데이터에만 의존하지 않고, 최신 정보나 기업 특화 데이터에 기반한 더 정확하고 문맥 인지적인 답변을 생성할 수 있습니다.

일반적으로 RAG 파이프라인은 네 단계로 이루어집니다: 문서 준비 및 청킹(document preparation and chunking), 벡터 인덱싱(vector indexing), 검색(retrieval), 프롬프트 증강(prompt augmentation). 이와 같은 프로세스는 개발자가 모델을 재학습시키지 않고도 데이터 소스를 업데이트할 수 있게 하며, 고객 지원, 지식 베이스, 내부 검색과 같은 분야에서 LLM 애플리케이션을 구축하기 위한 확장 가능하고 비용 효율적인 솔루션이 됩니다.

검색 증강 생성 접근 방식으로 해결할 수 있는 문제는 무엇인가요?

문제 1: LLM 모델이 데이터를 알지 못합니다.

LLM은 딥 러닝 모델을 사용하고 대규모 데이터세트로 학습시켜 새로운 콘텐츠를 이해, 요약 및 생성합니다. 대부분의 LLM은 광범위한 공개 데이터로 학습되었으므로 하나의 모델로 다양한 유형의 작업이나 질문에 응답할 수 있습니다. 한 번 학습되면, 많은 LLM은 학습 데이터 컷오프 지점을 넘어서는 데이터에는 액세스할 수 없습니다. 이는 LLM은 정적 상태로 만들어 학습하지 않은 데이터에 대한 질문을 받았을 때 잘못 응답하거나 오래된 답변 또는 환각 현상을 제공할 수 있습니다.

문제 2: AI 애플리케이션의 효과를 높이려면 맞춤형 데이터를 활용해야 합니다.

LLM이 관련성 높은 구체적인 응답을 제공하려면 조직은 광범위하고 일반화된 응답을 제공하는 대신 조직의 관련 도메인을 이해하고 자체 데이터를 바탕으로 답변을 제공하는 모델이 필요합니다. 예를 들어, 조직은 LLM을 사용하여 고객 지원 봇을 구축하여 고객 질문에 기업 특정 답변을 제공해야 합니다. 다른 조직에서는 내부 HR 데이터에 대한 직원의 질문에 답변할 수 있는 내부 Q&A 봇을 구축하고 있습니다. 기업이 이러한 모델을 다시 학습시키지 않고 솔루션을 구축하려면 어떻게 해야 할까요?

솔루션: 검색 증강은 이제 업계 표준이 되었습니다.

자체 데이터를 대중적인 방법으로 가장 손 쉽게 사용하는 방법은 LLM 모델을 쿼리하는 프롬프트의 일부로 해당 데이터를 제공하는 것입니다. 이를 검색 증강 생성(RAG)이라고 하며 관련 데이터를 검색하여 LLM의 증강 컨텍스트로 사용하기 때문입니다. RAG 워크플로는 학습 데이터에서 파생된 지식에만 의존하지 않고 관련 정보를 가져와서 정적 LLM을 실시간 데이터 검색과 연결합니다.

RAG 아키텍처를 사용하면 조직은 모델을 미세 조정하거나 사전 학습시키는 데 비용과 시간을 들이지 않고 소량의 데이터를 제공하여 LLM 모델을 배포하고 이를 보강하여 조직에 관련성 높은 결과를 반환할 수 있습니다.

RAG의 사용 사례에는 어떤 것이 있나요?

RAG에는 다양한 사용 사례가 있습니다. 가장 일반적인 사용 사례는 다음과 같습니다.

  1. 질문-응답 챗봇: LLM을 챗봇에 통합하면 회사 문서와 지식 베이스에서 보다 정확한 답변을 자동으로 도출할 수 있습니다. 이러한 챗봇은 고객 지원과 웹사이트 리드 후속 조치를 자동화하여 질문에 답하고 문제를 신속하게 해결하는 데 활용됩니다.

    예를 들어, 다국적 데이터 브로커이자 신용 정보 보고 회사인 Experian은 내부 및 고객용 요구를 충족시키기 위한 챗봇을 구축하고자 했습니다. 기존 챗봇 기술은 수요를 감당할 규모로 확장하는 데 어려움을 겪고 있음을 빠르게 깨달았습니다. Databricks Data Intelligence Platform 위에 GenAI 챗봇인 Latte를 구축함으로써, Experian은 프롬프트 처리와 모델 정확도를 개선할 수 있었고, 팀은 다양한 프롬프트를 실험하고 출력물을 세밀하게 조정하며 GenAI 기술 변화에 빠르게 적응할 수 있는 더 큰 유연성을 얻었습니다.

  2. 검색 증강(Search Augmentation): LLM을 검색 엔진과 결합하여 LLM이 생성한 답변으로 검색 결과를 보강하면 정보성 쿼리에 더 잘 답할 수 있으며, 사용자가 업무 수행에 필요한 정보를 쉽게 찾을 수 있습니다.
  3. 지식 엔진(Knowledge Engine): 자사 데이터를 기반으로 질문에 답할 수 있습니다(예: HR, 컴플라이언스 문서). 회사 데이터가 LLM의 문맥으로 활용되면 직원들이 혜택 및 정책 관련 HR 질문, 보안 및 컴플라이언스 관련 질문 등 다양한 질문에 쉽게 답을 얻을 수 있습니다.

    이러한 활용 사례 중 하나는 동남아시아의 선도적 자동차 그룹인 Cycle & Carriage입니다. 이 회사는 Databricks Mosaic AI를 활용하여 RAG 챗봇을 개발했으며, 기술 매뉴얼, 고객 지원 기록, 업무 프로세스 문서 등 자사 지식 베이스를 활용해 생산성과 고객 참여를 향상시켰습니다. 이를 통해 직원들은 자연어 쿼리를 사용하여 문맥적이고 실시간으로 답변을 제공받으며 정보를 더 쉽게 검색할 수 있게 되었습니다.

RAG의 이점은 무엇인가요?

RAG 접근 방식에는 다음과 같은 여러 가지 주요 이점이 있습니다.

  1. 최신의 정확한 응답 제공: RAG는 LLM의 응답이 정적이고 오래된 학습 데이터에만 의존하지 않도록 보장합니다. 오히려 모델은 최신 외부 데이터 소스를 사용하여 응답을 제공합니다.
  2. 부정확한 응답 및 환각 현상 감소: LLM 모델의 출력은 관련된 외부 지식에 기반하므로 RAG는 부정확하거나 허구의 정보를 사용한 대응(환각 현상)의 위험을 완화하기 위해 노력합니다. 출력에는 원본 출처의 인용이 포함될 수 있으므로 사람이 확인할 수 있습니다.
  3. 도메인별 관련 응답 제공: LLM은 RAG를 사용하여 조직의 독점 데이터 또는 도메인별 데이터에 맞게 상황에 맞는 관련성 높은 응답을 제공할 수 있습니다.
  4. 탁월한 효율성 및 비용 효과성: 도메인별 데이터로 LLM을 맞춤 구성하는 다른 접근 방식에 비해 RAG는 간단하고 비용 효율적입니다. 조직은 모델을 맞춤 구성할 필요 없이 RAG를 배포할 수 있습니다. 이는 모델을 새로운 데이터로 자주 업데이트해야 할 때 특히 유용합니다.

어떤 경우에 RAG를 사용하고 모델을 미세 조정해야 하나요?

RAG는 유용한 출발점으로, 쉽게 사용할 수 있으며 일부 사용 사례에 사용하기에 충분합니다. 미세 조정은 LLM의 동작을 변경하거나 다른 '언어'의 학습과 같은 다양한 상황에서 가장 적합합니다. RAG와 미세 조정은 상호 배타적이지 않습니다. 이후 단계에서 도메인 언어와 원하는 출력 형식을 더 잘 이해하기 위해 모델을 미세 조정하는 것을 고려하고 RAG를 사용하여 응답의 품질과 관련성을 향상시키는 것도 가능합니다.

데이터로 LLM을 맞춤 구성하려는 경우의 전체 옵션과 가장 적합한 방법은 무엇인가요? (예: 프롬프트 엔지니어링, RAG, 미세 조정, 사전 학습)

조직의 데이터로 대규모 언어 모델(LLM) 솔루션을 맞춤 설정할 때 4가지 아키텍처 패턴을 고려해야 합니다. 이러한 기술은 아래에 요약되어 있으며, 상호 배타적이지 않습니다. 반대로. 각각의 장점을 활용하기 위해 서로 결합할 수 있거나 결합해야 합니다.

방법정의기본 사용 사례데이터 요구 사항장점고려 사항

프롬프트 엔지니어링

프롬프트 엔지니어링

LLM 동작을 안내하는 특수 프롬프트 제작빠르고 즉각적인 모델 안내없음빠르고 비용 효율적이며 학습이 필요하지 않음미세 조정보다 낮은 제어 수준

검색 증강 생성(Retrieval Augmented Generation, RAG)

검색 증강 생성(Retrieval Augmented Generation, RAG)

LLM과 외부 지식 검색 결합 동적 데이터세트 및 외부 지식외부 지식 베이스 또는 데이터베이스(예: 벡터 데이터베이스) 동적으로 업데이트되는 컨텍스트, 정확도 향상프롬프트 길이 및 추론 계산 증가

미세 조정

미세 조정

특정 데이터세트 또는 도메인에 맞춰 사전 학습된 LLM 조정도메인 또는 작업 전문화수천 개의 도메인 특정 또는 명령 예시세분화된 제어, 높은 수준의 전문화이 레이블이 지정된 데이터, 컴퓨팅 비용 필요

사전 학습

사전 학습

LLM을 처음부터 학습시키기고유한 작업 또는 도메인 특정 말뭉치대규모 데이터세트(수십억에서 수조 개의 토큰)특정 요구 사항에 맞게 조정된 최대 제어 수준리소스 집약적

선택한 기술에 관계없이 잘 구조화되고 모듈화된 방식으로 솔루션을 구축하면 조직은 반복과 조정 작업을 수행할 수 있는 준비가 됩니다. 이 접근 방식에 대한 자세한 내용은 MLOps의 Big Book을 참조하세요.

RAG 구현 시 흔히 발생하는 과제들

RAG를 대규모로 구현할 때는 여러 기술적·운영적 과제가 발생합니다.

  1. 검색 품질(Retrieval Quality). 가장 강력한 LLM이라도 관련성이 낮거나 품질이 떨어지는 문서를 검색하면 부정확한 답변을 생성할 수 있습니다. 따라서 임베딩 모델, 유사도 측정 기준, 랭킹 전략 등을 신중하게 선택한 효과적인 검색 파이프라인을 구축하는 것이 매우 중요합니다.
  2. 컨텍스트 윈도우 제한(Context Window Limitations). 전 세계 모든 문서를 활용할 수 있다고 해도, 모델에 너무 많은 내용을 주입하면 소스가 잘리거나 답변이 희석될 위험이 있습니다. 따라서 청킹(chunking) 전략은 토큰 효율성과 의미적 일관성을 균형 있게 고려해야 합니다.
  3. 데이터 최신성(Data Freshness). RAG의 장점은 최신 정보를 활용할 수 있다는 점에 있습니다. 그러나 문서 인덱스는 정기적 데이터 수집 작업이나 자동 업데이트가 없으면 빠르게 오래된 정보가 될 수 있습니다. 데이터를 신선하게 유지함으로써 환각(hallucination)이나 구식 답변을 방지할 수 있습니다.
  4. 지연(Latency). 대규모 데이터셋이나 외부 API를 다룰 때는 검색, 랭킹, 생성 과정에서 지연이 발생할 수 있습니다.
  5. RAG 평가(RAG Evaluation). RAG는 하이브리드 구조이므로 기존 AI 평가 모델만으로는 한계가 있습니다. 출력의 정확성을 평가하기 위해서는 인간의 판단, 관련성 점수, 근거 확인(groundedness) 등을 결합하여 응답 품질을 종합적으로 평가해야 합니다.
     

RAG 애플리케이션을 위한 참조 아키텍처란 무엇인가요?

검색 증강 생성 시스템을 구현하는 방법에는 여러 가지가 있으며, 이는 특정 요구 사항과 데이터의 미묘한 차이에 따라 달라집니다. 다음은 프로세스에 대한 기본적인 이해를 제공하기 위해 일반적으로 채택되는 워크플로입니다.

  1. 데이터 준비: 문서 데이터는 메타데이터와 함께 수집되고 PII 처리(감지, 필터링, 수정, 대체)와 같은 초기 전처리를 거칩니다. RAG 애플리케이션에서 사용하려면 임베딩 모델 옵션과 문서를 컨텍스트로 사용하는 다운스트림 LLM 애플리케이션에 따라 문서를 적절한 길이로 분할해야 합니다.
  2. 관련 데이터 인덱싱: 문서 임베딩을 생성하고 이 데이터로 Vector Search 인덱스를 수화(hydrate )합니다.
  3. 관련 데이터 검색: 데이터에서 사용자의 쿼리와 관련된 부분을 검색합니다. 그러면 텍스트 데이터가 LLM에 사용되는 프롬프트의 일부로 제공됩니다.
  4. LLM 애플리케이션 빌드: 프롬프트 증강의 구성 요소를 래핑하고 LLM을 엔드포인트로 쿼리합니다. 그러면 이 엔드포인트가 간단한 REST API를 통해 질의 응답 챗봇과 같은 애플리케이션에 노출될 수 있습니다.

Databricks는 RAG 아키텍처의 몇 가지 주요 아키텍처 요소도 권장합니다.

  • 벡터 데이터베이스: 전부가 아닌 일부 LLM 애플리케이션은 빠른 유사성 검색에 벡터 데이터베이스를 사용하며, 대부분의 경우 LLM 쿼리에서 컨텍스트 또는 도메인 지식을 제공합니다. 배포된 언어 모델이 최신 정보에 액세스할 수 있도록 정기적인 벡터 데이터베이스 업데이트를 작업으로 예약할 수 있습니다. 벡터 데이터베이스에서 검색하고 LLM 컨텍스트에 정보를 삽입하는 논리는 MLflow, LangChain, PyFunc 등의 모델 종류를 사용하여 MLflow에 기록된 모델 아티팩트에 패키징할 수 있습니다.
  • MLflow LLM 배포 또는 Model Serving: 타사 LLM API를 사용하는 LLM 기반 애플리케이션에서 외부 모델에 대한 MLflow LLM 배포 또는 Model Serving 지원을 표준화된 인터페이스로 사용하여 OpenAI 및 Anthropic과 같은 공급업체의 요청을 라우팅할 수 있습니다. 엔터프라이즈급 API 게이트웨이를 제공하는 것 외에도 MLflow LLM 배포 또는 Model Serving은 API 키 관리를 중앙 집중화하고 비용 제어하는 기능을 제공합니다.
  • Model Serving: 타사 API를 사용하는 RAG의 경우, 한 가지 주요 아키텍처 변경 사항은 LLM 파이프라인이 Model Serving 엔드포인트에서 내부 또는 타사 LLM API로 외부 API 호출을 수행한다는 것입니다. 이로 인해 복잡성이 가중되고, 대기 시간이 길어지며, 자격 증명 관리가 강화될 수 있다는 점에 유의해야 합니다. 반대로, 미세 조정된 모델의 경우 모델과 해당 모델 환경이 배포됩니다.

리소스

Databricks 고객의 RAG 사용 사례

JetBlue

JetBlue는 기업 데이터로 보완된 오픈 소스 생성형 AI 모델을 사용하는 Databricks 기반 챗봇인 'BlueBot'을 배포했습니다. 이 챗봇은 JetBlue의 모든 팀에서 역할별로 관리되는 데이터에 액세스하는 데 사용할 수 있습니다. 예를 들어 재무팀은 SAP 및 규제 관련 보고 자료의 데이터를 볼 수 있지만, 운영팀은 유지 관리 정보만 볼 수 있습니다.

기사도 참조하세요.

Chevron Phillips

Chevron Phillips Chemical은 Databricks를 사용하여 문서 프로세스 자동화를 비롯한 생성형 AI 이니셔티브를 지원합니다.

Thrivent Financial

Thrivent Financial은 생성형 AI를 사용하여 검색 기능을 개선하고, 더 쉽게 액세스할 수 있는 요약된 인사이트를 생성하며, 엔지니어링의 생산성을 높일 방법을 찾고 있습니다.

검색 증강 생성에 대한 자세한 내용은 어디에서 찾을 수 있나요?

다음을 비롯한 다양한 리소스를 참고할 수 있습니다.

블로그

eBook

데모

Databricks에 연락해 데모를 예약하고 LLM 및 검색 증강 생성(RAG) 프로젝트에 대해 문의하시기 바랍니다.

RAG 기술의 미래

RAG는 임시방편적 해결책에서 기업용 AI 아키텍처의 핵심 구성 요소로 빠르게 발전하고 있습니다. LLM의 성능이 향상됨에 따라 RAG의 역할도 변화하고 있습니다. 단순히 지식의 공백을 채우는 수준에서 벗어나, 구조화되고 모듈화되며 보다 지능적인 시스템으로 진화하고 있습니다.

RAG가 발전하는 한 가지 방식은 하이브리드 아키텍처입니다. 여기서는 RAG가 도구, 구조화된 데이터베이스, 함수 호출 에이전트와 결합됩니다. 이러한 시스템에서 RAG는 비정형 데이터를 기반으로 근거를 제공하고, 구조화된 데이터나 API는 보다 정밀한 작업을 처리합니다. 이러한 멀티모달 아키텍처는 조직에 보다 신뢰할 수 있는 엔드투엔드 자동화를 제공합니다.

또 다른 중요한 발전은 리트리버-제너레이터 공동 학습(retriever-generator co-training)입니다. 이 모델에서는 RAG 리트리버와 제너레이터가 함께 학습하여 서로의 답변 품질을 최적화합니다. 이를 통해 수동 프롬프트 엔지니어링이나 미세 조정(fine-tuning)의 필요성을 줄이고, 적응형 학습(adaptive learning), 환각 감소, 리트리버와 제너레이터의 전반적 성능 향상 등의 효과를 가져옵니다.

LLM 아키텍처가 성숙함에 따라 RAG는 더욱 매끄럽고 문맥에 맞는 시스템으로 발전할 가능성이 높습니다. 제한된 메모리와 정보 저장을 넘어, 실시간 데이터 흐름, 다문서 추론, 지속적 메모리(persistent memory)를 처리할 수 있는 새로운 시스템이 등장하면서, RAG는 지식이 풍부하고 신뢰할 수 있는 보조 도구가 될 것입니다.

자주 묻는 질문(FAQ)

Retrieval Augmented Generation(RAG)이란 무엇인가요?
RAG는 LLM을 강화하는 AI 아키텍처로, 관련 문서를 검색하고 이를 프롬프트에 주입하여 보다 정확하고 최신이며 도메인 특화된 응답을 생성합니다. 모델을 재학습하지 않고도 이를 구현할 수 있습니다.

언제 RAG를 사용하고 미세 조정(fine-tuning)을 사용하지 않아야 하나요?
동적 데이터를 활용하고 싶지만, 미세 조정의 비용이나 복잡성을 피하고 싶을 때 RAG를 사용하세요. 정확하고 시의적절한 정보가 필요한 사례에 이상적입니다.

RAG가 LLM의 환각(hallucination)을 줄여줄 수 있나요?
네. RAG는 최신 검색 데이터를 기반으로 답변을 제공함으로써 환각 발생 가능성을 줄입니다. 특히 의료, 법률, 기업 지원 등 높은 정확성이 요구되는 분야에서 효과적입니다.

RAG는 어떤 데이터를 필요로 하나요?
RAG는 PDF, 이메일, 내부 문서와 같은 비정형 텍스트 데이터를 사용하며, 검색 가능한 형태로 저장됩니다. 일반적으로 벡터 데이터베이스에 저장되며, 관련성을 유지하기 위해 인덱싱과 정기적 업데이트가 필요합니다.

RAG 시스템은 어떻게 평가하나요?
RAG 시스템은 관련성 점수, 근거 확인(groundedness), 인간 평가, 작업별 성능 지표를 조합하여 평가합니다. 또한 리트리버-제너레이터 공동 학습 모델이 적용되면, 모델이 서로 학습하고 훈련함으로써 정기 평가가 더 수월해질 가능성이 있습니다.

    용어집으로 돌아가기