주요 컨텐츠로 이동

검색 증강 생성(Retrieval Augmented Generation, RAG)

Databricks의 RAG를 사용하여 고품질의 생성형 AI 배포 구축

Retrieval Augmented Generation

검색 증강 생성(Retrieval Augmented Generation, RAG)은 질문이나 작업과 관련된 데이터/문서를 찾고 보다 정확한 응답을 제공하도록 이를 대규모 언어 모델(LLM)에 대한 컨텍스트로 제공하는 생성형 AI 애플리케이션 패턴입니다.

Databricks는 데이터 준비, 검색 모델, 언어 모델(SaaS 또는 오픈 소스), 순위 지정 및 사후 처리 파이프라인, 프롬프트 엔지니어링, 학습 모델 등 RAG 프로세스의 모든 측면을 결합하고 최적화하는 데 도움이 되는 RAG 도구 모음을 제공합니다.

Retrieval Augmented Generation
Retrieval Augmented Generation

오픈 소스 및 독점 SaaS 모델 활용

Databricks를 사용하면 모든 생성형 AI 모델을 배포, 모니터링, 관리, 쿼리할 수 있습니다. LangChain, Llama 2, MPT, BGE 등 많이 사용되는 대부분의 모델과 Azure OpenAI, Amazon Bedrock, Amazon SageMaker, Anthropic을 기반으로 한 모델들은 모델 서빙에서 관리 및 제어될 수 있으므로 모델로 쉽게 실험하고 프로덕션화하여 RAG 애플리케이션에 가장 적합한 후보를 찾을 수 있습니다.

Retrieval Augmented Generation

모든 유형의 데이터에 대해 자동화된 실시간 파이프라인

Databricks는 기본적으로 온라인 검색을 위한 데이터 제공 및 인덱싱을 지원합니다. 비정형 데이터(텍스트, 이미지, 비디오)의 경우 Vector Search는 자동으로 데이터를 색인화하여 제공하므로 별도의 데이터 파이프라인을 생성할 필요 없이 RAG 애플리케이션에서 해당 데이터에 액세스할 수 있습니다. 내부적으로 Vector Search는 오류를 관리하고 재시도를 처리하며 배치 크기를 최적화하여 성능과 처리량을 극대화하고 비용을 대폭 절감합니다. 정형 데이터의 경우 특성 및 기능 제공을 통해 기업이 사용자 정보를 기반으로 맞춤 설정하기 위해 프롬프트에 삽입하는 사용자 또는 계정 데이터와 같은 상황별 데이터에 대한 밀리초 규모의 쿼리를 제공합니다.

Retrieval Augmented Generation

RAG 애플리케이션을 프로덕션으로 빠르게 이동

Databricks를 사용하면 Databricks 또는 다른 모델 공급자가 미세 조정하거나 사전 배포한 대규모 언어 모델을 쉽게 배포, 관리, 쿼리, 모니터링할 수 있습니다. Databricks 모델 서빙은 컨테이너 구축 및 인프라 관리를 자동으로 처리하므로 유지 보수 비용을 줄이고 배포 속도를 높일 수 있습니다.

Retrieval Augmented Generation

거버넌스 기본 내장

Databricks에는 보안, 거버넌스, 모니터링 기능이 기본 내장되어 있습니다. RAG 애플리케이션은 데이터와 모델에 대해 세분화된 액세스 제어 권한을 갖습니다. 따라서 사용자가 속도 제한을 설정하고 모든 모델의 리니지를 추적할 수 있습니다. 그러면 RAG 애플리케이션에서 액세스가 허용되지 않은 사용자에게 기밀 데이터를 노출하지 않을 수 있습니다.

Retrieval Augmented Generation

프로덕션 환경의 품질 및 안전 보장

고객 대상 애플리케이션에 필요한 품질 표준을 충족하려면 AI 출력이 정확하고, 최신 상태여야 하며, 기업의 상황을 인식하고 안전해야 합니다. Databricks를 사용하면 LLM 자동 평가를 통해 모델 품질을 쉽게 이해할 수 있으므로 RAG 챗봇 응답의 유용성, 관련성 및 정확성이 개선됩니다. Lakehouse Monitoring은 애플리케이션 출력에서 악의적이거나, 비현실적이거나, 안전하지 않은 콘텐츠를 자동으로 스캔합니다. 이렇게 하면 이 데이터를 후속 작업을 위한 대시보드, 경고 또는 기타 다운스트림 데이터 파이프라인에 공급할 수 있습니다.