Mosaic AI Model Training에서 GenAI 모델 파인튜닝 지원 기능을 공개 프리뷰로 사용할 수 있게 되었습니다. Databricks는 범용 LLM의 지능을 기업 데이터와 연결하는 것 - 즉, 데이터 인텔리전스가 고품질 GenAI 시스템을 구축하는 핵심이라고 믿습니다. 파인튜닝을 통해 특정 작업, 비즈니스 맥락, 도메인 지식에 맞게 모델을 특화시킬 수 있으며, 더 정확한 애플리케이션을 위해 RAG와 결합할 수 있습니다. 이는 데이터 인 텔리전스 플랫폼 전략의 중요한 축을 형성하며, 기업 데이터를 통합하여 GenAI를 고유한 요구 사항에 맞게 조정할 수 있게 해줍니다.
지난 1년 동안 우리 고객들은 200,000개 이상의 맞춤형 AI 모델을 학습했으며, 우리는 이러한 교훈을 Mosaic AI Model Training이라는 완전 관리형 서비스로 정제했습니다. Llama 3, Mistral, DBRX 등 다양한 모델을 기업 데이터로 파인튜닝하거나 사전 학습할 수 있습니다. 그 결과로 생성된 모델은 Unity Catalog에 등록되어 모델과 가중치에 대한 완전한 소유권과 제어권을 제공합니다. 또한 Mosaic AI Model Serving을 통해 한 번의 클릭으로 쉽게 모델을 배포할 수 있습니다.
우리는 Mosaic AI Model Training을 다음과 같이 설계했습니다:
"Experian에서는 오픈소스 LLM의 파인튜닝 분야에서 혁신을 추구하고 있습니다. Mosaic AI Model Training은 우리 모델의 평균 학습 시간을 크게 단축시켜 하루에 여러 번 GenAI 개발 주기를 가속화할 수 있게 해주었습니다. 결과적으로 우리가 정의한 방식대로 작동하고, 우리의 사용 사례에 대해 상업용 모델보다 더 나은 성능을 발휘하며, 운영 비용이 크게 절감되는 모델을 얻게 되었습니다." James Lin, Experian AI/ML 혁신 책임자
Mosaic AI Model Training을 통해 오픈소스 모델을 기업의 전문화된 작업에 맞게 조정하여 더 높은 품질을 달성할 수 있습니다. 주요 이점은 다음과 같습니다:
"Databricks를 통해 우리는 LLM을 사용하여 100만 개 이상의 파일을 일일 처리하여 부동산 기록에서 거래 및 엔티티 데이터를 추출하는 지루한 수동 작업을 자동화할 수 있었습니다. Meta Llama3 8b를 파인튜닝하고 Mosaic AI Model Serving을 사용하여 정확도 목표를 초과 달성했습니다. 대규모의 고비용 GPU 플릿을 관리할 필요 없이 이 작업을 대규모로 확장할 수 있었습니다." - Prabhu Narsina, First American 데이터 및 AI 부사장
우리는 종종 고객들로부터 이런 질문을 듣습니다: 기업 데이터를 통합하기 위해 RAG를 사용해야 할까요, 아니면 모델을 파인튜닝해야 할까요? Retrieval Augmented Fine-tuning (RAFT)를 통해 둘 다 결합할 수 있습니다! 예를 들어, 우리의 고객인 Celebal Tech는 생성 모델을 파인튜닝하여 검색된 컨텍스트에서 요약 품질을 개선하고 환각(hallucination)을 줄이며 품질을 향상시켜 고품질 도메인 특화 RAG 시스템을 구축했습니다 (아래 그림 참조).
그림 1: 파인튜닝된 모델과 RAG를 결합(노란색)하여 Celebal Tech에 가장 높은 품질의 시스템을 제공했습니다. Celebal Tech의 블로그에서 발췌
"RAG로 한계에 도달한 것 같았습니다 - 많은 프롬프트와 지시(instruction)를 작성해야 했고, 그것은 골치 아픈 일이었습니다. 우리는 파인튜닝 + RAG로 전환했고 Mosaic AI Model Training이 그것을 매우 쉽게 만들어주었습니다! 이는 데이터 언어학과 도메인에 대한 모델 채택뿐만 아니라 RAG 시스템에서 환각을 줄이고 속도를 향상시켰습니다. Databricks에서 파인튜닝한 모델 을 RAG 시스템과 결합한 후, 우리는 더 적은 토큰을 사용하면서도 더 나은 애플리케이션과 정확도를 얻을 수 있었습니다." Anurag Sharma, Celebal Technologies 데이터 사이언스 AVP
평가 방법은 파인튜닝 실험 중 모델 품질과 기본 모델 선택에 대한 반복 작업을 돕는 데 중요합니다. 시각적 검사부터 LLM-as-a-Judge까지, 우리는 Mosaic AI Model Training이 Databricks 내의 다른 모든 평가 시스템과 원활하게 연결되도록 설계했습니다:
Databricks UI를 통해 또는 Python에서 프로그래밍 방식으로 모델을 파인튜닝할 수 있습니다. 시작하려면 Unity Catalog 또는 공개 Hugging Face 데이터셋에서 학습 데이터셋의 위치를 지정하고, 커스터마이즈하려는 모델과 원클릭 배포를 위한 모델 등록 위치를 선택하세요.
(번역: Youngkyong Ko) Original Post