조직 내부 또는 다양한 클라우드, 플랫폼, 리전 간에 AI 모델을 검색, 평가, 설치, 공유 및 서빙해 보세요.
작성자: Tianyi Huang, 다르샤나 시바쿠마르, 아크람 체티비, 해리시 가우르, Tao Tao, Bemnet Merha , Prasad Kona
Delta Sharing이 에이전트 스킬(Agent Skills), AI 모델, 비정형 데이터를 포함한 AI 자산을 안전하게 공유하기 위한 최초의 개방형 벤더 중립적 프로토콜인 OpenSharing으로 발전했습니다. 발표 내용을 확인해 보세요.
Databricks Delta Sharing 및 Databricks Marketplace 내 AI 모델 공유(AI Model Sharing)의 정식 출시(General Availability) 소식을 전해드리게 되어 기쁩니다. 이번 이정표는 2024년 1월 퍼블릭 프리뷰 발표에 이은 것입니다. 퍼블릭 프리뷰 출시 이후, 당사는 AI 모델 공유를 더욱 간소화하기 위해 Bitext, AI21 Labs, Ripple과 같은 새로운 AI 모델 공유 고객 및 제공업체들과 협력해 왔습니다.
Delta Sharing을 사용하면 AI 모델을 안전하고 쉽게 공유하고 서빙할 수 있습니다. 조직 내부뿐만 아니라 클라우드, 플랫폼, 리전을 넘어 외부와도 공유할 수 있습니다. 또한, Databricks Marketplace에는 현재 John Snow Labs, OLA Krutrim, Bitext의 새로운 산업 특화 AI 모델뿐만 아니라 Databricks DBRX, Llama 3, AI21 Labs, Mistral 등과 같은 파운데이션 모델을 포함하여 75개 이상의 AI 모델이 등록되어 있습니다. 이 블로그에서는 AI 모델 공유의 비즈니스 필요성을 살펴보고, AI21의 Jamba 1.5 Mini 파운데이션 모델과 Bitext 모델을 활용한 사용 사례를 자세히 알아보겠습니다.
또한 이제 Unity Catalog에서 AI 모델을 즉시 사용할 수 있어 사용자가 모델에 액세스하고 효율적으로 배포하는 프로세스가 간소화되었습니다. 이러한 발전은 사용자 경험을 단순화할 뿐만 아니라 AI 모델의 접근성을 높여 다양한 플랫폼과 리전에서 원활한 통합 및 배포를 지원합니다.
초기 도입 고객 및 출시 파트너를 통해 확인한 Databricks AI 모델 공유의 3가지 이점은 다음과 같습니다.
AI 모델 공유는 Delta Sharing을 기반으로 합니다. 제공업체는 Delta Sharing을 사용하여 고객에게 직접 AI 모델을 공유하거나, 마찬가지로 Delta Sharing을 사용하는 Databricks Marketplace에 모델을 등록하여 공유할 수 있습니다.
Delta Sharing을 사용하면 필요한 곳 어디에서나 AI 모델을 쉽게 사용할 수 있습니다. 어디서나 모델을 학습시킨 다음, 수동으로 이동할 필요 없이 어디서나 사용할 수 있습니다. 모델 가중치(즉, AI 모델이 학습 과정에서 학습한 매개변수)가 서빙 엔드포인트(즉, 모델이 "상주"하는 위치)로 자동으로 가져와집니다. 이를 통해 모델 학습 또는 미세 조정이 끝날 때마다 모델을 번거롭게 이동할 필요가 없어 단일 진실 공급원(single source of truth)을 보장하고 서빙 프로세스를 간소화합니다. 예를 들어, 고객은 가장 저렴한 학습 인프라를 제공하는 클라우드 및 리전에서 모델을 학습시킨 다음, 추론 지연 시간(즉, AI 모델이 데이터를 처리하고 결과를 제공하는 데 걸리는 시간)을 최소화하기 위해 최종 사용자와 더 가까운 다른 리전에서 모델을 서빙할 수 있습니다.
Delta Sharing을 기반으로 하는 Databricks Marketplace를 사용하면 75개 이상의 AI 모델을 쉽게 찾고 사용할 수 있습니다. 이 모델들을 로컬 시스템에 있는 것처럼 설정할 수 있으며, 배포나 업그레이드 중에 Delta Sharing이 자동으로 업데이트합니다. 지식 베이스 관리와 같은 작업을 위해 자체 데이터로 모델을 맞춤 설정할 수도 있습니다. 제공업체는 모델의 단일 복사본만 있으면 모든 Databricks 클라이언트와 공유할 수 있습니다.
2024년 1월 AI 모델 공유의 퍼블릭 프리뷰가 발표된 이후, 당사는 여러 고객 및 파트너와 협력하여 AI 모델 공유가 기업에 상당한 비용 절감 효과를 제공할 수 있도록 노력해 왔습니다.
"저희는 일부 제품에 강화 학습(RL) 모델을 사용합니다. 지도 학습 모델에 비해 RL 모델은 학습 시간이 더 길고 학습 과정에서 무작위성의 요인이 많습니다. 이러한 RL 모델은 서로 다른 AWS 리전의 3개 워크스페이스에 배포되어야 합니다. 모델 공유를 사용하면 모델을 다시 학습시키거나 모델을 이동하는 번거로운 수동 단계 없이 하나의 RL 모델을 여러 워크스페이스에서 사용할 수 있습니다." — Mihir Mavalankar, Ripple의 Machine Learning Engineer
생성형 AI 및 대규모 언어 모델 분야의 선두 주자인 AI21 Labs는 Jamba 1.5 모델 제품군의 일부인 Jamba 1.5 Mini를 Databricks Marketplace에 출시했습니다. AI21 Labs의 Jamba 1.5 Mini는 기업용 AI 언어 모델에 대한 새로운 접근 방식을 제시합니다. 혁신적인 하이브리드 Mamba-Transformer 아키텍처는 뛰어난 속도 및 품질과 함께 256K 토큰의 유효 컨텍스트 창(context window)을 지원합니다. 컴퓨팅의 효율적인 사용을 위해 최적화된 Mini는 단일 GPU에서 최대 140K 토큰의 컨텍스트 길이를 처리할 수 있습니다.
"AI21 Labs는 Jamba 1.5 Mini가 이제 Databricks Marketplace에 출시되었음을 발표하게 되어 기쁩니다. Delta Sharing을 통해 기업은 256K 컨텍스트 창을 특징으로 하는 당사의 Mamba-Transformer 아키텍처에 액세스하여 혁신적인 AI 솔루션을 위한 뛰어난 속도와 품질을 보장받을 수 있습니다."— Pankaj Dugar, AI21 Labs의 SVP & GM
AI 모델에서 256K 토큰의 유효 컨텍스트 창은 모델이 한 번에 256,000 토큰의 텍스트를 처리하고 고려할 수 있는 능력을 의미합니다. 이는 AI21 모델이 크고 복잡한 데이터 세트를 처리할 수 있게 해주므로 긴 문서나 복잡한 데이터 집약적 워크플로와 같이 광범위한 정보를 이해하고 분석해야 하는 작업에 특히 유용하며, 모든 RAG 기반 워크플로의 검색 단계를 개선하므로 매우 중요합니다. Jamba의 하이브리드 아키텍처는 일반적으로 Transformer 기반 LLM이 주장하는 컨텍스트 창에서 나타나는 현상과 달리, 컨텍스트가 증가하더라도 모델의 품질이 저하되지 않도록 보장합니다.

Databricks Marketplace에서 AI21 Jamba 1.5 Mini 모델을 가져와 미세 조정하고 서빙하는 방법을 보여주는 동영상 튜토리얼을 확인해 보세요.
Jamba 1.5 Mini의 256k 컨텍스트 창은 모델이 단일 프롬프트에서 800페이지 분량의 텍스트에 해당하는 양을 효율적으로 처리할 수 있음을 의미합니다. 다양한 산업 분야의 Databricks 고객이 이러한 모델을 어떻게 활용할 수 있는지 몇 가지 예를 소개합니다.
Bitext는 Databricks Marketplace에서 사전 훈련된 버티컬 모델을 제공합니다. 이 모델들은 소매 금융(Retail Banking) 도메인을 위한 챗봇, 가상 비서 및 코파일럿 제작에 맞게 미세 조정(fine-tuning)된 Mistral-7B-Instruct-v0.2 모델의 버전으로, 고객에게 은행 업무 요구 사항에 대한 빠르고 정확한 답변을 제공합니다. 이러한 모델은 GPT, Llama, Mistral, Jamba, OpenELM 등 모든 파운데이션 모델 제품군에 대해 제작될 수 있습니다.
한 선도적인 소셜 트레이딩 앱은 사용자 온보딩 과정에서 높은 이탈률을 겪고 있었습니다. 이 앱은 Bitext의 사전 훈련된 버티컬 금융 모델을 활용하여 온보딩 프로세스를 개편하고, 정적인 양식을 대화형의 직관적이고 개인화된 사용자 경험으로 전환했습니다.
Bitext는 버티컬 AI 모델을 고객과 공유했습니다. 데이터 과학자는 해당 모델을 기반으로 자주 묻는 질문(FAQ)과 같은 고객 맞춤형 데이터를 사용하여 초기 미세 조정을 수행했습니다. 이 단계를 통해 모델이 사용자층의 고유한 요구 사항과 언어를 이해할 수 있도록 했습니다. 이후 Databricks를 통한 고급 미세 조정이 진행되었습니다.
Bitext 모델이 미세 조정된 후, Databricks AI Model Serving을 사용하여 배포되었습니다.
이 협업은 소셜 금융 부문 내 사용자 상호 작용의 새로운 기준을 제시하여 고객 참여와 유지율을 크게 향상시켰습니다. 공유된 AI 모델이 제공한 빠른 시작 덕분에 전체 구현이 2주 만에 완료되었습니다.
Databricks Marketplace에서 Bitext 버티컬 AI 모델을 설치하고 미세 조정하는 방법을 보여주는 데모를 여기에서 확인해 보세요.
"많은 훈련 데이터가 필요한 일반적인 모델과 달리, 특정 산업에 특화된 모델로 시작하면 맞춤화하는 데 필요한 데이터가 줄어듭니다. 이를 통해 고객은 맞춤형 AI 모델을 빠르게 배포할 수 있습니다. 저희는 AI Model Sharing에 대해 매우 기쁘게 생각합니다. 고객들은 Databricks Marketplace에서 제공되는 특화된 AI 모델을 통해 리소스 비용을 최대 60% 절감(데이터 과학자 수 감소 및 컴퓨팅 요구 사항 감소)하고 운영 중단을 최대 50% 줄일(더 빠른 테스트 및 배포) 수 있었습니다." — Antonio S. Valderrábanos , 설립자 겸 CEO, Bitext
| 비용 구성 요소 | 일반 LLM 접근 방식 | Databricks Marketplace의 Bitext 버티컬 모델 | 비용 절감률 (%) |
| 버티컬화(Verticalization) | 높음 - 분야 및 사용 사례에 대한 광범위한 미세 조정 | 낮음 - 사전 미세 조정된 버티컬 LLM으로 시작 | 60% |
| 회사 데이터로 맞춤화 | 보통 - 추가 미세 조정 필요 | 낮음 - 특정 맞춤화 필요 | 30% |
| 총 훈련 시간 | 3~6개월 | 1~2개월 | 50~60% 단축 |
| 리소스 할당 | 높음 - 더 많은 데이터 과학자 및 컴퓨팅 성능 필요 | 낮음 - 덜 집약적임 | 40-50% |
| 운영 중단 | 높음 - 통합 및 테스트 단계가 더 길어짐 | 낮음 - 더 빠른 배포 | 50% |
이제 Delta Sharing과 Databricks Marketplace의 새로운 AI 모델 모두에 대해 AI 모델 공유를 정식 버전(GA)으로 사용할 수 있으므로 다음을 권장합니다.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.