주요 컨텐츠로 이동
Company Blog

효율적인 오픈 소스 LLM을 위한 새로운 표준, DBRX를 소개합니다

고유한 데이터에 맞게 커스터마이즈된 DBRX로 고품질 생성형 AI 애플리케이션을 구축하세요.
이 포스트 공유하기

(번역: Youngkyong Ko) Original Post

데이터브릭스의 사명은 모든 기업이 고유한 데이터를 사용하여 자체 AI 시스템을 구축할 수 있도록 데이터 인텔리전스를 제공하는 것입니다. 오늘, 우리는 표준 벤치마크에서 기존의 모든 오픈 소스 모델을 능가하는 범용 LLM(대규모 언어 모델)인 DBRX를 모자이크 연구팀에서 구축하고 오픈 소스화함으로써, 이러한 사명을 더욱 발전시키게 되어 기쁩니다. 우리는 오픈 소스 모델의 경계를 넓히면 모든 기업이 커스터마이즈 가능하고 투명한 생성형 AI를 구현할 수 있다고 믿습니다.

DBRX가 이토록 흥분되는 이유는 다음 세가지 입니다. 첫째, DBRX는 언어 이해, 프로그래밍, 수학, 논리 측면에서 LLaMA2-70B, Mixtral, Grok-1과 같은 오픈 소스 모델을 손쉽게 능가합니다(그림 1 참조). 실제로 오픈 소스 벤치마크 Gauntlet에는 30개 이상의 다양한 state-of-the-art(SOTA) 벤치마크가 포함되어 있으며 DBRX는 이 모든 모델들보다 우수한 성능을 보입니다. 이는 오픈 소스 모델의 품질이 지속적으로 개선되고 있음을 보여주는 것으로, 우리는 이러한 추세에 일조하고 있다는 것에 자부심을 느낍니다.

DBRX champ infographic
Figure 1: DBRX outperforms established open source models on language understanding (MMLU), Programming (HumanEval), and Math (GSM8K).

둘째, DBRX는 대부분의 벤치마크에서 GPT-3.5를 능가합니다(그림 2 참조). 이는 지난 분기에 12,000개 이상의 고객 기반에서 발견한 의미있는 변화와 관련하여 중요한 의미를 갖습니다. 기업과 조직은 더 나은 효율성과 제어 가능성을 위해 점점 더 독점 모델을 오픈 소스 모델로 대체하고 있습니다. 우리의 경험으로 볼 때, 많은 고객이 특정 업무에 맞게 오픈 소스 모델을 커스터마이즈함으로써 독점 모델의 품질과 속도를 능가하는 성과를 거둘 수 있습니다. DBRX가 이러한 추세를 더욱 가속화할 수 있기를 바랍니다. 

DBRX vs chat infographic
Figure 2: DBRX outperforms GPT3.5 across language understanding (MMLU), Programming (HumanEval), and Math (GSM8K)

셋째, DBRX는 MegaBlocks 리서치와 오픈 소스 프로젝트를 기반으로 구축된 전문가 혼합형(Mixture-of-Experts, MoE) 모델로, 초당 토큰 수 측면에서 매우 빠릅니다. 이는 향후 최신 오픈 소스 모델이 MoE로 발전하는 길을 열어 줄 것입니다. MoE가 기본적으로 더 큰 규모의 모델을 훈련하고 더 빠른 처리량으로 제공할 수 있으므로 이는 중요한 의미를 갖습니다. DBRX는 주어진 시간에 360억 개의 매개변수만 사용합니다. 하지만 모델 자체는 1,320억 개의 파라미터를 사용하므로 속도(토큰/초) 대 성능(품질) 측면에서 두 마리 토끼를 모두 잡을 수 있습니다.

DBRX instruct vs llama2
Figure 3: DBRX generation speed is significantly faster than LLaMA2-70B, as measured with Mosaic AI Model Serving.

앞서 언급한 세 가지 이유로 인해 오픈 소스 LLM이 계속해서 탄력을 받을 것으로 예상됩니다. 특히, 기업이 오픈 소스 LLM을 커스터마이즈하여 자사의 지적재산으로 삼아 업계에서 경쟁력을 확보할 수 있는 흥미로운 기회를 제공할 수 있다고 생각합니다.

이를 위해, 우리는 기업들이 DBRX를 쉽게 커스터마이즈하여 AI 애플리케이션의 품질을 향상시킬 수 있도록 설계했습니다. 오늘부터 기업들은 데이터브릭스 플랫폼에서 DBRX와 상호 작용하고, RAG 시스템에서 긴 컨텍스트 기능을 활용하고, 자체 내부 데이터를 이용하여 맞춤형 DBRX 모델을 구축할 수 있습니다. 이러한 커스터마이징 기능은 상업적으로 이용 가능한 가장 효율적인 MoE 학습 플랫폼을 기반으로 합니다. 오픈 소스 커뮤니티에서는 github 리포지토리와 Hugging Face를 통해 DBRX에 액세스할 수 있습니다. 

DBRX는 온전히 데이터브릭스 플랫폼 위에서 구축되었기 때문에, 모든 기업들은 동일한 도구와 기술을 사용하여 고품질의 자체 모델을 생성하거나 개선할 수 있습니다. 훈련 데이터는 Unity Catalog에서 중앙집중형으로 관리되고, Apache Spark™와 새로 인수한 Lilac AI로 처리 및 정제되었습니다. 대규모 모델 훈련과 미세 조정(fine-tuning)에는 Mosaic AI 훈련 서비스를 사용했습니다. 품질과 안전성에 대한 휴먼 피드백은 Mosaic AI Model Serving과 Inference Table을 통해 수집되었습니다. JetBlue, Block, NASDAQ, Accenture 등의 고객사과 파트너사들은 이미 이와 동일한 도구를 사용하여 고품질의 AI 시스템을 구축하고 있습니다.

"데이터브릭스는 우리의 가장 중요한 데이터 시스템들과 관련하여 나스닥의 핵심 파트너입니다. 데이터브릭스는 데이터 관리와 AI 활용 분야에서 계속해서 업계를 선도하고 있으며, 우리는 DBRX의 출시에 대해 큰 기대를 걸고 있습니다. 강력한 모델 성능과 뛰어난 모델 서빙 경제성의 결합이야말로 나스닥에서 생성형 AI 사용을 확대하면서 우리가 찾고 있는 혁신입니다."라고 나스닥의 AI 및 데이터 서비스 책임자 마이크 오루크(Mike O'Rourke)는 말합니다.

데이터브릭스는 고품질의 AI 애플리케이션을 구축할 수 있는 유일한 엔드투엔드 플랫폼이며, 오늘 출시된 최고 품질의 오픈 소스 모델인 DBRX는 이러한 역량을 보여주는 것입니다. 오픈 소스 커뮤니티와 기업 고객이 DBRX를 통해 무엇을 할 수 있을지 무척 기대됩니다.

더 자세히 알아보려면 기술 블로그를 읽고, 모델에 액세스하고, DBRX 웨비나에 참여하고, 데이터브릭스에서 DBRX를 시작하는 방법에 대한 설명서(AWS | Azure)를 읽어보세요.