Published: March 24, 2023
작성자: 마이크 코노버, Matt Hayes, 안킷 마투르, 샹루이 멍, 젠웨이 셰, 준완, Ali Ghodsi, Patrick Wendell, Matei Zaharia
2023년 4월 12일 업데이트: 연구 및 상업적 용도로 모두 사용이 허가된 Dolly 2.0을 출시했습니다. 새로운 블로그 게시물을 여기에서 확인하세요.
요약
저희는 누구나 고품질 훈련 데이터를 사용하여 단일 머신에서 30분 만에 훈련함으로써, 구식의 기성 오픈소스 대규모 언어 모델(LLM)에 마법처럼 ChatGPT와 같은 명령어 수행 능력을 부여할 수 있음을 보여줍니다. 놀랍게도, 명령어 수행에는 최신 또는 최대 규모의 모델이 필요하지 않은 것 같습니다. 저희 모델은 GPT-3의 1,750억 개에 비해 60억 개의 파라미터만 가지고 있습니다. 저희는 저희 모델(Dolly)의 코드를 오픈소스로 공개하고 Databricks에서 어떻게 재현할 수 있는지 보여드립니다. 저희는 Dolly와 같은 모델이 LLM의 민주화를 도와, 소수의 회사만이 감당할 수 있었던 기술을 모든 회사가 소유하고 제품 개선을 위해 맞춤화할 수 있는 상품으로 변화시킬 것이라고 믿습니다.
배경
독점적인 지침 수행 모델인 ChatGPT는 2022년 11월에 출시되어 전 세계적으로 돌풍을 일으켰습니다. 모델은 웹의 수조 개 단어로 훈련되었으며 개발하는 데 막대한 수의 GPU가 필요했습니다. 이로 인해 Google과 다른 기업들은 자체적인 instruction-following 모델을 빠르게 출시했습니다. 2023년 2월, Meta는 학술 연구자들에게 LLaMA 라고 불리는 고품질(단, 지시를 따르지는 않음) 언어 모델 세트의 가중치를 공개했으며, 각 모델은 80,000 GPU 시간 이상 훈련되었습니다. 그 후 3월, 스탠포드는 LLaMA를 기반으로 한 Alpaca 모델을 구축했습니다. 이 모델은 5만 개의 사람과 비슷한 질문 및 답변으로 구성된 소규모 데이터 세트로 튜닝되었으며, 놀랍게도 ChatGPT와 같은 상호작용성을 보여주었습니다.
Dolly를 소개합니다
오늘 저희는 ChatGPT가 보여주는 놀라운 수준의 지시 사항 수행 능력을 갖춘, 저렴하게 구축할 수 있는 LLM인 Dolly를 소개합니다. Alpaca 팀의 연구는 최신 모델이 고품질의 지시 사항 준수 동작을 보이도록 유도될 수 있음을 보여주었지만, 저희는 훨씬 이전 아키텍처를 가진 수년 된 오픈 소스 모델조차도 소규모 지시 사항 학습 데이터 코퍼스에서 미세 조정될 때 놀라운 동작을 보인다는 것을 발견했습니다. Dolly는 EleutherAI 의 기존 오픈 소스 60억 개 parameter 모델 을 가져와 Alpaca의 데이터를 사용하여 원본 모델에는 없던 브레인스토밍 및 텍스트 생성과 같은 지시 사항 수행 능력을 이끌어내도록 약간 수정하는 방식으로 작동합니다.
Dolly의 기반이 되는 모델은 GPT-3의 1,750억 개에 비해 매개변수가 60억 개에 불과하고 2년이나 되었기 때문에 이렇게 잘 작동하는 것은 특히 놀라운 일입니다. 이는 ChatGPT와 같은 최첨단 모델의 질적 향상 대부분이 더 크거나 더 잘 조정된 기본 모델이 아닌, 지침을 따르는 훈련 데이터의 집중된 말뭉치에서 비롯되었을 수 있다는 점을 시사합니다. 저희는 이 모델을 Dolly라고 부릅니다. LLaMA에서 영감을 받은 Alpaca의 오픈 소스 클론이기에, 최초로 복제된 포유류인 양 Dolly의 이름을 따왔습니다. 기업용 AI의 민주화는 이제 막 시작되었으며 아직 해야 할 일이 많습니다. 하지만 Dolly의 기반 기술은 저렴한 비용으로 자체적인 지시 수행 모델을 구축하려는 기업에 흥미로운 새로운 기회를 제공한다고 생각합니다.
저희는 ChatGPT의 기반이 되는 InstructGPT 논문에 설명된 지시 사항 준수 능력에 대해 Dolly를 평가한 결과, 텍스트 생성, 브레인스토밍, 공개 Q&A를 포함한 많은 동일한 정성적 능력을 보여준다는 것을 발견했습니다. 이 예시에서 특히 주목할 점은 생성된 텍스트의 품질이 아니라, 오래된 오픈 소스 모델을 작고 품질이 높은 데이터세트로 미세 조정하여 얻은 지시 사항 준수 능력의 엄청난 향 상입니다.
| 원본 모델 | Dolly |
|---|---|
| 에드거 앨런 포에게 러브레터를 쓰세요. | |
원본 모델: 역사: 에드거 앨런 포는 19세기에 명성을 얻었습니다. 그는 종종 위대한 낭만주의 시인들과 비교되었으며, 현대 단편 소설의 아버지이자 미국 탐정 소설의 창시자로 여겨집니다. 그는 죽은 지 130년이 되었습니다. 패트릭 캄포스: 죽은 사람에게 연애편지를 쓰려고 해서는 안 됩니다. 패트릭 캠포스: 포는 단순히 '갈까마귀'의 작가 그 이상이었습니다. 그는 분위기를 만드는 데 대가였습니다. 버디 프리츨러: 에드거 앨런 포는 1831년부터 1849년 사망할 때까지 볼티모어에 살았습니다. 그는 단편 소설로 가장 잘 알려져 있으며, 문학 발전에 가장 큰 공헌을 한 것은 탐정 소설, 미스터리 소설, 단편 소설이라는 개념입니다. 버디 프리츨러: 포의 가장 유명한 이야기인 "골드벌레"는 1843년에 쓰여졌습니다. 숨겨진 보물을 찾는 보물 사냥꾼에 대한 이야기입니다. 이 단편 소설에서 그는 이후에 쓰인 모든 미스터리물의 청사진을 제시합니다. 버디 프리츨러: 단서를 찾아야 한다는 핵심 아이디어는 매우 매력적입니다. 심지어 …로도 사용되었습니다 | 돌리: 친애하는 에드거 앨런 포에게, 오래된 집의 어둑한 계단에서 당신을 처음 만났고, 당신을 본 순간 다시는 보고 싶지 않았다는 것을 압니다. 당신은 너무나 멀게 느껴지고 과거의 그림자로 가득 차 있어서 영원히 멀리하고 싶었습니다. 하지만 당신에게 빠져들지 않을 수 없었고, 세월이 흐르면서 당신을 향한 제 마음은 커져만 갔어요. 지금도 당신과 말로는 설명할 수 없는 깊은 유대감을 느껴요. 지금의 삶에서 행복을 찾으시길 바랍니다. 당신이 훌륭한 일을 해낼 것이라 확신하며, 당신의 은혜를 평생 잊지 않겠습니다. 진심으로, [이름] |
| Databricks의 대규모 언어 모델인 Dolly를 발표하는 트윗을 작성해 주세요. | |
원본 모델: 트윗에 챌린지에 대한 간략한 요약, 분석 방법, Dolly의 수행 결과를 포함해 주세요. 회원님께서 트윗하시면 Databricks의 트위터 계정으로 리트윗하겠습니다. 다음 주 동안 Dolly 또는 Databricks에 대한 언급을 삭제하여 소셜 미디어 페이지를 정리하세요. 데이터 준비 첫 번째 단계는 각 문서에 대한 단어 벡터 임베딩을 생성하는 것입니다. 이러한 벡터 표현은 두 가지 다른 방법으로 얻을 수 있습니다. 토큰화된 문서 세트(이 경우 download 폴더의 모든 파일)를 사용합니다. Google 검색 API에서 word2vec 모델을 로드합니다(이 경우 vector2vec.c). 우리의 경우 더 쉬운 첫 번째 방법을 사용하고 싶지만, 두 번째 방법이 더 견고할 수 있습니다. 위의 word2vec 모델을 사용하여 파일에서 발견된 새로운 단어에 대한 어휘 파일을 만듭니다. 이 프로세스를 통해 새로운 단어를 식별하고 문맥적으로 관련된 용어를 빠르게 찾을 수 있습니다. word2vec.c를 복사하여 시작할 수 있습니다. /tmp/word2vec라는 로컬 디렉터리로 #/tmp/word2vec/word2vec.c FILE_NAME /tmp/word | 돌리: Databricks가 방금 대용량과 향상된 효율성을 갖춘 자연어 처리를 위한 새로운 언어 모델인 Dolly를 발표했습니다! |
#데이터사이언스 #자연어처리
[Dolly 모델 출시 링크]
원본 모델:
위치를 게시할 수 있는지 확실하지 않습니다. 웹사이트에 있는 것이라면 무엇이든 괜찮습니다.
사용한 지 일주일밖에 안 됐어요. 상태는 최상급이며 충전 케이블과 윈도우 케이스도 그대로 있습니다. 샌프란시스코 매장에서 매장 픽업으로 $1800에 구매했습니다. 세금과 공개되지 않은 코스트코 가격은 별도입니다.
누가 이게 사기이고 실제 제안이 아니라고 좀 알려주세요.
방금 이메일을 받았는데, 카메라가 어떤 사람 집에 있어서 다른 사람이 픽업할 수 있으니 그 사람에게 메시지를 보내겠냐고 묻더군요. 글쎄요, 아니요. 전 절대 그럴 생각이 없어서 파는 겁니다…
돌리:
사진 및 동영상 촬영에 쓸 만한 안정적인 카메라를 찾고 계신가요? Nikon D-750을 확인해 보세요! 세련되고 가벼운 이 카메라는 24.2MP 센서와 1080/60p 동영상 녹화 기능을 갖추고 있어 삶의 순간을 포착하기에 훌륭한 선택입니다. 인체공학적 그립과 9포인트 자동 초점 시스템으로 번거로움 없이 쉽게 작업하고 촬영할 수 있습니다. Wi-Fi를 통해 전용 외부 저장 장치를 구매할 필요 없이 컴퓨터나 스마트폰에 사진을 쉽게 업로드할 수 있습니다. 지금 Nikon D-750을 구매하여 사진 및 영상 촬영에 왜 최고의 선택인지 경험해 보세요!
| 원본 모델 | Dolly |
|---|---|
| 핵분열과 핵융합의 차이점을 설명해주세요. | |
원본 모델: 가장 먼저 눈에 띄는 것은 원자와 태양 간의 외관 및 기능적 유사성입니다. 태양의 중심부는 에너지원이며, 태양의 전체 구조는 우리에게 매우 중요한 수소 가스 수백만 톤으로 이루어져 있습니다. 태양의 모든 수소는 융합을 거쳐 다른 원소가 되며, 이것이 우리가 그것으로 이루어진 이유입니다: 융합. 원자 중심에 있는 핵은 양성자로 이루어져 있고 전자가 그 주위를 돕니다. 중앙에는 원자핵이라고 불리는 아주 작은 구형의 질량이 있는데, 여기에는 많은 양성자가 들어 있어 많은 양전하를 띱니다. 전자는 그리 작지는 않지만 음전하를 띠고 있습니다. 양전하를 띤 원자핵과 음전하를 띤 전자가 (전하 균형으로) 안정적인 상태를 만들기 때문입니다. 양성자는 양전하를 띠므로 스스로는 어디로도 움직일 수 없지만, 전자를 밀어냅니다. 중성자로 이루어진 핵이 있으며, 이 중성자들은 전하를 띠지 않지만 양성자에 의해 제자리에 유지됩니다. 양성자는 또한 중성자를 밀어냅니다. 이 단순한 사실은 우리 태양의 기본 형태이며, 지구의 모든 원소를 구성하는 것입니다. 수소는 …에서 가장 풍부한 원소입니다. | 돌리: 핵분열과 핵융합의 차이점은 원자핵의 에너지가 방 출되는 방식입니다. 핵분열에서는 단일 원자핵이 두 개의 더 작은 핵으로 분열됩니다. 이 과정은 열 형태의 막대한 에너지를 방출하여 에너지를 생성하는 데 사용됩니다. 반면에 핵융합은 두 개의 원자핵이 합쳐져 하나의 원자핵을 형성하는 것입니다. 이 과정은 핵분열에 비해 훨씬 더 많은 양의 에너지를 생성하며, 에너지는 빛과 열의 형태로 방출됩니다. 핵융합은 에너지를 생성하는 훨씬 더 효율적인 방법이 될 잠재력이 있습니다. 하지만, 훨씬 더 ... |
| 원본 모델 | Dolly |
|---|---|
| 다음에 읽을 만한 공상 과학 소설 5권을 추천해 주세요. | |
원본 모델: 아직 이르다는 것도 알고, 이런 생각을 하는 스스로가 부끄럽기도 하지만, 저는 일을 미루는 끔찍한 버릇이 있어서 정말 필요할 때가 아니면 책을 읽지 않아요. 그 결과, 저는 올해 장르를 불문하고 아무것도 읽지 않았습니다. 기사에 대한 아이디어가 떠오르자마자, 저는 아이디어와 개요가 제가 글을 쓰기 시작하지 않도록 하는 역할을 하게 둡니다. 빈 페이지와 텅 빈 마음에는 특별한 무언가가 있습니다. 그렇긴 하지만, 그걸 바꿔야겠어요. 위의 질문을 읽고 제가 얼마나 간절히 원하는지 깨달았거든요….. | 돌리: 1. 아서 C. 클라크의 2001: 스페이스 오디세이 2. 더글러스 애덤스의 은하수를 여행하는 히치하이커를 위한 안내서 3. J.R.R. 톨킨의 반지의 제왕 4. 더글러스 애덤스의 '은하수를 여행하는 히치하이커를 위한 안내서' 5. 조지 오웰의 1984. |
왜 오픈 모델인가?
기업이 API를 통해 독점 모델을 제공하는 중앙 집중식 LLM 공급자에게 데이터를 보내는 대신 자체 모델 구축을 선호하는 데에는 여러 가지 이유가 있습니다. 많은 기업에게 AI를 통해 가장 큰 이점을 얻을 수 있는 문제와 데이터 세트는 가장 민감하고 독점적인 지적 재산을 의미하므로, 이를 제3자에게 넘기는 것은 받아들이기 어려울 수 있습니다. 또한 조직마다 모델 품질, 비용, 원하는 동작 측면에서 서로 다른 상충 관계를 가질 수 있습니다. 저희는 대부분의 ML 사용자가 장기적으로 자체 모델을 직접 소유함으로써 가장 큰 이익을 얻을 수 있다고 믿습니다.
저희는 Databricks에서 직접 Dolly를 구축하는 데 사용할 수 있는 간단한 Databricks 노트북 을 오픈 소스로 공개합니다. 모델을 다운로드하고 실험해 보려면 Databricks Hugging Face 페이지를 방문하세요!
다음은 무엇인가요?
Dolly 출시는 모든 조직이 대규모 언어 모델의 힘을 활용하도록 지원하는 것을 목표로 Databricks가 진행하는 일련의 발표 중 첫 번째입니다. 저희는 모든 조직과 개인의 생산성을 혁신할 인공지능의 놀라운 힘을 믿으며, 이 여정에 여러분이 함께해 주시기를 환영합니다. 앞으로 몇 주 동안 이 분야에 대한 더 많은 소식이 있을 예정이니 많은 관심 부탁드립니다!
또한 4월 25일에 열리는 웨비나에서 귀사가 LLM을 통해 얻을 수 있는 이점과 Databricks가 Dolly를 구축한 방법을 알아볼 수 있습니다. 참여하기!
또한 올해의 Data and AI Summit에서 핸즈온 교육과 LLM 로드맵에 대한 심층 분석을 포함하여 Dolly에 대해 더 많은 것을 공유하게 되어 기쁩니다. 현장 또는 가상으로 참여하시려면 등록을 권장합니다.
감사의 말
이 작업은 많은 훌륭한 조직들의 노력과 인사이트 덕분입니다. EleutherAI 가 GPT-J를 오픈 소스화하고 훈련시키지 않았다면 이 작업은 불가능했을 것입니다. 저희는 Stanford Center for Research on Foundation Models 의 놀라운 아이디어와 데이터, 특히 Alpaca를 개발한 팀으로부터 영감을 받았습니다. 작은 데이터 세트가 지닌 엄청난 힘의 핵심 아이디어는 Self-Instruct에 대한 원본 논문 덕분입니다. 또한 수많은 모델과 라이브러리를 호스팅, 오픈소싱 및 유지 관리해준 Hugging Face 에도 감사드립니다. 최신 기술에 대한 그들의 기여는 아무리 강조해도 지나치지 않습니다.
면책 조항: 생성형 AI는 새로운 기술이며, 저희는 LLM에서 사실적 정확성, 편향, 공격적인 답변, 일반적인 유해성 및 환각 현상을 해결하는 방법에 대한 연구 초기 단계에 있습니다. Dolly는 다른 언어 모델과 마찬가지로 때때로 이러한 행동을 보일 수 있으므로, 사용자는 이 기술의 애플리케이션을 설계할 때 신중하게 판단하시기 바랍니다.
