지난 몇 달 동안 공공 부문 기관의 대규모 언어 모델(LLM)에 대한 관심이 급증했습니다. LLM이 컴퓨터 및 데이터와의 상호 작용에 대한 사람들의 기대를 근본적으로 바꾸고 있기 때문입니다. Databricks의 관점에서 볼 때, 우리가 교류하는 거의 모든 공공 부문 고객과 잠재 고객은 자신의 임무에 LLM을 도입해야 한다는 사명감을 느끼고 있습니다. 저희는 LLM(Databricks의 Dolly와 같은)이 무엇이고 어떤 용도로 사용할 수 있는지, 그리고 Databricks Lakehouse가 LLM 관련 애플리케이션을 어떻게 지원할 것인지에 대한 질문을 반복해서 받습니다. 이 게시물에서는 공공 부문 조직의 고유한 요구 사항, 기회 및 제약 조건의 맥락에서 이러한 질문을 다루겠습니다. 또한 ChatGPT와 같이 제3자 데이터 공유가 필요한 기술을 채택하는 대신, 자체 LLM을 생성, 소유 및 큐레이션하는 것의 이점에 대해서도 집중적으로 다룰 것입니다.
오늘날의 LLM은 2017년경 트랜스포머 모델 아키텍처의 부상으로 시작된 일련의 자연어 처리 혁신 중 가장 최신 버전입니다. 이러한 트랜스포머 기반 모델은 감정 식별, 사람, 장소, 사물 등의 고유 명사 추출, 한 언어의 문서를 다른 언어로 번역하는 등의 작업을 수행할 수 있을 만큼 인간의 언어를 잘 이해하는 놀라운 능력을 오랫동안 보유해 왔습니다. 또한 프롬프트로부터 흥미로운 텍스트를 생성할 수 있으며, 그 품질과 정확도는 다양합니다. 최근에 연구원과 개발자들은 매우 방대하고 다양한 텍스트 소스를 통해 '사전 훈련된' 초대형 언어 모델을 사람의 다양한 지시에 따라 유용한 정보를 생성하도록 '미세 조정'할 수 있다는 사실을 발견했습니다.
이전에는 각 언어 관련 작업에 대해 별도의 모델을 훈련하는 것이 모범 사례였습니다. 모델 훈련 프로세스에는 큐레이션된 데이터, compute(일반적으로 하나 이상의 GPU), 고급 Data Science 및 소프트웨어 개발 전문 지식과 같은 리소스가 필요했습니다. 이러한 모델은 매우 정확할 수 있지만, 사용 규모를 확장할 때는 컴퓨팅과 인력 측면 모두에서 명백한 리소스 제약이 있습니다. ChatGPT가 급부상하면서, 이제 우리는 적절한 양의 컨텍스트와 올바른 프롬프트를 갖춘 단일 LLM이 때로는 더 특화된 모델보다 더 나은 정확도로 다양한 작업을 수행하는 데 사용될 수 있음을 알게 되었습니다. 그리고 새로운 텍스트를 생성하는 LLM의 능력, 즉 '생성형 AI'는 매우 흥미롭고 유용합니다.
민간 부문 조직은 코드 생성 및 마이그레이션, 자동화된 고객 피드백 분류 및 응답, 콜센터 챗봇, 보고서 생성 등 LLM을 통해 훨씬 더 많은 놀라운 이점을 얻고 있다고 보고했습니다. 다양한 산업의 축소판으로서 공공 부문 기관은 다른 고유한 요구 사항 외에도 동일한 LLM 기회를 가집니다. 일반적인 공공 부문 사용 사례는 다음과 같습니다.
확실히 강력하지만, LLM은 공공 부문 조직 고유의 일부 운영 제약으로 인해 증폭되는 새로운 과제들을 야기하기도 합니다. 이 중 몇 가지를 자세히 살펴보고 Databricks Lakehouse 기능에 맞춰보겠습니다.
대부분의 공공 부문 조직은 데이터에 대해 엄격한 규제 통제를 받습니다. 이러한 통제는 개인 정보 보호, 보안 및 경우에 따라 비밀을 유지해야 할 필요성 때문에 존재합니다. LLM에 질문이나 일련의 질문을 하는 간단한 작업조차도 독점 정보를 노출할 수 있습니다. 또한 대부분의 연방 기관은 특정 요구 사항을 충족하기 위해 LLM을 미세 조정해야 할 것입니다. 이러한 이유로 공공 부문 기 관은 공개 모델 사용에 제한을 받을 것이라고 가정하는 것이 논리적입니다. 이들은 기밀성과 보안을 보장하는 환경에서 모델을 미세 조정해야 하며, 다양한 프롬프팅 방법을 통한 모델과의 상호 작용 또한 기밀로 유지되어야 할 가능성이 높습니다.
Databricks의 Lakehouse 플랫폼은 엔드투엔드 LLM 애플리케이션을 개발하고 배포하는 데 필요한 도구를 갖추고 있습니다. (나중에 자세히 설명합니다.) 또한 Databricks는 대부분의 미국 공공 부문 조직의 데이터를 처리하는 데 필요한 인증을 보유하고 있습니다. Databricks는 ChatGPT나 Bard와 같은 독점 서비스형 LLM(LLM-as-a-service) 활용에 따르는 위험 없이 LLM의 모든 기능을 활용하려는 조직에게 신뢰할 수 있고 유능한 파트너입니다.
Databricks를 넘어 업계에서는 적절하게 사용될 경우 오픈 소스 LLM이 선도적인 독점 LLM과 동등한 수준의 결과를 제공할 수 있다는 증거가 증가하고 있습니다. 이러한 증거는 독점 LLM이 이전에 훈련받지 않은 미묘한 맥락이나 지침을 이해해야 하는 사용 사례에서 가장 강력합니다. 이러한 경우 오픈 소스 LLM은 조직별 데이터로 프롬프팅되거나 미세 조정되어 놀라운 결과를 제공할 수 있습니다. 이 솔루션 아키텍처에서 조직은 데이터가 승인된 경계를 벗어나지 않고도 적은 양의 compute 및 개발 시간으로 세계적 수준의 결과를 달성할 수 있습니다. 공공 부문 조직의 경우 이는 간과할 수 없는 상당한 이점입니다.

오픈 소스 LLM의 힘에 대한 Databricks의 믿음은 연 구 및 상업적 용도로 라이선스가 부여된 인간 생성 지침 데이터 세트에서 미세 조정된 최초의 오픈 소스, 지침 준수 LLM인 Dolly 2.0을 출시함으로써 더욱 강화되었습니다. Dolly 출시 이후, 매우 인상적인 성능을 보이는 여러 유능한 오픈 소스 LLM이 대거 등장했습니다. Databricks는 공공 부문 조직이 오픈 소스 또는 상용 LLM 중 원하는 것을 선택하여 애플리케이션을 구축할 수 있는 플랫폼을 제공하기 위해 노력하고 있으며, 앞으로 다가올 일에 대해 기대가 큽니다.

데이터 자산 현대화는 공공 부문 대부분의 기술 리더들에게 계속해서 가장 큰 관심사입니다. 온프레미스 데이터 웨어하우스 시대는 거의 지나갔으며, 일반적으로 클라우드 내 데이터 웨어하우스나 lakehouse로 대체됩니다. 아직 클라우드로 마이그레이션하지 않았거나 클라우드 내 데이터 웨어하우스를 선택한 조직은 이제 LLM을 수용할 수 없는 아키텍처에서 LLM을 어떻게 도입할 것인가 하는 또 다른 변곡점을 마주하고 있습니다. 기관의 임무와 이를 수행하는 공무원에게 영향을 미칠 LLM의 막대한 잠재력을 고려할 때, 미래에도 경쟁력을 갖춘 아키텍처를 구축하는 것이 중요합니다. 레이크하우스에 입장하세요.
Databricks는 오랫동안 머신러닝(ML) 및 인공지능(AI) 워크로드를 위한 유능한 공간이었습니다. 고객들은 수년 동안 Databricks에서 프로덕션 등급의 LLM과 그 이전 모델들을 사용해 왔으며, 다음과 같은 기능을 활용했습니다.
이러한 기능 중 어느 것도 클라우드 내에서도 데이터 웨어하우스에서는 제공되지 않습니다. 데이터 웨어하우스와 함께 LLM을 사용하려면 조직은 모델 훈련 및 배포 프로세스의 모든 측면에 대해 다른 소프트웨어 서비스를 조달하고 이러한 서비스 간에 데이터를 주고받아야 합니다. Databricks Lakehouse 아키텍처만이 단일 플랫폼에서 모든 LLM 운영을 수행하는 아키텍처 단순성을 제공하여 위에서 데이터 주권에 대한 논의에서 설명한 이점을 완전히 제공합니다.
Data and AI Summit 2023에서 Databricks는 LLMOps 아키텍처를 크게 간소화하는 몇 가지 주요한 새로운 LLM 관련 기능을 추가하는 Lakehouse AI를 발표했습니다. 그 내용은 다음과 같습니다.

최근 몇 년간 정부 기관은 특히 사이버 보안, 클라우드 컴퓨팅, ML/AI와 같은 최신 기술 트렌드와 중첩되는 역할에서 지속적인 "두뇌 유출" 문제로 어려움을 겪어 왔습니다. LLM에 대한 현재의 높은 관심은 ML/AI 분야의 유능한 실무자에 대한 수요를 더욱 촉진하고 있습니다. 필연적으로 빅테크 및 스타트업 업계의 매력과 혜택은 공공 부문의 인재 부족을 심화시킬 것입니다. 정부 리더십은 LLM을 쉽게 채택하고 직원들이 LLM을 자체적으로 활용할 수 있도록 지원하는 플랫폼과 파트너십에 대한 액세스가 필요합니다.
Databricks는 레이크하우스 플랫폼에서 LLM으로 작업하기 위한 기존 기능을 간소화하고 확장하는 기능들을 활발히 출시하고 있습니다. 여기에는 다음이 포함됩니다.

Databricks는 LLM을 쉽게 사용할 수 있도록 지원하는 것 외에도, 조직이 LLM 숙련도를 높일 수 있도록 LLM 교육 및 역량 강화 프로그램을 도입하고 있습니다. 이는 Databricks의 공공 부문 사용자가 쉽게 접근할 수 있는 수준으로 제공됩니다.
공공 부문 사용 사례를 가속화하기 위해 LLM을 활용할 기회는 많습니다. 레거시 데이터에는 아직 발견되어 현재 문제에 적용되기를 기다리는 막대한 가치가 묻혀 있습니다. 미 동부 표준시(EDT) 기준 8월 2일 정오에 진행되는 웨비나 공공 부문의 대규모 언어 모델 에 참여하여 Databricks가 여러분의 미션에 LLM을 도입하는 데 어떻게 도움이 되는지 자세히 알아보세요. 또한 Lakehouse AI 발표 에 나열된 기능 미리보기 등록을 자세히 살펴보고 귀하의 조직이 어떤 것에 해당되는지 확인하십시오.
