주요 컨텐츠로 이동

레이크하우스용 LLM: 공공 부문의 비약적 도약

LLMs in the lakehouse: a quantum leap forward for the public sector

Published: July 17, 2023

공공 부문Less than a minute

데이터 및 분석 혁신 실현
 

지난 몇 달 동안 공공 부문 기관의 대규모 언어 모델(LLM)에 대한 관심이 급증했습니다. LLM이 컴퓨터 및 데이터와의 상호 작용에 대한 사람들의 기대를 근본적으로 바꾸고 있기 때문입니다. Databricks의 관점에서 볼 때, 우리가 교류하는 거의 모든 공공 부문 고객과 잠재 고객은 자신의 임무에 LLM을 도입해야 한다는 사명감을 느끼고 있습니다. 저희는 LLM(Databricks의 Dolly와 같은)이 무엇이고 어떤 용도로 사용할 수 있는지, 그리고 Databricks Lakehouse가 LLM 관련 애플리케이션을 어떻게 지원할 것인지에 대한 질문을 반복해서 받습니다. 이 게시물에서는 공공 부문 조직의 고유한 요구 사항, 기회 및 제약 조건의 맥락에서 이러한 질문을 다루겠습니다. 또한 ChatGPT와 같이 제3자 데이터 공유가 필요한 기술을 채택하는 대신, 자체 LLM을 생성, 소유 및 큐레이션하는 것의 이점에 대해서도 집중적으로 다룰 것입니다.

LLM이란 무엇인가요?

오늘날의 LLM은 2017년경 트랜스포머 모델 아키텍처의 부상으로 시작된 일련의 자연어 처리 혁신 중 가장 최신 버전입니다. 이러한 트랜스포머 기반 모델은 감정 식별, 사람, 장소, 사물 등의 고유 명사 추출, 한 언어의 문서를 다른 언어로 번역하는 등의 작업을 수행할 수 있을 만큼 인간의 언어를 잘 이해하는 놀라운 능력을 오랫동안 보유해 왔습니다. 또한 프롬프트로부터 흥미로운 텍스트를 생성할 수 있으며, 그 품질과 정확도는 다양합니다. 최근에 연구원과 개발자들은 매우 방대하고 다양한 텍스트 소스를 통해 '사전 훈련된' 초대형 언어 모델을 사람의 다양한 지시에 따라 유용한 정보를 생성하도록 '미세 조정'할 수 있다는 사실을 발견했습니다.

이전에는 각 언어 관련 작업에 대해 별도의 모델을 훈련하는 것이 모범 사례였습니다. 모델 훈련 프로세스에는 큐레이션된 데이터, compute(일반적으로 하나 이상의 GPU), 고급 Data Science 및 소프트웨어 개발 전문 지식과 같은 리소스가 필요했습니다. 이러한 모델은 매우 정확할 수 있지만, 사용 규모를 확장할 때는 컴퓨팅과 인력 측면 모두에서 명백한 리소스 제약이 있습니다. ChatGPT가 급부상하면서, 이제 우리는 적절한 양의 컨텍스트와 올바른 프롬프트를 갖춘 단일 LLM이 때로는 더 특화된 모델보다 더 나은 정확도로 다양한 작업을 수행하는 데 사용될 수 있음을 알게 되었습니다. 그리고 새로운 텍스트를 생성하는 LLM의 능력, 즉 '생성형 AI'는 매우 흥미롭고 유용합니다.

공공 부문에서 LLM은 어떤 용도로 사용될 수 있나요?

민간 부문 조직은 코드 생성 및 마이그레이션, 자동화된 고객 피드백 분류 및 응답, 콜센터 챗봇, 보고서 생성 등 LLM을 통해 훨씬 더 많은 놀라운 이점을 얻고 있다고 보고했습니다. 다양한 산업의 축소판으로서 공공 부문 기관은 다른 고유한 요구 사항 외에도 동일한 LLM 기회를 가집니다. 일반적인 공공 부문 사용 사례는 다음과 같습니다.

  • 규제 규정 준수 지원. LLM은 텍스트를 해석하고 처리하는 능력을 통해 규제 문서, 법률 문서, 관련 판례를 분석하여 규정 준수 요건을 결정하는 데 도움을 줄 수 있습니다. 정부 기관과 기업이 규제의 영향을 이해하고 법률을 준수하도록 도울 수 있습니다.
  • 훈련 및 교육 어시스턴트. 가상 강사 역할을 통해 질문에 답변하고, 복잡한 개념을 설명하며, 강의 녹화본에서 관련 부분을 검색하거나, 강의 카탈로그의 강의를 추천하여 학생들의 학습 규모를 확장하고 가속화합니다.
  • 기술 문서 요약 및 질문에 답변하기. 아마도 공공 부문에서 가장 보편적인 LLM 관련 사용 사례는 PDF 및 이메일을 포함한 수천 또는 수백만 개의 문서에서 지식을 추출하여 검색 기준에 따라 관련 콘텐츠를 신속하게 찾을 수 있는 형식으로 변환한 다음, 관련 콘텐츠를 사용하여 요약이나 보고서를 생성하는 것입니다.
  • 오픈 소스 인텔리전스. LLM은 공개적으로 사용 가능한 방대한 양의 다국어 정보를 처리하고 분석하여 정보 커뮤니티의 오픈 소스 인텔리전스(OSINT) 분석을 크게 향상시킬 수 있습니다. LLM은 소셜 미디어, 뉴스 기사, 보고서 등 다양한 소스에서 주요 개체, 관계, 감성, 맥락적 이해를 추출한 다음, 이 정보를 효율적으로 요약하고 정리하여 애널리스트가 대량의 OSINT 데이터에서 인사이트를 신속하게 파악하고 추출하는 데 도움을 줄 수 있습니다.
  • 레거시 코드베이스 현대화. 정부 기관은 메인프레임, 온프레미스 데이터 웨어하우스 및 독점 분석 소프트웨어에서 데이터 워크로드를 계속 이전하고 있습니다. 개발자와 애널리스트가 코딩 어시스턴트를 사용하여 코드를 작성할 때 제안을 받거나, 맞춤형 LLM을 훈련하여 대량 코드 변환을 처리함으로써 마이그레이션 속도를 높이는 동시에 지식 근로자가 관련 소프트웨어 기술을 자연스럽게 습득할 수 있습니다.
  • 인사. 국내 최대 고용주인 연방 정부는 채용 및 직원 만족도 보장에 있어 고유한 과제에 직면해 있습니다. 인사 분야에서 LLM을 활용하면 이력서 심사 자동화, 지원자와 직무 기술서 매칭, 직원 피드백 분석을 통해 채용 프로세스를 개선하고 인력 참여도를 높임으로써 이러한 과제를 해결하는 데 도움이 될 수 있습니다. 또한 LLM은 인사 정책 준수를 보장하고 다양성 및 포용성 이니셔티브를 지원하며 개인화된 온보딩 및 경력 개발 추천을 제공하여 도움을 줄 수 있습니다.

Databricks는 LLM이 주도하는 세상에서 공공 부문 조직의 요구 사항을 어떻게 지원할까요?

확실히 강력하지만, LLM은 공공 부문 조직 고유의 일부 운영 제약으로 인해 증폭되는 새로운 과제들을 야기하기도 합니다. 이 중 몇 가지를 자세히 살펴보고 Databricks Lakehouse 기능에 맞춰보겠습니다.

과제 #1: 데이터 주권 및 거버넌스

문제는

대부분의 공공 부문 조직은 데이터에 대해 엄격한 규제 통제를 받습니다. 이러한 통제는 개인 정보 보호, 보안 및 경우에 따라 비밀을 유지해야 할 필요성 때문에 존재합니다. LLM에 질문이나 일련의 질문을 하는 간단한 작업조차도 독점 정보를 노출할 수 있습니다. 또한 대부분의 연방 기관은 특정 요구 사항을 충족하기 위해 LLM을 미세 조정해야 할 것입니다. 이러한 이유로 공공 부문 기관은 공개 모델 사용에 제한을 받을 것이라고 가정하는 것이 논리적입니다. 이들은 기밀성과 보안을 보장하는 환경에서 모델을 미세 조정해야 하며, 다양한 프롬프팅 방법을 통한 모델과의 상호 작용 또한 기밀로 유지되어야 할 가능성이 높습니다.

Databricks 솔루션

Databricks의 Lakehouse 플랫폼은 엔드투엔드 LLM 애플리케이션을 개발하고 배포하는 데 필요한 도구를 갖추고 있습니다. (나중에 자세히 설명합니다.) 또한 Databricks는 대부분의 미국 공공 부문 조직의 데이터를 처리하는 데 필요한 인증을 보유하고 있습니다. Databricks는 ChatGPT나 Bard와 같은 독점 서비스형 LLM(LLM-as-a-service) 활용에 따르는 위험 없이 LLM의 모든 기능을 활용하려는 조직에게 신뢰할 수 있고 유능한 파트너입니다.

Databricks를 넘어 업계에서는 적절하게 사용될 경우 오픈 소스 LLM이 선도적인 독점 LLM과 동등한 수준의 결과를 제공할 수 있다는 증거가 증가하고 있습니다. 이러한 증거는 독점 LLM이 이전에 훈련받지 않은 미묘한 맥락이나 지침을 이해해야 하는 사용 사례에서 가장 강력합니다. 이러한 경우 오픈 소스 LLM은 조직별 데이터로 프롬프팅되거나 미세 조정되어 놀라운 결과를 제공할 수 있습니다. 이 솔루션 아키텍처에서 조직은 데이터가 승인된 경계를 벗어나지 않고도 적은 양의 compute 및 개발 시간으로 세계적 수준의 결과를 달성할 수 있습니다. 공공 부문 조직의 경우 이는 간과할 수 없는 상당한 이점입니다.

오픈 소스 LLM

오픈 소스 LLM의 힘에 대한 Databricks의 믿음은 연구 및 상업적 용도로 라이선스가 부여된 인간 생성 지침 데이터 세트에서 미세 조정된 최초의 오픈 소스, 지침 준수 LLM인 Dolly 2.0을 출시함으로써 더욱 강화되었습니다. Dolly 출시 이후, 매우 인상적인 성능을 보이는 여러 유능한 오픈 소스 LLM이 대거 등장했습니다. Databricks는 공공 부문 조직이 오픈 소스 또는 상용 LLM 중 원하는 것을 선택하여 애플리케이션을 구축할 수 있는 플랫폼을 제공하기 위해 노력하고 있으며, 앞으로 다가올 일에 대해 기대가 큽니다.

Dolly

과제 #2: 아키텍처 복잡성

문제는

데이터 자산 현대화는 공공 부문 대부분의 기술 리더들에게 계속해서 가장 큰 관심사입니다. 온프레미스 데이터 웨어하우스 시대는 거의 지나갔으며, 일반적으로 클라우드 내 데이터 웨어하우스나 lakehouse로 대체됩니다. 아직 클라우드로 마이그레이션하지 않았거나 클라우드 내 데이터 웨어하우스를 선택한 조직은 이제 LLM을 수용할 수 없는 아키텍처에서 LLM을 어떻게 도입할 것인가 하는 또 다른 변곡점을 마주하고 있습니다. 기관의 임무와 이를 수행하는 공무원에게 영향을 미칠 LLM의 막대한 잠재력을 고려할 때, 미래에도 경쟁력을 갖춘 아키텍처를 구축하는 것이 중요합니다. 레이크하우스에 입장하세요.

Databricks 솔루션

Databricks는 오랫동안 머신러닝(ML) 및 인공지능(AI) 워크로드를 위한 유능한 공간이었습니다. 고객들은 수년 동안 Databricks에서 프로덕션 등급의 LLM과 그 이전 모델들을 사용해 왔으며, 다음과 같은 기능을 활용했습니다.

  • 텍스트, 이미지, 오디오와 같은 비정형 데이터의 전처리를 위한 확장 가능한 컴퓨팅
  • 오픈 소스 ML/AI 라이브러리 전체 제품군에 대한 액세스
  • IDE 통합도 탁월하게 지원하는 기본 동급 최고의 노트북 개발 환경
  • Unity Catalog 를 통해 적절한 액세스 제어를 보장하는 데이터 거버넌스 기능
    • 정형 데이터(데이터베이스 및 테이블)
    • 비정형 데이터(파일, 이미지, 문서)
    • 모델 (LLM 등)
  • ML 모델의 훈련 및 예측을 위한 GPU 컴퓨팅 옵션 - 현재 트랜스포머 기반 LLM 작업을 위한 필수 조건입니다.
  • MLflow 및 Unity Catalog를 사용한 엔드투엔드 모델 수명 주기 관리. 모델은 소스 데이터 및 훈련 이벤트에 대한 리니지를 통해 일급 시민으로 취급되며 배치 또는 실시간 모드로 배포될 수 있습니다.
  • 조직이 자체 LLM을 미세 조정, 호스팅, 배포하면서 점점 더 중요해지는 모델 서빙 기능
Databricks의 엔드투엔드 ML & MLops 기능
End-to-end ML & MLops features in Databricks

이러한 기능 중 어느 것도 클라우드 내에서도 데이터 웨어하우스에서는 제공되지 않습니다. 데이터 웨어하우스와 함께 LLM을 사용하려면 조직은 모델 훈련 및 배포 프로세스의 모든 측면에 대해 다른 소프트웨어 서비스를 조달하고 이러한 서비스 간에 데이터를 주고받아야 합니다. Databricks Lakehouse 아키텍처만이 단일 플랫폼에서 모든 LLM 운영을 수행하는 아키텍처 단순성을 제공하여 위에서 데이터 주권에 대한 논의에서 설명한 이점을 완전히 제공합니다.

Data and AI Summit 2023에서 Databricks는 LLMOps 아키텍처를 크게 간소화하는 몇 가지 주요한 새로운 LLM 관련 기능을 추가하는 Lakehouse AI를 발표했습니다. 그 내용은 다음과 같습니다.

  • 인덱싱을 위한 벡터 검색. Databricks에서 호스팅하는 벡터 데이터베이스는 팀이 조직의 데이터를 임베딩 벡터로 신속하게 인덱싱하고 실시간 배포에서 짧은 지연 시간의 벡터 유사성 검색을 수행하는 데 도움이 됩니다.
  • 레이크하우스 모니터링 사용자가 데이터와 AI 자산 모두의 품질을 동시에 추적할 수 있는 최초의 통합 데이터 및 AI 모니터링 서비스입니다.
  • AI 기능. 이제 데이터 애널리스트와 데이터 엔지니어는 대화형 SQL query 또는 SQL/Spark ETL 파이프라인 내에서 LLM 및 기타 머신 러닝 모델을 사용할 수 있습니다.
  • 통합 데이터 & AI 거버넌스. 단일 통합 환경에서 데이터와 AI 자산 모두에 대한 포괄적인 거버넌스 및 계보 추적을 제공하는 Unity Catalog의 개선 사항입니다.
  • MLflow AI 게이트웨이 MLflow 2.5의 일부인 MLflow AI Gateway는 조직이 라우트를 만들고 공유할 수 있게 해주는 워크스페이스 수준의 API 게이트웨이이며, 이후 다양한 속도 제한, 캐싱, 비용 귀속 등으로 구성하여 비용과 사용량을 관리할 수 있습니다.
  • MLflow 2.4. 이번 릴리스는 모델 평가를 위한 포괄적인 LLMOps 도구 세트를 제공합니다.

레이크하우스 AI

과제 #3: 기술 격차

문제는

최근 몇 년간 정부 기관은 특히 사이버 보안, 클라우드 컴퓨팅, ML/AI와 같은 최신 기술 트렌드와 중첩되는 역할에서 지속적인 "두뇌 유출" 문제로 어려움을 겪어 왔습니다. LLM에 대한 현재의 높은 관심은 ML/AI 분야의 유능한 실무자에 대한 수요를 더욱 촉진하고 있습니다. 필연적으로 빅테크 및 스타트업 업계의 매력과 혜택은 공공 부문의 인재 부족을 심화시킬 것입니다. 정부 리더십은 LLM을 쉽게 채택하고 직원들이 LLM을 자체적으로 활용할 수 있도록 지원하는 플랫폼과 파트너십에 대한 액세스가 필요합니다.

Databricks 솔루션

Databricks는 레이크하우스 플랫폼에서 LLM으로 작업하기 위한 기존 기능을 간소화하고 확장하는 기능들을 활발히 출시하고 있습니다. 여기에는 다음이 포함됩니다.

  • 데이터 파이프라인에서 추론 작업을 위해 Hugging Face의 사전 훈련된 LLM을 사용하거나 Databricks의 자체 데이터에서 더 나은 성능을 위해 미세 조정하기 위한 간소화된 패턴.
  • Apache Spark에서 Hugging Face 모델 훈련 또는 미세 조정 작업으로 데이터를 로드하는 프로세스를 단순화하고 성능을 개선합니다.
  • 산업별 LLM 솔루션 액셀러레이터: 고객 서비스 분석제품 검색과 같이 빠른 성공을 위한 반복 가능한 구현 패턴
  • MLflow 2.3 릴리스(특히 네이티브 LLM 지원):
    • 세 가지 새로운 모델 유형: Hugging Face Transformers, OpenAI 함수 및 LangChain.
    • 모델 파일의 멀티파트 다운로드 및 업로드를 통해 클라우드 서비스와의 모델 다운로드 및 업로드 속도 대폭 개선.
  • 사용자가 SQL에서 직접 LLM에 액세스할 수 있도록 하는 기본 내장 Databricks SQL 함수. 이 기능은 애널리스트가 효과적인 LLM 프롬프트를 간단히 작성할 수 있게 함으로써 길고 복잡한 언어 모델 개발 프로세스를 우회할 수 있도록 합니다.
  • Data & AI Summit 2023에서 발표된 바와 같이,
    • 텍스트 분류와 임베딩 모델을 위해 LLM을 미세 조정할 Databricks의 UI 기반 AutoML 서비스에 대한 추가 기능; 그리고
    • 고성능을 위해 최적화된 모델 서빙(Model Serving)으로 지원되는 큐레이션된 모델. 사용 사례에 가장 적합한 오픈 소스 생성형 AI 모델을 조사하는 데 시간을 소비하는 대신, 일반적인 사용 사례를 위해 Databricks 전문가가 큐레이션한 모델을 사용할 수 있습니다.
    • 그리고 금상첨화인 LakehouseIQ: 비즈니스와 데이터의 고유한 뉘앙스를 학습하여 다양한 사용 사례에 대한 자연어 액세스를 지원하는 지식 엔진

Lakehouse IQ

Databricks는 LLM을 쉽게 사용할 수 있도록 지원하는 것 외에도, 조직이 LLM 숙련도를 높일 수 있도록 LLM 교육 및 역량 강화 프로그램을 도입하고 있습니다. 이는 Databricks의 공공 부문 사용자가 쉽게 접근할 수 있는 수준으로 제공됩니다.

  • EdX와 파트너십 하여 최신 애플리케이션에서의 언어 모델 구축 및 사용에 특화된 전문가 주도 온라인 강좌 제공

결론 및 다음 단계

공공 부문 사용 사례를 가속화하기 위해 LLM을 활용할 기회는 많습니다. 레거시 데이터에는 아직 발견되어 현재 문제에 적용되기를 기다리는 막대한 가치가 묻혀 있습니다. 미 동부 표준시(EDT) 기준 8월 2일 정오에 진행되는 웨비나 공공 부문의 대규모 언어 모델 에 참여하여 Databricks가 여러분의 미션에 LLM을 도입하는 데 어떻게 도움이 되는지 자세히 알아보세요. 또한 Lakehouse AI 발표 에 나열된 기능 미리보기 등록을 자세히 살펴보고 귀하의 조직이 어떤 것에 해당되는지 확인하십시오.

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

Linking the unlinkables; simple, automated, scalable data linking with Databricks ARC

공공 부문

March 8, 2024/1분 이내 소요

연결할 수 없는 데이터 연결하기; Databricks ARC를 통한 간단하고 확장성있는 자동화된 데이터 연결

PubSec Industry Experience

공공 부문

June 4, 2025/1분 이내 소요

당신의 2025 데이터 및 AI 정부 부문 산업 경험 가이드