주요 컨텐츠로 이동
Platform blog

데이터브릭스로 생성형 AI 구축 및 커스터마이징하기: 대규모 언어 모델(LLM)과 그 너머

Ari Kaplan
Emily Hutson
Nicolas Pelaez
이 포스트 공유하기

Translated by HaUn Kim - Original Blog Post

생성형 AI는 비즈니스에 새로운 가능성을 열어주며, 조직 전반에서 적극적으로 도입되고 있습니다. 최근 MIT 테크 리뷰 보고서에 따르면, AI에 대한 투자를 늘리고 있는 CIO 중 71%가 AI를 적극적으로 도입하고 있으며, 자체적으로 맞춤형 대규모 언어 모델(LLM) 또는 기타 생성형 AI 모델을 구축할 계획이 있다고 밝혔습니다. 그러나 많은 조직이 자체 데이터로 학습된 모델을 효과적으로 개발하기 위해 필요한 도구의 부족을 경험하고 있을 수 있습니다.

생성형 AI로 한 단계 도약하는 것은 단순한 "챗봇 배포"를 넘어 데이터 관리의 근본적인 측면을 재구성해야 하는 필요성이 있습니다. 이러한 변화의 핵심은 새로운 최신 데이터 스택인 데이터 레이크하우스의 등장입니다. 이 고급 데이터 아키텍처는 생성형 AI의 잠재력을 최대한 활용하는 데 필수적이며, 데이터와 AI 기술을 더 빠르고 비용 효율적으로 대중화할 수 있도록 도와줍니다. 기업이 경쟁 우위를 확보하기 위해 생성형 AI 기반 도구와 애플리케이션에 점점 더 의존하게 되면서, 기본 데이터 인프라는 이러한 첨단 기술을 효과적이고 안전하게 지원할 수 있도록 진화해야 합니다.

데이터브릭스 데이터 인텔리전스 플랫폼은 원시 데이터 수집부터 모델 커스터마이징, 그리고 프로덕션 지원 애플리케이션까지 전체 AI 수명주기를 완벽하게 지원할 수 있는 엔드투엔드 플랫폼입니다. 이 플랫폼은 더욱 엄격한 보안 및 모니터링을 통해 모델과 데이터를 완벽하게 제어하며, 거버넌스, 리니지, 투명성을 통해 ML 모델을 보다 쉽게 생산할 수 있습니다. 또한, 기업의 자체 모델 학습에 드는 비용을 절감하며, 조직에 더 많은 제어, 엔지니어링 효율성, 낮은 TCO를 제공합니다. 데이터브릭스는 기업의 자체 모델을 처음부터 개발하기 위해 특별히 맞춤화된 Prompt Engineering, RAG, Fine-tuning, Pre-training 등 종합적인 서비스를 제공하는 유일한 공급업체로 주목받고 있습니다.

이 블로그에서는: 1) 데이터브릭스를 사용하여 기업이 자체 생성형 AI 애플리케이션을 구축해야 하는 이유, 2) 데이터브릭스 데이터 인텔리전스 플랫폼이 엔터프라이즈 AI를 위한 최고의 플랫폼인 이유, 3) 그리고 이 여정을 시작하는 방법에 대해 설명합니다. 기대가 되시나요? 저희도 기대가 됩니다!

이 블로그에서 다룰 주제는 아래와 같습니다:

  • 우리 조직에서 자체 데이터로 학습된 대규모 언어 모델 (LLM)을 사용하여 어떻게 생성형 AI 애플리케이션을 강화하고 더 스마트한 비즈니스 의사 결정을 내릴 수 있을까요?
  • 데이터브릭스의 데이터 인텔리전스 플랫폼을 규정 준수와 투명성을 유지하면서 모든 데이터, 모델, API를 파인튜닝하고, 거버넌스를 관리하며 운영하기 위해 사용할 수 있는 방법은 무엇일까요?
  • 우리 회사가 AI 성숙도 곡선을 따라 고유의 데이터를 완전히 활용하면서 데이터브릭스 데이터 인텔리전스 플랫폼을 활용할 수 있는 방법은 무엇일까요?

엔터프라이즈용 생성형 AI: 데이터브릭스 데이터 인텔리전스 플랫폼으로 AI 활용하기

생성형 AI를 위해 데이터 인텔리전스 플랫폼을 사용해야 하는 이유는 무엇인가요?

데이터 인텔리전스 플랫폼을 사용하면 생성형 AI 도구를 사용하여 구축한 차별화된 애플리케이션으로 업계 리더십을 유지할 수 있습니다. 데이터 인텔리전스 플랫폼을 사용하면 다음과 같은 이점이 있습니다:

data-intelligence-platform

  • 완벽한 제어: 데이터 인텔리전스 플랫폼을 통해 조직은 고유한 기업 데이터를 활용하여 RAG 또는 맞춤형 생성형 AI 솔루션을 만들 수 있습니다. 조직은 모델과 데이터에 대한 완전한 소유권을 가지며, 데이터에 접근 권한이 없는 사용자가 접근할 수 없도록 보안 및 액세스 제어 기능을 제공합니다.

  • 프로덕션 준비 완료: 데이터 인텔리전스 플랫폼은 거버넌스, 반복성 (repeatability), 규정 준수를 기본으로 제공하여 대규모 모델 제공이 가능합니다.

  • 비용 효율성: 데이터 인텔리전스 플랫폼은 데이터 스트리밍의 효율성을 극대화하여 도메인에 맞춤화된 대규모 언어 모델(LLM)을 생성하거나 파인 튜닝할 수 있으며, 가장 우수한 성능과 비용 효율적인 대규모 언어 모델(LLM) 제공 및 학습 프레임워크를 활용할 수 있습니다.

데이터 인텔리전스 플랫폼을 통해 기업은 다음과 같은 이점을 얻을 수 있습니다:

  • 지능형 데이터 인사이트: 정형, 반정형, 비정형, 스트리밍 등 모든 데이터 자산을 활용하여 비즈니스 의사결정을 강화할 수 있습니다. MIT 테크 리뷰 보고서에 따르면, 기업 데이터의 최대 90%가 활용되지 않고 있다고 합니다. 모델 학습에 사용되는 데이터(예: PDF, Word 문서, 이미지, 소셜 미디어)가 다양할수록 인사이트의 영향력이 커질 수 있습니다. 어떤 데이터에 자주 액세스하고 있는지 파악하면 가치가 있는 데이터와 아직 활용되지 않은 데이터를 구분할 수 있습니다.
  • 도메인별 사용자 지정: 대규모 언어 모델(LLM)은 해당 업계의 전문 용어를 기반으로 하며, 선택한 데이터만을 사용하여 구축됩니다. 따라서 대규모 언어 모델(LLM)은 타사 서비스에서 알 수 없는 도메인별 용어를 이해할 수 있습니다. 더 좋은 점은 자체 데이터를 사용함으로써 IP가 회사 내에 유지된다는 것입니다.
  • 간단한 거버넌스, 가시성 및 모니터링: 기업은 자체 모델을 구축하거나 파인 튜닝함으로써 결과를 더 잘 이해할 수 있고, 모델이 어떻게 구축되었는지, 어떤 버전의 데이터를 기반으로 구축되었는지 알 수 있습니다. 모델의 성능, 수신 데이터의 변동 여부, 정확도 향상을 위해 모델을 다시 학습해야 할 필요가 있는지 여부를 한 눈에 파악할 수 있습니다.
"여러분이 모델에 입력하는 데이터는 다른 기업에서 여러분의 제품과 경쟁하는 제품을 만드는 데 사용될 수 있습니다. 이 때문에 기존 모델을 이용해서 구축하는 것은 바람직하지 않을 수 있죠." - Michael Carbin, MIT 교수 및 Mosaic AI 설립 고문

진화의 단계

시작할 준비가 되셨나요? 다음 단계로 나아가기 위해 고려해야 할 AI 성숙도 곡선에서의 조직의 일반적인 상황과 데이터브릭스의 데이터 인텔리전스 플랫폼이 이를 어떻게 지원할 수 있는지 살펴봅시다.

genai-journey

사전 단계: 데이터 수집, 변환, 준비 과정

AI 모험의 출발점은 언제나 데이터입니다. 많은 기업들이 이미 방대한 양의 데이터를 수집하고 있으며, 새로운 데이터의 생성 속도도 빠르게 증가하고 있습니다. 데이터는 구조화된 트랜잭션 데이터부터 웹에서 스캔한 PDF까지 다양한 유형으로 실시간으로 수집될 수 있습니다.

데이터브릭스 레이크하우스는 데이터 워크로드를 처리하여 운영 비용을 줄이고 문제를 해결하는 데 도움이 됩니다. 이 에코시스템의 핵심은 유니티 카탈로그로, 모든 데이터와 AI 에셋을 관리합니다. 유니티 카탈로그를 통해 내부 및 외부 데이터 소스인 스노우플레이크, MySQL 등을 원활하게 통합하고 관리할 수 있습니다. 이를 통해 데이터 에코시스템의 다양성과 풍부함이 향상됩니다.

델타 라이브 테이블을 사용하면 실시간에 가까운 스트리밍 데이터를 가져와서 빠르게 조치를 취할 수 있습니다. ETL 워크플로우를 주기적으로 실행하여 모든 소스의 데이터가 파이프라인으로 정상적으로 전달되도록 보장하고, 문제가 발생하면 즉시 알림을 받을 수 있습니다. 외부 데이터 세트를 포함한 최상의 데이터 품질을 확보하는 것은 AI의 성능에 직접적인 영향을 미치므로 데이터 관리의 포괄적인 접근 방식은 매우 중요합니다.

데이터를 자신있게 다룰 수 있는 능력을 갖추었다면 이제 생성형 AI의 세계에 발을 디딜 차례입니다. 첫 번째 개념 증명 (Proof of Concept)을 어떻게 만들 수 있는지 알아보는 것이 좋습니다.

1단계: Prompt Engineering

많은 기업들이 아직 생성형 AI 기술 도입의 초입 단계에서 멈춰있습니다. 그렇다는 것은 중요한 AI 전략이 마련되어 있지 않고, 추구할 명확한 사용 사례도 없으며, 회사 내에서 AI 도입을 안내할 수 있는 데이터 사이언티스트나 전문가 팀과의 교류가 어렵다는 것을 의미할 수 있습니다.

만약 여러분의 비즈니스가 이런 상황에 놓여 있다면, 기본적인 대규모 언어 모델(LLM)은 좋은 시작점이 될 수 있습니다. 이 대규모 언어 모델(LLM)은 특정 도메인에 대한 전문성이 맞춤형 AI 모델에 비해 부족할 수 있지만, 실험을 통해 다음 단계를 계획하는 데 도움을 줄 수 있습니다. 특화된 프롬프트와 워크플로를 통해 직원들에게 사용법을 안내할 수도 있습니다. 이러한 도구를 사용하면 리더는 이러한 도구의 장단점을 더 잘 이해할 수 있을 뿐만 아니라 AI의 초기 성공에 대한 명확한 비전을 얻을 수 있습니다. 조직은 더 강력한 AI 도구와 시스템에 투자하여 운영상의 이득을 더 크게 얻을 수 있는 영역을 파악할 수 있습니다. 외부 모델을 실험할 준비가 되었다면, Model Serving은 모든 모델을 한 곳에서 관리하고 단일 API로 쿼리할 수 있는 통합 플랫폼을 제공합니다. 다음은 POC(Proof of Concept)에 대한 프롬프트와 예상되는 응답입니다.

example_poc

2단계: Retrieval Augmented Generation

검색 증강 생성(RAG)은 추가 지식 리소스를 활용하여 기존 AI 시스템을 더욱 스마트하게 만들 수 있는 방법입니다. RAG는 기존 모델의 동작을 변경하지 않으면서도 응답의 관련성과 정확성을 향상시킬 수 있습니다.

하지만 현재 시점에서는 비즈니스에서 '미션 크리티컬' 데이터를 업로드하는 것은 좋지 않습니다. 일반적으로 RAG 프로세스에는 중요하지 않은 소량의 정보만 포함하시는 것을 추천 드립니다.

예를 들어, 직원 핸드북을 업로드하면 직원들이 기본 모델에 관련 질문을 통해 조직의 휴가 정책에 대해 알 수 있습니다. 또한 사용 설명서를 업로드하면 서비스 챗봇의 성능을 강화하는 데 도움이 될 수 있습니다. AI를 사용하여 지원 티켓을 쿼리하는 기능을 도입하면 지원 상담원이 빠른 답변을 얻을 수 있지만, 기밀 재무 데이터와 같은 회사의 실적에 대한 문의는 지나치게 민감한 정보일 수 있습니다.

RAG를 사용하기 위해서는 먼저 팀에서 사용하려는 데이터를 통합하고 정리해야 하고, 회사에서는 데이터를 다운스트림 모델에 적합한 크기로 저장하는 것이 중요합니다. 이를 위해 데이터를 더 작은 세그먼트로 나누어야 할 수도 있습니다.

그 다음으로는 Databricks Vector Search와 같은 도구를 사용하여 사용자가 자체적으로 벡터 데이터베이스를 빠르게 설정할 수 있는지 확인해야 합니다. 이 도구를 사용하면 유니티 카탈로그에 의해 관리되므로 세분화된 제어를 통해 직원들이 자격 증명이 있는 데이터세트에만 액세스할 수 있습니다.

마지막으로는 해당 엔드포인트를 상용 대규모 언어 모델(LLM)에 연결하면 됩니다. 데이터브릭스 MLflow와 같은 도구를 사용하면 이러한 API를 중앙에서 관리할 수 있습니다. 이를 통해 엔드포인트를 효율적으로 관리하고 모니터링할 수 있습니다.

example-chain

RAG의 장점으로는 환각 (hallucination)을 감소시키는 것, 정확한 최신 대응을 제공하는 것, 도메인별 인텔리전스를 향상시키는 것 등이 있습니다. 또한 RAG를 지원하는 모델은 대부분의 조직에서 비용 효율적인 접근 방식으로 사용됩니다.

하지만 RAG를 사용하는 데에는 여전히 많은 한계가 있습니다. 비즈니스에서 원하는 결과를 얻지 못한다면 더 강력한 솔루션으로 전환해야 할 수도 있고, RAG 지원 모델을 넘어서기 위해 훨씬 더 많은 노력이 필요할 수 있습니다. 추가적인 커스터마이징을 위해서는 더 많은 비용과 데이터가 필요합니다.

그래서 조직이 먼저 대규모 언어 모델(LLM)을 사용하는 방법에 대한 핵심적인 이해를 구축하는 것이 중요합니다. 기존 모델의 성능 한계를 파악한 후 경영진과 함께 리소스를 어디에 할당할지 결정할 수 있습니다.

3단계: 파운데이션 모델 Fine-tuning 

RAG를 넘어 모델 Fine-tuning으로 넘어가면 비즈니스에 훨씬 더 깊이 맞춤화된 모델을 구축할 수 있습니다. 이미 비즈니스 전반에 걸쳐 상용 모델을 실험해 본 적이 있다면 이 단계로 나아갈 준비가 된 것입니다. 경영진이 생성형 AI의 가치를 명확히 이해하고 있으며, 공개적으로 사용 가능한 대규모 언어 모델(LLM)의 한계에 대해서도 잘 알고 있는 것이죠. 구체적인 사용 사례도 확립되어 있습니다. 이제 여러분과 기업은 더 깊은 단계로 넘어갈 준비가 되었습니다.

파인 튜닝을 통해 범용 모델을 가져와 자체 특정 데이터에 대해 학습시킬 수 있습니다. 예를 들어, 데이터 관리 제공업체인 Stardog는 데이터브릭스의 Mosaic AI 도구를 사용하여 지식 그래프 플랫폼의 기반으로 사용하는 상용 대규모 언어 모델(LLM)을 파인 튜닝합니다. 이를 통해 Stardog의 고객은 자연어를 사용하여 여러 사일로에서 자체 데이터를 쿼리할 수 있습니다.

이 단계의 기업은 모델을 지원하는 데이터가 안전하고 정확한지 확인하는 데 도움이 되는 기본 아키텍처를 마련하는 것이 필수적입니다. AI 시스템을 파인 튜닝하려면 엄청난 양의 자체 정보가 필요하며, 비즈니스가 AI 성숙도 곡선에 맞춰 발전함에 따라 실행 중인 모델의 수가 증가하여 데이터 액세스에 대한 수요도 늘어날 것입니다.

그렇기 때문에 데이터가 생성되는 순간부터 최종적으로 사용될 때까지 데이터를 추적할 수 있는 적절한 메커니즘을 마련해야 하며, 이것이 바로 데이터브릭스 고객 사이에서 유니티 카탈로그가 인기 있는 이유입니다. 데이터 리니지 기능을 통해 기업은 데이터가 어디로 이동하고 누가 데이터에 액세스하는지 항상 파악할 수 있습니다.

foundational-models

4단계: 처음부터 모델 Pre-training 

맞춤형 모델을 사전 학습할 준비가 된 단계에 있다면, AI 성숙도 곡선의 정점에 도달한 것입니다. 이 단계의 성공 여부는 올바른 데이터를 적재적소에 배치하는 것뿐만 아니라 필요한 전문 지식과 인프라에 액세스할 수 있는지에 달려 있습니다. 대규모 모델 학습에는 엄청난 양의 컴퓨팅 자원과 "hero run"의 하드웨어 및 소프트웨어 복잡성에 대한 이해가 필요합니다. 또한 인프라 및 데이터 거버넌스 고려 사항 외에도 사용 사례와 결과를 명확하게 정의해야 합니다.

이러한 도구를 개발하는 데는 투자와 시간이 소요될 수 있지만, 비즈니스에 혁신적인 효과를 가져올 수 있습니다. 사용자 지정 모델은 운영의 핵심이 되거나 새로운 제품 제공의 기반이 되는 강력한 시스템입니다. 예를 들어, 소프트웨어 공급업체인 Replit은 코드 생성을 자동화하기 위해 Mosaic AI 플랫폼을 사용하여 자체 대규모 언어 모델(LLM)을 구축했습니다. 이렇게 사전 학습된 모델은 RAG 지원 모델이나 파인 튜닝 모델보다 훨씬 더 우수한 성능을 발휘합니다. 스탠퍼드대학교의 기초 모델 연구 센터(Mosaic AI와 협력)는 생물의학에 특화된 자체 대규모 언어 모델(LLM)을 구축했습니다. 이 맞춤형 모델의 정확도는 74.4%로, 파인 튜닝된 기존 모델의 정확도 65.2%보다 훨씬 더 높았습니다.

mosaic-pre-training

그 다음 단계: 운영 및 LLMOps 

축하드립니다! 파인 튜닝 또는 사전 학습된 모델을 성공적으로 구현하셨습니다. 이제 마지막 단계는 이 모든 것을 생산화하는 것인데, 이를 LLMOps(또는 LLM 오퍼레이션)라고 합니다. LLMOps를 사용하면 매일 밤 컨텍스트 데이터가 벡터 데이터베이스에 통합되고, AI 모델은 성능이 저하될 때마다 스스로 개선되는 뛰어난 정확성을 보여줍니다. 또한 이 단계에서는 부서 간에 완벽한 투명성을 제공하여 AI 모델의 상태와 기능에 대한 깊은 통찰력을 얻을 수 있습니다.

LLMOps는 AI 고도화의 정점뿐만 아니라 이 여정 전반에서 매우 중요한 역할을 합니다. LLMOps는 마지막 단계뿐만 아니라 초기 단계부터 필수적인 요소여야 합니다. 생성형 AI 고객은 처음에 복잡한 모델 사전 학습에 참여하지 않을 수도 있지만, LLMOps 원칙은 일반적으로 관련성이 높고 유리합니다. 다양한 단계에서 LLMOps를 구현하면 강력하고 확장 가능하며 효율적인 AI 운영 프레임워크를 보장하여 AI 성숙도에 관계없이 모든 조직이 고급 AI의 이점을 누릴 수 있도록 민주화할 수 있습니다.

성공적인 LLMOps 아키텍처는 어떤 모습일까요?

데이터브릭스 데이터 인텔리전스 플랫폼은 LLMOps 프로세스를 구축하기 위한 기반입니다. 이 플랫폼은 모델과 데이터를 손쉽게 관리, 제어, 평가 및 모니터링할 수 있도록 도와줍니다. 이 플랫폼이 제공하는 몇 가지 이점은 다음과 같습니다:

  • 통합 거버넌스: Unity Catalog를 사용하면 데이터와 모델에 대한 통합된 거버넌스 및 보안 정책을 적용할 수 있어, MLOps 관리가 단일 솔루션에서 유연하게 이루어질 수 있습니다.
  • 프로덕션 에셋에 대한 읽기 액세스: 데이터 사이언티스트는 Unity Catalog를 통해 프로덕션 데이터와 AI 에셋에 대한 읽기 전용 액세스 권한을 확보할 수 있어, 모델 훈련, 디버깅 및 비교를 용이하게 할 수 있으며, 이를 통해 개발 속도와 품질을 향상시킬 수 있습니다.
  • 모델 배포: Unity Catalog에서 모델 별칭을 활용하면 타겟팅된 배포와 워크로드 관리가 가능해지며, 이를 통해 모델 버전 관리와 프로덕션 트래픽 처리를 최적화할 수 있습니다.
  • 리니지: Unity Catalog의 강력한 계보 추적 기능은 모델 버전을 훈련 데이터와 다운스트림 소비자와 연결하여 종합적인 영향 분석과 MLflow를 통한 세부 추적을 제공합니다.
  • 검색 가능성: 데이터와 AI 에셋을 Unity Catalog에 중앙 집중화하면 검색 기능이 향상되어 MLOps 솔루션의 리소스 위치와 활용도를 효율적으로 높일 수 있습니다.

또한, 유니티는 MLOps 분야에서 세상을 발전시킬 수 있는 아키텍처에 대한 생각과 경험을 모아 MLOps 빅북을 출간했습니다. 이 책에는 LLM에 대한 방대한 내용이 포함되어 있으며, 앞서 언급한 내용을 모두 다루고 있습니다. AI 분야에서 성장하고자 하는 분들께 적극 추천드리는 자료입니다. 또한, 이 블로그에서는 생성형 AI 애플리케이션을 구현하는 기업의 다양한 성숙 단계에 대해 알아볼 수 있습니다. 아래 표에서 자세한 내용을 확인해보세요.

Databricks 데이터 인텔리전스 플랫폼은 LLMOps 프로세스를 구축하기 위한 기반으로 존재합니다. 모델과 데이터를 쉽게 관리, 제어, 평가 및 모니터링할 수 있도록 도와줍니다. 다음은 제공되는 몇 가지 혜택입니다:

  • 통합 거버넌스: Unity Catalog를 사용하면 데이터와 모델 전반에서 통합 거버넌스 및 보안 정책을 적용하여 MLOps 관리를 간소화하고 단일 솔루션에서 유연한 수준별 관리를 수행할 수 있습니다.
  • 프로덕션 자산에 대한 읽기 액세스: 데이터 사이언티스트는 Unity Catalog를 통해 프로덕션 데이터 및 AI 자산에 대한 읽기 전용 액세스 권한을 얻어 모델 학습, 디버깅 및 비교를 용이하게 하여 개발 속도와 품질을 향상시킬 수 있습니다.
  • 모델 배포: Unity Catalog에서 모델 별칭을 활용하면 대상별 배포 및 워크로드 관리가 가능하여 모델 버전 관리 및 프로덕션 트래픽 처리를 최적화할 수 있습니다.
  • 리니지: Unity Catalog의 강력한 리니지 추적 기능은 모델 버전을 학습 데이터 및 다운스트림 소비자와 연결하여 MLflow를 통해 포괄적인 영향 분석과 세부 추적을 제공합니다.
  • 검색 가능성: 데이터와 AI 자산을 Unity Catalog에 중앙 집중화하면 검색 가능성이 향상되어 MLOps 솔루션의 효율적인 리소스 위치 및 활용에 도움이 됩니다.

어떤 아키텍처가 이 세상을 발전시킬 수 있는지 엿볼 수 있도록, 저희는 많은 생각과 경험을 모아 LLM에 대한 큰 섹션을 포함하고 여기에서 이야기한 모든 내용을 다루는 MLOps 빅북을, 만들었습니다. AI 열반의 경지에 도달하고 싶다면 살펴보시길 추천합니다.

이 블로그에서는 GenAI 애플리케이션을 구현하는 기업의 여러 성숙 단계에 대해 알아보았습니다. 아래 표에서 자세한 내용을 확인할 수 있습니다:

GenAI 진화
An overview of the various stages of maturity for implementing LLMs in an enterprise setting

결론

이제 생성적 AI 성숙도 곡선을 따라 여정을 살펴보고 조직에 유용한 LLM을 만드는 데 필요한 기술을 살펴보았으니, 이제 모든 것이 시작되는 곳인 데이터 인텔리전스 플랫폼으로 돌아가 보겠습니다.

Databricks 와 같은 강력한 데이터 인텔리전스 플랫폼은 맞춤형 AI 기반 애플리케이션을 위한 백본을 제공합니다. 규모에 맞게 뛰어난 성능을 발휘하는 동시에 적절한 데이터만 사용되도록 안전하게 관리되는 데이터 레이어를 제공합니다. 데이터를 기반으로 구축되는 진정한 데이터 인텔리전스 플랫폼은 의미론도 이해하므로 모델이 회사의 고유한 데이터 구조와 용어에 액세스할 수 있으므로 AI 어시스턴트를 훨씬 더 강력하게 사용할 수 있습니다.

AI 사용 사례를 구축하고 프로덕션에 적용하기 시작하면 모든 것이 최적으로 작동하는지 확인하기 위해 탁월한 가시성과 모니터링을 제공하는 플랫폼도 필요합니다. 데이터의 '정상' 프로필이 어떤 모습인지, 언제 문제가 발생할 수 있는지 파악할 수 있는 진정한 데이터 인텔리전스 플랫폼이 빛을 발하는 곳이 바로 이 지점입니다.

궁극적으로 데이터 인텔리전스 플랫폼의 가장 중요한 목표는 복잡한 AI 모델과 사용자의 다양한 요구 사이의 격차를 해소하여 더 많은 개인과 조직이 LLM(및 생성 AI)의 힘을 활용하여 자체 데이터를 사용해 어려운 문제를 해결할 수 있도록 하는 것입니다.

Databricks 데이터 인텔리전스 플랫폼은 데이터 수집 및 저장부터 AI 모델 사용자 지정까지 기업을 지원할 수 있는 유일한 엔드투엔드 플랫폼으로, 궁극적으로 GenAI 기반 AI 애플리케이션을 제공합니다。

Databricks 무료로 시작하기

관련 포스트

Platform blog

데이터 인텔리전스 플랫폼

(번역: Sang-bae Lim) Original Blog Post " 소프트웨어가 세상을 집어삼키고 있다 "는 견해는 최신 기술 산업을 대변하고 있습니다. 오늘날 소프트웨어는 우리가 착용하는 시계부터...
Engineering blog

RAG 애플리케이션의 LLM 평가를 위한 모범 사례

챗봇은 대규모 언어 모델(LLM)의 강력한 채팅 및 추론 기능을 활용하기 위해 가장 널리 채택된 사용 사례입니다. 검색 증강 생성(RAG) 아키텍처는 지식 기반(벡터 스토어를...
Company blog

Databricks + MosaicML

오늘 우리는 기업을 위한 생성형 AI 모델을 만들고 맞춤화하기 위한 선도적인 플랫폼인 MosaicML의 인수를 완료했다는 소식을 전하게 되어 기쁩니다. Databricks를 설립한 이래로 Databricks의...
모든 플랫폼 블로그 포스트 보기