모델 훈련

자체 LLM 및 기타 생성형 AI 모델 미세 조정 및 사전 트레이닝

맞춤형 LLM의 미세 조정 및 구축을 위한 간략 가이드

Databricks를 사용하여 자체 LLM을 사전 학습 및 미세 조정하는 기술 배우기

Databricks Model Training을 통해 오픈 소스 LLM을 미세 조정하거나 엔터프라이즈 데이터로 학습된 맞춤형 LLM을 구축하세요. Model Training을 통해 구축한 맞춤형 모델은 더 빠르고 도메인과 더욱 관련된 고품질의 결과를 생성하며 독점 LLM보다 최대 10배 저렴한 비용으로 구축할 수 있습니다.

Simplified training with AI Runtime

Databricks offers fast, serverless access to fully managed GPUs—no setup, no idle costs, no quota management. Bring any model, codebase, or framework. Whether you're experimenting with new architectures or running custom pipelines, you get the flexibility and control to move fast.

This native GPU support is the ideal complement to Databricks Model Training—letting you scale custom training and finetuning workflows while keeping your models and data on a single, secure platform.

A complex image with various elements, including text, diagrams, and charts.

높은 정확도

오픈 소스 LLM을 미세 조정하거나 엔터프라이즈 데이터로 새로운 LLM을 구축하면 비즈니스를 의미론적 관점에서 더 잘 이해하고 매우 정확한 응답을 제공할 수 있습니다. Databricks Model Training은 Databricks에서 기본적으로 제공되므로 조직은 데이터를 이동하지 않고도 쉽고 안전하게 모델을 미세 조정하거나 구축할 수 있습니다. 또한 거버넌스, 감사 기능, 추적 가능성 및 모니터링을 보장하여 모델이 올바른 방식으로 사용되고 올바른 응답을 제공하도록 합니다. 그 결과 비즈니스 상황에 맞는 고품질의 정확한 결과를 얻을 수 있습니다.

손쉬운 확장

고성능 LLM 트레이닝의 핵심 요소는 확장성이며, 이를 위해서는 빠르고 레이턴시가 짧은 네트워킹과 고성능 GPU에 대한 액세스가 필요합니다. Databricks Model Training을 사용하면 NVIDIA InfiniBand 네트워킹과 최고의 NVIDIA GPU인 NVIDIA H100 Tensor Core GPU에 모두 자동으로 액세스할 수 있는데, 이는 이전 하드웨어 세대보다 탁월한 성능과 확장성을 제공합니다. 이를 통해 대규모 모델(700억 개 이상의 매개변수)을 손쉽게 트레이닝할 수 있도록 확장하고 몇 시간 또는 며칠 내에 트레이닝을 완료할 수 있습니다.

Pretraining shows it can train a Stable Diffusion model for 10x less cost

높은 비용 효율성

Databricks Model Training은 소규모 오픈 소스 GenAI LLM을 미세 조정하여 대규모 독점 LLM보다 최대 5배 더 비용 효율적으로 제공할 수 있는 매우 효율적인 모델을 생성할 수 있습니다. 또한 최적화된 소프트웨어 스택을 사용하여 처음부터 새로운 LLM을 구축할 수 있으므로 LLM을 비용 효율적으로 트레이닝할 수 있습니다. 시스템 수준 최적화, 조정된 병렬 처리 전략, 모델 트레이닝 사이언스의 조합을 통해 트레이닝 비용을 10배까지 절감할 수 있습니다.

보안 및 규정 준수

대부분의 조직에서 보안은 가장 중요하며 직원들이 조직의 데이터를 타사 API로 보내 데이터를 유출하거나 공개 모델을 훈련하는 데 사용하는 위험을 감수할 여력이 없습니다. Databricks Model Training에서는 조직이 자체 LLM을 구축하여 데이터 및 모델에 대한 완벽한 제어력과 소유권을 유지하기 때문에 이러한 문제를 걱정할 필요가 없습니다. 트래픽과 모든 트레이닝 데이터를 포함하여 모든 것이 기본적으로 암호화된 상태로 유지되므로 데이터 개인정보 보호와 모델 소유권을 완벽하게 보호하여 모든 규제를 준수할 수 있습니다.