Lakehouse에 연결된 즉시 사용 가능한 NVIDIA H100 GPU로 최신 LLM을 학습하세요.
작성자: 테자스 순다레산, 젠웨이 셰, Bandish Shah , Hanlin Tang
오늘날 가장 발전된 AI 워크로드는 예측 및 추천부터 멀티모달 파운데이션 모델까지 GPU를 활용합니다. 하지만 팀들은 GPU 인프라 조달 및 관리, 분산 학습 환경 구성, 데이터 로딩 병목 현상 디버깅에 어려움을 겪고 있습니다. 딥러닝 연구원들은 인프라 문제 해결보다는 모델링에 집중하고 싶어 합니다.
저희는 A10 및 H100에서 온디맨드 분산 GPU 학습을 지원하는 새로운 학습 스택인 AI Runtime (AIR)의 공개 미리 보기 출시를 발표하게 되어 기쁩니다. AI Runtime에는 MPT 및 DBRX와 같은 LLM의 대규모 학습에 사용되는 모든 기술이 포함되어 있습니다. 베타 버전임에도 불구하고 Rivian, Factset, YipitData를 포함한 수백 명의 고객이 AIR를 사용하여 딥러닝 모델을 학습하고 프로덕션에 배포했습니다. 사용 사례는 컴퓨터 비전 모델부터 추천 시스템, 에이전트 작업용으로 미세 조정된 LLM까지 다양합니다. 저희 Databricks AI Research 팀은 최근 KARL 논문에서와 같이 모델의 강화 학습에 AIR를 사용했습니다.
AI Runtime을 통해 Databricks 사용자는 이제 다음을 사용할 수 있습니다.

대화형 개발 및 디버깅을 위해 몇 번의 클릭만으로 Databricks 노트북에서 온디맨드 A10 및 H100에 연결할 수 있습니다. 거기에서 일반적인 Python 패키지의 환경 관리부터 Genie Code를 통한 에이전트 기반 작성 및 디버깅에 이르기까지 Databricks가 제공하는 모든 개발자 편의 기능을 활용할 수 있습니다. Lakehouse에서 데이터를 쉽게 마운트하여 딥러닝 모델을 학습하거나, GPU 지원 노트북에서 원 격 CPU를 호출하여 Spark 데이터 처리 워크로드를 실행하여 데이터를 준비할 수 있습니다.

Genie Code를 사용하여 성능 병목 현상을 해결하고, 새로운 아키텍처를 실험하거나, 모델 수렴 또는 난해한 프레임워크 오류 주변의 까다로운 버그를 디버깅할 수 있습니다.
AI Runtime은 가속 컴퓨팅을 위한 프로덕션 등급 플랫폼입니다. 대화형 노트북에서 딥러닝 코드를 개발한 다음, GPU 컴퓨팅에서 작업을 제출하고 오케스트레이션하기 위해 Lakeflow의 전체 기능을 사용합니다. 노트북과 사용자 지정 코드 리포지토리 모두 장기 실행 또는 예약된 작업을 위해 Lakeflow에서 실행할 수 있습니다. CI/CD(지속적 통합 및 지속적 배포)와 같은 프로덕션 요구 사항의 경우 AI Runtime은 선언적 자동화 번들(DAB)과 완벽하게 호환됩니다.
Lakeflow 통합을 통해 고객은 모델 학습 및 미세 조정을 상위 데이터 파이프라인 및 하위 프로덕션 시스템과 긴밀하게 동기화할 수 있습니다.
“Databricks의 AI Runtime은 사용자 지정 텍스트-수식(TTF) 모델 학습 프로세스를 크게 간소화했습니다. 인프라 설정이나 지연 없이 프롬프트 크기 및 출력 토큰 생성에 따라 올바른 컴퓨팅을 쉽게 선택할 수 있었습니다. 이를 통해 신속하게 이동하고 Lakehouse 워크플로를 유지하며 전체 거버넌스를 갖춘 고품질 모델을 제공하여 모델 설정, 학습 및 배포 시간을 며칠에서 몇 시간으로 단축할 수 있었습니다.”— Nikhil Sunderraj, 수석 머신러닝 엔지니어, FactSet Research Systems, Inc.

분산 학습 워크로드는 준비, 디버깅 및 관찰이 까다로울 수 있습니다. RDMA 설정 문제 해결부터 여러 GPU의 원격 측정 추적, 적절한 소프트웨어 구성에 이르기까지 사용자는 모델 학습을 크게 느리게 하는 중요한 세부 정보를 쉽게 놓칠 수 있습니다.
대신 AI Runtime은 전체 딥러닝 수명 주기에 최적화되어 있으며 시간을 절약하도록 설계되었습니다. PyTorch 및 CUDA와 같은 주요 종속성이 사전 설치되어 있으며 Ray, Hugging Face Transformers, Composer 및 기타 라이브러리와 같은 분산 학습 프레임워크에 대한 최적화된 지원이 제공되므로 환경을 관리하지 않고도 즉시 학습을 시작할 수 있습니다. 고객은 Unsloth, TorchRec 또는 사용자 지정 학습 루프와 같은 자체 라이브러리를 가져올 수도 있습니다.
