작성자: Databricks 직원
AI 도입이 가속화됨에 따라 조직은 AI 이니셔티브를 지원할 수 있는 시스템을 구현해야 한다는 압박에 직면하고 있습니다. 이러한 특수 시스템을 구축하려면 AI 성능을 보장하기 위한 깊은 전문 지식과 전략적 준비가 필요합니다.
AI 인프라는 AI 및 머신러닝(ML) 워크로드를 지원하도록 설계된 하드웨어, 소프트웨어, 네트워킹 및 스토리지 시스템의 조합을 의미합니다. 범용 컴퓨팅을 위해 구축된 기존 IT 인프라는 AI 워크로드에 필요한 막대한 처리 능력을 감당할 용량이 부족합니다. AI 인프라는 대규모 데이터 throughput, 병렬 처리, 그래픽 처리 장치(GPU)와 같은 가속기에 대한 AI의 요구를 지원합니다.
예를 들어 챗봇 ChatGPT 규모의 시스템은 상호 연결된 수천 개의 GPU, 고대역폭 네트워크 및 긴밀하게 조정된 오케스트레이션 소프트웨어가 필요한 반면, 일반적인 웹 애플리케이션은 소수의 컴퓨터 처리 장치(CPU)와 표준 클라우드 서비스에서 실행될 수 있습니다. AI 인프라는 AI의 힘을 활용하고자 하는 기업에게 필수적입니다.
AI 인프라의 핵심 구성 요소는 함께 작동하여 AI 워크로드를 가능하게 합니다.
컴퓨팅은 명령을 실행하는 다양한 유형의 칩에 의존합니다.
CPU 는 범용 프로세서입니다.
GPU 는 컴퓨터 그래픽, 이미지, 동영상의 제작 및 렌더링을 가속화하기 위해 개발된 특수 프로세서입니다. GPU는 대규모 병렬 처리 능력을 사용하여 신경망 이 한 번에 엄청난 수의 연산을 수행하고 복잡한 계산을 가속화할 수 있도록 합니다. GPU는 기존 CPU보다 훨씬 빠르게 AI 모델 을 훈련하고 실행할 수 있기 때문에 AI 및 머신러닝 워크로드에 매우 중요합니다.
GPU는 단일의 특정 목적을 위해 설계된 주문형 반도체(ASIC)입니다. NVIDIA는 GPU의 지배적인 공급업체이며 Advanced Micro Devices는 두 번째로 큰 GPU 제조업체입니다.
TPU(텐서 처리 장치)는 Google의 ASIC입니다. GPU보다 전문화되어 있으며, AI의 연산 수요를 해결하기 위해 특별히 설계되었습니다. TPU는 신경망이 패턴을 학습하고 예측하는 데 사용하는 텐서 연산을 위해 특별히 설계되었습니다. 이러한 운영은 딥러닝 알고리즘의 기본입니다.
실제로 CPU는 범용 작업에 가장 적합합니다. GPU는 딥러닝 모델 학습과 같이 병렬 처리가 필요한 애플리케이션을 포함하여 다양한 AI 애플리케이션에 사용될 수 있습니다. TPU는 특히 대용량 데이터를 사용하여 크고 복잡한 신경망을 학습하는 등 전문화된 작업에 최적화되어 있습니다.
AI 인프라의 스토리지 및 데이터 관리는 데이터 병목 현상을 방지하고 효율성을 보장하기 위해 대규모 데이터세트에 대한 매우 높은 throughput의 액세스를 지원해야 합니다.
객체 스토리지는 AI 시스템에 필요한 대량의 정형 및 비정형 데이터를 저장할 수 있어 AI에 가장 일반적인 스토리지 매체입니다. 또한 확장이 용이하고 비용 효율적입니다.
블록 스토리지는 빠르고 효율적이며 안정적인 액세스를 제공하며 가격이 더 비쌉니다. 데이터베이스, 가상 머신, 고성능 애플리케이션과 같은 워크로드의 경우 자주 검색해야 하는 트랜잭션 데이터 및 작은 파일에 가장 적합합니다.
많은 조직이 대량의 데이터를 저장하기 위해 객체 스토리지와 개방형 포맷을 사용하는 중앙 집중식 리포지토리인 데이터 레이크에 의존합니다. 데이터 레이크는 이미지, 동영상, 오디오, 문서 등 비정형 및 반정형 데이터를 포함한 모든 데이터 유형을 처리할 수 있으며, 이는 AI 사용 사례에 중요합니다.
강력한 네트워킹은 AI 인프라의 핵심적인 부분입니다. 네트워크는 스토리지와 compute 간에 AI에 필요한 대규모 데이터세트를 빠르고 효율적으로 이동시켜 데이터 병목 현상으로 인해 AI 워크플로가 중단되는 것을 방지합니다. 단일 모델에서 여러 GPU가 함께 작동하는 분산 훈련과, 훈련된 AI 모델이 새로운 데이터로부터 결론을 도출하는 데 사용하는 프로세스인 실시간 추론에는 짧은 지연 시간의 연결이 필요합니다. 고성능 상호 연결 표준인 InfiniBand 및 고대역폭 이더넷과 같은 기술은 효율적이고 확장 가능하며 안정적인 AI를 위해 고속 연결을 지원합니다.
소프트웨어 또한 AI 인프라의 핵심입니다. TensorFlow 및 PyTorch와 같은 ML 프레임워크는 사전 빌드된 구성 요소와 구조를 제공하여 ML 모델의 빌드, 학습, 배포 프로세스를 간소화하고 속도를 높입니다. Kubernetes와 같은 오케스트레이션 플랫폼은 AI 모델, 데이터 파이프라인, 컴퓨팅 리소스를 통합 시스템으로 함께 작동하도록 조정하고 관리합니다.
또한 조직은 ML, DevOps,데이터 엔지니어링 을 결합한 일련의 프랙티스인 MLOps 를 사용하여 ML 수명 주기 전반의 워크플로와 배포를 자동화하고 간소화합니다. MLOps 플랫폼은 AI 개발 및 배포 이면의 워크플로를 간소화하여 조직이 새로운 AI 기반 제품 및 서비스 를 시장에 출시할 수 있도록 지원합니다.
AI 인프라는 클라우드 내, 온프레미스 또는 하이브리드 모델을 통해 배포할 수 있으며 각 옵션마다 다른 이점이 있습니다. 의사 결정자는 조직의 AI 목표, 워크로드 패턴, 예산, 규정 준수 요건 및 기존 인프라를 포함한 다양한 요소를 고려해야 합니다.
다양한 AI 워크로드는 컴퓨팅, 스토리지, 네트워킹에 각기 다른 요구 사항을 적용하므로, 이러한 특징과 요구 사항을 이해하는 것이 올바른 인프라를 선택하는 데 중요합니다.
AI 인프라를 구축하려면 철저한 평가, 신중한 계획, 효과적인 실행이라는 의도적인 프로세스가 필요합니다. 다음은 필수적으로 취해야 할 단계입니다.
AI 인프라 운영에서 지속적인 비용은 주요 요인이며, 소규모 프로젝트의 경우 월 약 5,000달러부터 엔터프라이즈 시스템의 경우 월 100,000달러 이상까지 다양합니다. 하지만 각 AI 프로젝트는 고유하며, 현실적인 예산을 예측하려면 여러 요소를 고려해야 합니다.
compute, 스토리지, 네트워킹 및 관리형 서비스에 대한 비용은 예산을 계획하는 데 중요한 요소입니다. 이 중에서도 컴퓨팅(특히 GPU 시간)이 일반적으로 가장 큰 지출을 차지합니다. 스토리지 및 데이터 전송 비용은 데이터 세트 크기와 모델 워크로드에 따라 변동될 수 있습니다.
탐색해야 할 또 다른 영역은 클라우드 서비스 비용입니다. 클라우드 가격 모델은 다양하며 다양한 요구에 따라 서로 다른 이점을 제공합니다. 옵션은 다음과 같습니다.
숨겨진 비용은 적극적으로 관리하지 않으면 예산을 부풀릴 수 있습니다. 예를 들어 클라우드 플랫폼에서 데이터를 이동하면 데이터 이그레스 요금이 발생할 수 있으며, 유휴 리소스는 서비스를 제공하지 않을 때에도 비용을 지불해야 합니다. 팀이 모델을 반복하면서 여러 실험을 동시에 실행하는 경우가 많기 때문에 실험에 대한 오버헤드가 증가할 수 있습니다. 비용 효율적인 AI 인프라를 위해서는 이러한 요소를 모니터링하는 것이 중요합니다.
최적화 전략은 비용을 통제하면서 효율성을 높이는 데 도움이 될 수 있습니다. 다음과 같습니다.
AI 인프라를 계획하고 구현하는 것은 큰 작업이며, 세부 사항이 차이를 만들 수 있습니다. 다음은 염두에 두어야 할 몇 가지 모범 사례입니다.
모든 영향력 있는 프로젝트와 마찬가지로 AI 인프라를 구축하는 데에는 어려움과 장애물이 따를 수 있습니다. 염두에 두어야 할 몇 가지 시나리오는 다음과 같습니다.