
개방형 레이크하우스 아키텍처를 기반으로 구축된 AI 및 Databricks 머신 러닝은 ML 팀이 데이터를 준비 및 처리할 수 있도록 지원하고, 팀 간 협업을 간소화하며, 생성형 AI 및 대규모 언어 모델(LLM)을 포함하여 실험에서 프로덕션에 이르는 전체 ML 수명 주기를 표준화합니다.
.png)
AI 및 ML 데이터의 모든 측면 간소화
Databricks ML은 Delta Lake를 통해 개방형 레이크하우스를 기반으로 빌드하여, 머신 러닝 팀에서 규모와 관계없이 어떤 유형의 데이터든 액세스, 탐색하고 준비하도록 지원할 수 있습니다. 데이터 엔지니어링 지원에 의존하지 않고 셀프 서비스로 여러 기능을 프로덕션 파이프라인으로 전환할 수 있습니다.

실험 추적과 거버넌스 자동화
관리형 MLflow는 실험과 로그 매개변수, 메트릭, 데이터와 코드 버전 관리를 자동으로 추적하며 트레이닝을 실행할 때마다 모델 아티팩트도 추적합니다. 이전 실행을 신속하게 확인하고 결과를 비교하며 필요한 경우 과거 결과를 재현할 수도 있습니다. 프로덕션할 모델의 가장 좋은 버전을 확인했다면, 이를 모델 레지스트리에 등록하면 배포 수명 주기에 따라 핸드오프를 간소화할 수 있습니다.

데이터에서 프로덕션까지 유연하게 모든 모델 수명 주기 관리
트레이닝을 마친 모델을 등록하면 모델 레지스트리를 사용해 모델의 수명 주기 내내 협업 방식으로 모델을 관리할 수 있습니다. 모델은 실험, 스테이징, 프로덕션과 보관 등 다양한 단계를 거치면서 버전을 관리하고 이동할 수 있습니다. 수명 주기 관리는 역할 기반 액세스 관리에 따라 승인 및 거버넌스 워크플로와 통합됩니다. 메모와 이메일 알림으로 데이터 팀에게 풍성한 협업 환경을 제공합니다.

대규모, 짧은 레이턴시로
ML 모델 배포
서버 관리나 확장에 대한 제약을 걱정할 필요 없이 클릭 한 번으로 모델을 배포하세요. Databricks를 사용하면 엔터프라이즈급 가용성으로 어디에나 REST API 엔드포인트로 모델을 배포할 수 있습니다.

생성형 AI 및 대규모 언어 모델(LLM) 사용
Hugging Face의 Transformer 라이브러리 또는 기타 오픈 소스 라이브러리의 모델과 같은 선행 학습된 기존 모델을 워크플로에 통합합니다. Transformer 파이프라인을 사용하면 손쉽게 GPU를 사용하고 GPU로 전송된 항목을 배치 처리하여 처리량을 높일 수 있습니다.
특정 작업을 위한 자체 데이터의 모델을 맞춤 구성합니다. Hugging Face 및 DeepSpeed와 같은 오픈 소스 도구의 지원을 통해 기본 LLM을 신속하고 효율적으로 사용하고 자체 데이터로 학습을 시작하여 사용자의 도메인 및 워크로드에 대한 정확도를 높일 수 있습니다. 이렇게 하면 학습에 사용되는 데이터를 직접 제어할 수 있어 AI를 책임감 있게 사용할 수 있습니다.
제품 구성요소

협업 노트북
Databricks 노트북은 기본적으로 Python, R, SQL과 Scala를 지원하기 때문에 실무자가 직접 선택한 언어와 라이브러리를 활용하여 인사이트를 검색, 시각화하고 공유할 수 있습니다.

머신 러닝 런타임
가장 보편적인 ML 프레임워크(예를 들어 PyTorch, TensorFlow와 scikit-learn 등)의 확장 가능하고 안정적인 배포로 지원하여 미리 구성한 ML 최적화 클러스터에 원클릭 액세스를 제공하며, 비할 데 없는 최고의 대규모 성능에 기본 내장된 최적화를 보장합니다.

Feature Store
자동으로 로깅된 데이터 소스를 활용하는 데이터 리니지 기반 feature 검색으로 feature 재사용을 가능하게 합니다. 클라이언트 어플리케이션을 변경하지 않아도 되는 단순화된 모델 배포 및 트레이닝에 feature들이 활용되도록 해보세요.

AutoML
ML 전문가부터 일반인 데이터 사이언티스트에 이르기까지 누구에게나 "글래스 박스(glass box)" 방식으로 AutoML을 접할 수 있게 권한을 부여하면 최고 성능의 모델을 확보할 수 있을 뿐만 아니라, 전문가가 추가로 조정할 수 있는 코드도 작성됩니다.

관리형 MLFlow
ML 수명 주기용 오픈소스 플랫폼 중 단연 세계적으로 대표적인 MLflow를 기반으로 구축한 관리형 MLflow를 이용하면 ML 모델을 실험부터 프로덕션까지 단계를 빨리 진행하는 데 유리하며, 그 과정에서 엔터프라이즈급 보안, 안정성과 확장성을 보장합니다.

프로덕션급 모델 제공
클릭 한 번으로 간단하게 모든 규모의 모 델을 활용할 수 있으며, 서버리스 컴퓨팅을 활용할 수 있는 옵션도 제공됩니다.

모델 모니터링
모 델 성능 및 비즈니스에 미치는 실시간 효과를 실시간으로 모니터링하세요. Databricks는 프로덕션의 모델에서 소스 데이터 시스템에 이르기까지 전체적인 가시성과 리니지를 제공하기 때문에, 모든 ML 수명 주기에서 모델과 데이터 품질을 분석하는 데 도움을 받고 문제가 심각해지기 전에 미리 발견할 수 있습니다.

리포지토리
Repos는 엔지니어가 Databricks의 Git 워크플로를 따를 수 있으며, 데이터 팀에서도 자동 CI/CD 워크플로와 코드 이식성을 활용할 수 있습니다.
대규모 언어 모델
Databricks는 LLM에 간편하게 액세스하고 워크플로에 통합할 수 있을 뿐만 아니라 도메인 성능 향상을 위해 자체 데이터를 사용하여 LLM을 미세 조정할 수 있는 플랫폼 기능을 제공합니다.