Databricks AI 시스템 프레임워크(DASF)

Databricks AI 시스템 프레임워크(DASF)는 현대 AI/ML 시스템의 핵심 구성 요소를 개요하며, 조직이 잠재적 위험을 평가하고 보안 모범 사례를 적용하는 데 도움을 줍니다.

The Databricks AI Security Framework (DASF)

아키텍처 요약

Databricks AI 시스템 프레임워크(DASF)는 현대 AI/ML 시스템의 핵심 구성 요소를 개요하며, 조직이 잠재적 위험을 평가하고 보안 모범 사례를 적용하는 데 도움을 줍니다. 이러한 구성 요소들이 어떻게 상호 작용하는지 이해함으로써, 조직은 취약점을 더 잘 예측하고 적절한 완화 전략을 적용할 수 있습니다.

Databricks 보안 팀은 이러한 학습을 Databricks 데이터 인텔리전스 플랫폼에 내장된 제어와 보안 및 준수를 위한 문서 링크로 통합하였습니다.

시스템은 4개의 주요 단계로 그룹화된 12개의 기본 구성 요소로 구성되어 있습니다. 각 단계는 안전하고, 관리되며, 운영적으로 효율적인 AI와 ML 워크플로우의 중요한 기둥을 나타냅니다.

I. 데이터 작업 (구성 요소 1-4)

데이터 작업은 데이터를 수집, 준비, 카탈로그화하는 데 초점을 맞춥니다. 이것은 모델 품질이 입력 데이터의 품질과 보안에 의존하기 때문에, 어떤 신뢰할 수 있는 ML 시스템의 기초입니다.

1. 원시 데이터: 다양한 소스(구조화, 비구조화 및 반구조화)에서 데이터가 수집됩니다. 이 단계에서, 데이터는 안전하게 저장되고 접근이 제어되어야 합니다.

2. 데이터 준비: 이 단계에서는 클리닝, 탐색적 데이터 분석(EDA), 변환 및 특징화가 포함됩니다. 이것은 추출, 변환, 로드(ETL) 과정의 일부이며, 의미 있는 훈련 특성을 도출하는 데 필수적입니다.

3. 데이터셋: 준비된 데이터셋은 훈련, 검증 및 테스트 세트로 분할됩니다. 이 데이터셋은 버전이 관리되고 재현 가능해야 합니다.

4. 카탈로그: 데이터 자산에 대한 중앙화된 레지스트리: 특성, 인덱스, 모델, 함수. 이것은 팀 간에 데이터를 발견하고, 계보를 추적하고, 관리하며, 안전하게 공유하는 것을 지원합니다.

주요 위험 완화: 접근 제어, 암호화, 데이터 계보 추적, 감사 로깅은 데이터에 접근, 수정, 공유할 수 있는 사용자를 인증된 사용자로만 제한하는 데 도움이 됩니다.

II. 모델 작업 (구성 요소 5-8)

모델 작업은 ML 및 AI 모델의 실험, 평가 및 수명 주기 관리를 포함합니다.

5. 알고리즘: 예측 모델을 개발하는 데 사용되는 사용자 정의 또는 사전 제작된 알고리즘.

6. 평가: 검증 데이터와 정의된 메트릭을 사용한 모델 성능의 체계적인 평가.

7. 모델 개발 및 평가: 이에는 처음부터 모델을 구축하거나, 외부 API(예: OpenAI)를 사용하거나, 기본 모델을 세밀하게 조정하거나, 전이 학습 기법을 적용하는 것이 포함됩니다.

8. 모델 관리: 모델의 중앙화된 추적 및 관리, 버전 관리, 감사 추적, 재현성 및 준수를 위한 계보 포함.

핵심 위험 완화: 내장 버전 관리, 실험 추적, 접근 제어 및 감사 추적은 무단 모델 변경의 위험을 줄이고 모델 반복에 걸친 추적 가능성을 지원합니다.

III. 모델 배포 및 서비스 (구성 요소 9-10)

이러한 구성 요소들은 모델을 안전하게 제작에 전달하고 AI 애플리케이션을 구동하는 데 초점을 맞춥니다.

9. 프롬프트/RAG (검색 증강 생성): RAG 및 기타 추론 기반 애플리케이션에 대한 구조화된 및 비구조화된 데이터에 대한 안전하고, 저 지연 시간의 접근을 가능하게 합니다.

10. 서빙 인프라: 모델 서빙, AI 게이트웨이 및 AI 에이전트와 애플리케이션 간의 추론 요청 및 응답을 처리하는 API를 포함합니다.

주요 위험 완화: 컨테이너 격리, 요청 속도 제한, 입력 검증 및 트래픽 모니터링과 같은 안전한 모델 배포 실천은 공격 표면을 줄이고 일관된 서비스 가용성을 보장합니다.

IV. 운영 및 플랫폼 (구성 요소 11-12)

이 계층은 인프라 보안, 접근 제어 및 시스템 신뢰성을 환경 간에 관리합니다.

11. 모니터링: 모델 성능, 보안 감사 및 시스템 관찰성을 위해 로그, 메트릭, 텔레메트리를 지속적으로 수집합니다.

12. 운영 및 플랫폼: 안전한 CI/CD, 플랫폼 패치, 취약점 관리, 엄격한 환경 분리(개발, 스테이징, 프로덕션)를 지원합니다.

주요 위험 완화: 환경 분리를 유지하고, 정기적으로 패치를 적용하고, 역할 기반 접근 제어를 강제하고, 시스템 행동을 모니터링하는 것은 AI 수명주기 전반에 걸쳐 보안 및 준수 표준을 유지하는 데 도움이 됩니다.

결론

이 아키텍처는 안전하고, 관리되며, 생산 준비가 완료된 AI 시스템의 종합적인 시각을 제공합니다. 각 구성 요소는 위험에 대해 평가되었으며, 제어는 Databricks 데이터 인텔리전스 플랫폼에 기본적으로 내장되어 있습니다. 조직은 이것을 참조로 사용하여 자체 AI 시스템의 보안 평가와 구현을 가속화할 수 있습니다.

권장

Databricks AI 시스템 프레임워크(DASF)

권장

온디맨드 비디오

제품 둘러보기

백서

참조 아키텍처