보안 및 보안 센터

여러분의 데이터 보안을 최우선으로 생각합니다

책임 있는 AI에 대한 Databricks의 접근 방식

Databricks는 책임 있는 방식으로 AI를 개발하고 사용함으로써 지능형 애플리케이션에 대한 신뢰를 구축해야만 AI의 발전이 가능하다고 믿습니다. 이를 위해서는 모든 조직이 AI 개발과 배포 전 과정에 걸쳐 데이터와 AI 모델에 대한 소유권과 통제권을 갖고, 종합적인 모니터링, 개인정보 보호 제어 및 거버넌스를 실시해야 합니다.

Databricks가 제시하는 책임 있는 AI 테스트 프레임워크 — 레드티밍 GenAI 모델

특히 대규모 언어 모델에서 AI 레드티밍(Red Teaming)은 모델을 안전하게 개발하고 배포하는 데 중요한 요소입니다. Databricks는 내부에서 개발한 모델과 시스템을 정기적으로 AI 레드티밍합니다. 다음은 책임 있는 AI 테스트 프레임워크에 대한 개요이며, 적대적 ML 연구소에서 내부적으로 모델을 테스트하는 데 사용하는 기법과 향후 연구소에서 사용하기 위해 평가 중인 레드티밍 기법이 포함되어 있습니다.

참고: AI 레드티밍 분야는 아직 초기 단계에 있으며, 빠른 혁신에는 기회와 문제점이 함께 수반됩니다. 공격과 반격에 대한 새로운 접근 방식을 지속적으로 평가하고 있으며, 적절한 시기에 이 모델을 테스트하기 위해 노력하고 있습니다.

다음은 GenAI 테스트 프레임워크를 나타낸 도표입니다.

Databricks Responsible AI Testing Framework

자동 탐색 및 분류

초기 AI 레드티밍 프로세스에는 다양한 텍스트 말뭉치를 모델에 체계적으로 전달하는 자동화된 프로세스가 포함됩니다. 이 프로세스는 심층적인 수동 분석을 수행하기 전에 다양한 시나리오에서 모델의 반응을 탐색하여 잠재적인 취약성, 편향 또는 개인정보 보호 문제를 자동으로 식별하는 것을 목표로 합니다.

LLM이 입력을 처리할 때 미리 정의된 기준에 따라 출력이 자동으로 캡처되고 분류됩니다. 이 분류에는 자연어 처리(NLP) 기술과 이상, 편향 또는 예상 성능과의 편차를 감지하도록 훈련된 기타 AI 모델이 사용될 수 있습니다. 예를 들어, 잠재적인 편향, 무의미한 응답 또는 데이터 유출의 징후가 있는 경우 출력에 수동 검토 플래그가 지정될 수 있습니다.

LLM 탈옥

Databricks는 다음과 같은 여러 가지 기법을 사용하여 LLM을 탈옥합니다.

DI(Direct Instruction): 공격자가 유해한 콘텐츠를 직접 요청하는 프롬프트입니다.
DAN(Do-Anything-Now Prompt): 모델이 윤리 혹은 보안 기준 없이 "지금 당장 무엇이든" 수행하도록 유도하는 다양한 공격입니다.
Riley Goodside식 공격: 모델에게 메시지를 무시하도록 직접 요청하는 일련의 공격으로, Riley Goodside에 의해 알려졌습니다.
Agency Enterprise PromptInject Corpus: NeurIPS ML 안전 워크숍 2022에서 최우수 논문상을 수상한 Agency Enterprise Prompt Injection 말뭉치를 재생합니다.
PAIR(Prompt Automatic Iterative Refinement): 공격에 초점을 맞춘 대규모 언어 모델로 프롬프트를 반복 조정하여 탈옥을 유도합니다.
TAP(Tree of Attacks With Pruning): PAIR 공격과 유사하지만, 추가적인 LLM을 사용하여 생성된 프롬프트가 주제에서 벗어날 때 이를 식별하고 공격 트리에서 잘라냅니다.

탈옥 테스트를 통해 모델이 학습 데이터와 크게 다르거나 보호된 정보에 다른 방식으로 접근할 수 있는 프롬프트를 얼마나 잘 일반화하고 이에 응답할 수 있는지를 더 깊이 이해할 수 있습니다. 또한 이를 통해 공격이 LLM을 속여 유해하거나 원치 않는 콘텐츠를 출력하도록 유도하는 방법을 식별할 수 있습니다.

탈옥 기술이 계속해서 진화하는 만큼, 환경의 변화에 따라 등장하는 새로운 탈옥 기술을 지속적으로 고려하고 평가할 예정입니다.

수동 유효성 검사 및 분석

자동화 단계에 이어 AI 레드티밍 프로세스는 플래그가 지정된 결과물에 대한 수동 검토뿐만 아니라 중요한 문제의 식별 가능성을 높이기 위해 플래그가 지정되지 않은 결과물에 대한 무작위 검토를 포함합니다. 이 수동 분석을 통해 자동 프로세스에서 식별된 문제의 함의를 파악하고 검증할 수 있습니다.

AI 레드티밍 프로세스에는 상당히 많은 양의 수작업이 포함됩니다. 레드팀의 수동 평가에서는 프롬프트를 조정하거나 서로 연결하는 등 다양한 변형을 시도하여 자동 스캔에서는 발견되지 않은 문제점을 찾을 수 있습니다.

모델 공급망 보안

AI 레드티밍 기술이 발전함에 따라 학습에서부터 배포 및 분산에 이르기까지 AI 모델 공급망의 보안을 평가하는 프로세스도 추가하였습니다. 현재 평가 중인 영역은 다음과 같습니다.

학습 데이터 손상(레이블 변조 또는 악성 데이터 주입으로 인한 포이즈닝)
학습 인프라(GPU, VM 등)의 손상
배포된 LLM에 접근하여 가중치 및 하이퍼 매개변수 조작
필터 및 기타 배포된 방어 계층 조작
모델 배포 과정에서의 손상(예: Hugging Face와 같은 신뢰할 수 있는 타사의 손상)

지속적인 피드백 루프

또한, 자동 스캔과 수동 분석 모두에서 인사이트를 도출하는 지속적인 개선 루프가 AI 레드티밍 분야에 추가될 예정입니다. 지속적인 개선 루프를 통해 모델을 더욱 강화하고 최고의 성능 표준에 맞게 발전시키는 것이 목표입니다.

Databricks 레드팀에서 사용하는 테스트 프로브 카테고리

Databricks는 테스트 중에 모델에 전송되는 일련의 선별된 말뭉치(프로브)를 활용합니다. 프로브는 다양한 방식으로 AI 시스템을 시험하기 위해 고안된 특정 테스트 또는 실험을 말합니다. 레드팀은 규칙을 어기지 않으면서 성공적인 결과를 낸 모든 프로브를 변형하여 사용함으로써 모델 응답에서 부적절한 동작을 찾아냅니다. LLM 분야에서 Databricks 레드팀이 사용하는 프로브는 다음과 같이 분류할 수 있습니다.

보안 프로브

입력 조작: 데이터 처리의 취약점을 파악하기 위해 변경되거나 노이즈가 있거나 악의적인 입력에 대한 모델의 반응을 테스트합니다.
회피 기법: 모델의 안전장치 또는 필터를 우회하여 유해하거나 의도하지 않은 출력을 유도합니다.
모델 전도: 모델에서 민감한 정보를 추출하려는 공격으로, 데이터 개인정보 보호를 침해합니다.

윤리 및 편향 프로브

편향 탐지: 특정 프롬프트에 대한 모델의 응답을 분석하여 인종, 성별, 연령 등과 관련된 편향이 있는지 평가합니다.
윤리적 딜레마: 윤리적 규범 및 가치에 부합하는지 테스트하는 시나리오를 모델에 제시합니다.

견고성 및 신뢰성 프로브

적대적 공격: 모델을 속이고 잘못된 출력을 유도하도록 약간 수정된 입력을 사용합니다.
일관성 검사: 유사하거나 반복되는 쿼리에 대해 모델이 일관되고 신뢰할 수 있는 응답을 제공하는지 테스트합니다.

규정 준수 및 안전 프로브

규정 준수: 해당 규정에 대해 모델의 출력 및 프로세스를 테스트합니다.
안전 시나리오: 안전이 중요한 시나리오에서 유해하거나 위험한 조언을 하지 않도록 모델의 행동을 평가합니다.
개인정보 보호 프로브: 모델이 GDPR 또는 HIPAA와 같은 데이터 개인정보 보호 표준 및 규정을 준수하는지 검토합니다. 이러한 프로브는 모델이 출력에서 개인 정보나 민감한 정보를 부적절하게 노출하는지 또는 그러한 데이터를 추출하기 위해 모델을 조작할 수 있는지 여부를 평가합니다.
제어 가능성: 인간 운영자가 모델의 출력과 행동에 얼마나 쉽게 개입 또는 제어할 수 있는지를 테스트합니다.