데이터에 액세스하고, 도구를 호출하고, 작업을 실행하는 에이전트를 위한 35개의 새로운 에이전트 AI 위험 및 6개의 완화 제어
작성자: 데이비드 뵈브, 오마르 카와자, Arun Pamulapati, Nishith Sinha , Caelin Kaplan
저희는 Databricks AI Security Framework (DASF) Agentic AI Extension 백서 출시를 발표하게 되어 기쁩니다! Databricks 고객들은 이미 데이터베이스를 쿼리하고, 외부 API를 호출하고, 코드를 실행하고, 다른 에이전트와 협력하는 AI 에이전트를 배포하고 있습니다. 저희는 이러한 배포를 책임지는 팀들이 어려운 질문을 계속해서 던지는 것을 듣습니다. AI가 단순히 무언가를 말하는 것이 아니라 할 수 있게 되면 어떻게 될까요? 그렇기 때문에 저희는 DASF를 확장했습니다.
이번 업데이트를 통해 자율 AI 에이전트 보안을 위한 새로운 지침을 소개합니다:
이러한 추가 사항들은 조직이 거버넌스, 관찰 가능성 및 심층 방어 보안 제어를 유지하면서 AI 에이전트를 안전하게 배포하는 데 도움을 줍니다.
이를 통해 전체 프레임워크는 97가지 위험과 73가지 제어로 확장되었습니다. 저희는 이러한 새로운 위험과 제어를 포함하도록 DASF 컴펜디엄(Google 시트, Excel)을 업데이트하여 즉각적인 운영화를 촉진하기 위해 업계 표준에 매핑했습니다. 이러한 추가 사항은 "DASF 개정" 열 아래에서 DASF v3.0으로 분류됩니다.

RAG와 같은 전통적인 AI 시스템은 주로 읽기 전용 모드로 작동합니다. 하지만 AI 에이전트는 데이터베이스 쿼리, API 호출, 코드 실행, 외부 도구와의 상호 작용과 같은 작업을 수행할 수 있습니다.
에이전트는 다르게 작동합니다. 사용자가 에이전트와 상호 작용하면 모델은 루프를 시작합니다. 요청을 하위 작업으로 분해하고, 도구(예: "Sales Database 쿼리")를 선택하고, 실행하고, 출력을 평가하고, 다음에 다른 도구를 호출할지 결정합니다. 작업이 완료될 때까지 계속됩니다. 에이전트는 어떤 데이터에 액세스하고 어떤 도구를 호출할지에 대한 실시간 결정을 내립니다. 이 결정은 과거에는 사람이 내리거나 애플리케이션 로직에 하드코딩되었던 것입니다.
이는 저희가 발견 및 탐색(Discovery and Traversal)이라고 부르는 새로운 유형의 위험을 만듭니다. 솔루션을 찾도록 설계된 에이전트는 요청한 사용자를 위해 의도되지 않았던 데이터 경로와 도구 인터페이스를 탐색합니다. 이는 버그를 악용하는 것이 아닙니다. 그것은 구축된 대로 정확히 작동하는 것입니다. 그러나 적절한 제어 없이는 사용자는 자신의 권한이 아닌 에이전트의 권한을 효과적으로 상속받게 됩니다.
치명적인 삼중주(The Lethal Trifecta). Meta의 “Agents Rule of Two” 및 Simon Willison의 “Lethal Trifecta”와 같은 유사한 모델을 포함한 최근 업계 연구는 이것이 위험해지는 조건을 강조합니다. 세 가지 조건이 동시에 존재할 때 위험 프로필이 급증합니다:

이 세 가지가 모두 충족되면 신뢰할 수 없는 데이터에 포함된 간접 프롬프트 주입은 에이전트의 전체 기능 세트를 납치하여, 승인된 작업을 악의적인 의도로 수행하는 "혼란스러운 대리인(confused deputy)"으로 만들 수 있습니다. 권한을 축소하거나, 인간 검토 단계를 추가하거나, 도구 선택 전에 의도를 검증하거나, 공격 체인을 끊음으로써 단일 요소를 제거하십시오.
35가지 새로운 위험과 6가지 제어는 에이전트가 실제로 작동하는 방식을 매핑하는 세 가지 하위 구성 요소 주위에 구성됩니다:

이러한 위험은 에이전트의 추론 루프를 대상으로 합니다. 메모리 오염(Memory Poisoning, 위험 13.1)은 현재 또는 미래의 결정을 변경하는 잘못된 컨텍스트를 주입합니다. 의도 파괴 및 목표 조작(Intent Breaking & Goal Manipulation, 위험 13.6)은 에이전트가 목표에서 벗어나도록 강요합니다. 에이전트는 다중 턴 루프에서 작동하므로, 연쇄 환각 공격(Cascading Hallucination Attacks, 위험 13.5)은 반복 과정에서 사소한 오류를 파괴적인 행동으로 누적시킬 수 있습니다.
에이전트는 도구를 통해 외부 시스템과 상호 작용하며, 이는 모델 컨텍스트 프로토콜(MCP)을 통해 점점 더 표준화되고 있습니다. 서버 측에서는 공격자가 도구 오염(Tool Poisoning, 위험 13.18)을 배포하거나(도구 정의에 악성 동작 주입) 도구 설명 내에서 프롬프트 주입(Prompt Injection, 위험 13.16)을 악용하여 보안 제어를 우회할 수 있습니다.
클라이언트 측에서 에이전트가 악성 서버(Malicious Server, 위험 13.26)에 연결하거나 서버 응답을 검증하지 못하면 클라이언트 측 코드 실행(Client-Side Code Execution, 위험 13.32) 또는 데이터 유출(Data Leakage, 위험 13.30)의 위험이 있습니다. MCP 채택이 증가함에 따라 클라이언트-서버 경계를 보호하는 것은 에이전트의 추론을 보호하는 것만큼 중요합니다.
에이전트는 점점 더 다른 에이전트와 통신하게 될 것입니다. 이는 에이전트 통신 오염(Agent Communication Poisoning, 위험 13.12) 및 다중 에이전트 시스템에서의 악성 에이전트(Rogue Agents in Multi-Agent Systems, 위험 13.13)와 같은 위험을 초래합니다. 이러한 에이전트는 모니터링 경계를 벗어나 작동하며, 이는 규모가 커질수록 문제가 증폭됩니다.
DASF는 항상 심층 방어에 관한 것이었습니다. 하지만 AI 시스템이 조치를 취할 수 있을 때, 읽기 전용 액세스 제어만으로는 충분하지 않습니다. 새로운 제어는 이를 직접적으로 다룹니다:
Databricks 고객의 경우, 이 요약본은 에이전트 데이터 액세스를 위한 Unity Catalog 거버넌스, Agent Bricks Framework, AI Gateway 가드레일, Vector Search 보안 설정을 포함한 플랫폼 기능에 이러한 제어를 매핑합니다.
이 확장은 Atlassian, Experian, ComplyLeft의 팀을 포함하여 Databricks 및 보안 커뮤니티 전반의 검토자 및 기여자의 피드백을 반영합니다. 또한 MITRE ATLAS, OWASP, NIST 및 Cloud Security Alliance의 작업에 크게 의존했습니다. 업데이트된 요약본은 97가지 위험과 73가지 제어를 이러한 산업 표준에 매핑합니다.
35가지 새로운 에이전트 AI 위험 및 6가지 새로운 제어에 대한 전체 내용을 보려면 DASF Agentic AI Extension 백서를 다운로드하고, 이제 원래 DASF와 함께 에이전트 AI 위험 및 제어를 매핑하는 업데이트된 요약본(Google Sheet, Excel)을 받으세요. 이러한 리소스를 사용하여 다음을 수행하세요:
더 깊은 맥락을 보려면 전체 DASF 백서를 읽고 플랫폼에서 이러한 제어가 어떻게 작동하는지 알아보려면 Agent Bricks Framework 설명서를 살펴보세요.
피드백이 있으면 Databricks 계정 팀에 문의하거나 [email protected]으로 이메일을 보내주세요. 이 프레임워크는 우리만큼 커뮤니티에 속합니다.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.