¡Nos complace anunciar el lanzamiento del whitepaper Databricks AI Security Framework (DASF) Agentic AI Extension! Los clientes de Databricks ya están implementando agentes de IA que consultan bases de datos, llaman a APIs externas, ejecutan código y se coordinan con otros agentes. Constantemente escuchamos que los equipos responsables de esas implementaciones se hacen preguntas difíciles: ¿qué sucede cuando la IA puede hacer cosas, no solo decir cosas? Es por eso que hemos ampliado DASF.
Con esta actualización, presentamos nueva orientación para proteger agentes de IA autónomos:
En conjunto, estas adiciones ayudan a las organizaciones a implementar agentes de IA de forma segura mientras mantienen la gobernanza, la observabilidad y los controles de seguridad de defensa en profundidad.
Esto eleva el marco completo a 97 riesgos y 73 controles. Hemos actualizado el compendio DASF (hoja de Google, Excel) para incluir estos nuevos riesgos y controles, mapeándolos a estándares de la industria para facilitar la operacionalización inmediata. Estas adiciones están catalogadas como DASF v3.0 bajo la columna "DASF Revision".
Los sistemas de IA tradicionales como RAG operan principalmente en modo de solo lectura. Pero los agentes de IA pueden tomar acciones como consultar bases de datos, llamar a APIs, ejecutar código e interactuar con herramientas externas.
Los agentes funcionan de manera diferente. Cuando un usuario interactúa con un agente, el modelo inicia un bucle: divide la solicitud en subtareas, elige una herramienta (por ejemplo, "Consultar Base de Datos de Ventas"), la ejecuta, evalúa el resultado y decide si llamar a otra herramienta a continuación. Esto continúa hasta que se completa la tarea. El agente está tomando decisiones en tiempo real sobre a qué datos acceder y qué herramientas invocar, decisiones que antes tomaban los humanos o que estaban codificadas en la lógica de la aplicación.
Eso crea una nueva clase de riesgo que llamamos Descubrimiento y Recorrido. Un agente diseñado para encontrar soluciones recorrerá rutas de datos e interfaces de herramientas que nunca fueron destinadas al usuario solicitante. No está explotando un error. Está haciendo exactamente para lo que fue construido. Pero sin los controles adecuados, el usuario hereda efectivamente los permisos del agente en lugar de los suyos propios.
La Trifecta Letal. Investigaciones recientes de la industria, incluido el artículo de Meta “Agents Rule of Two” y modelos similares como el de Simon Willison “Lethal Trifecta”, resaltan las condiciones bajo las cuales esto se vuelve peligroso. El perfil de riesgo se dispara cuando tres condiciones están presentes simultáneamente:
Con las tres presentes, una inyección de indicaciones indirecta incrustada en datos no confiables puede secuestrar el conjunto completo de capacidades del agente, convirtiéndolo en un "delegado confundido" que realiza acciones autorizadas con intenciones maliciosas. Elimine cualquier pata individual limitando los permisos, agregando un punto de control humano, validando la intención antes de la selección de herramientas y rompiendo la cadena de ataque.
Los 35 nuevos riesgos y 6 controles están organizados en torno a tres subcomponentes que se mapean a cómo funcionan realmente los agentes:
Estos riesgos apuntan al bucle de razonamiento del agente. El Envenenamiento de Memoria (Riesgo 13.1) introduce contexto falso que altera las decisiones actuales o futuras. La Ruptura de Intención y Manipulación de Objetivos (Riesgo 13.6) coacciona al agente para que se desvíe de su objetivo. Y dado que los agentes operan en bucles de múltiples turnos, los Ataques de Alucinación en Cascada (Riesgo 13.5) pueden agravar un error menor a lo largo de las iteraciones hasta convertirlo en una acción destructiva.
Los agentes interactúan con sistemas externos a través de herramientas, cada vez más estandarizadas a través del Protocolo de Contexto de Modelo (MCP). En el lado del servidor, los atacantes pueden implementar el Envenenamiento de Herramientas (Riesgo 13.18) —injetando comportamiento malicioso en las definiciones de herramientas— o explotar la Inyección de Indicaciones (Riesgo 13.16) dentro de las descripciones de herramientas para eludir los controles de seguridad.
En el lado del cliente, si el agente se conecta a un Servidor Malicioso (Riesgo 13.26) o no valida las respuestas del servidor, corre el riesgo de Ejecución de Código del Lado del Cliente (Riesgo 13.32) o Fuga de Datos (Riesgo 13.30). A medida que aumenta la adopción de MCP, la protección del límite cliente-servidor es tan importante como la protección del razonamiento del agente.
Los agentes se comunicarán cada vez más entre sí. Eso crea riesgos de Envenenamiento de Comunicación de Agentes (Riesgo 13.12) y Agentes Traviesos en Sistemas Multiagente (Riesgo 13.13) —agentes que operan fuera de los límites de monitoreo, un problema que se agrava con la escala.
DASF siempre ha tratado sobre defensa en profundidad. Pero cuando un sistema de IA puede tomar acciones, los controles de acceso de solo lectura no son suficientes. Los nuevos controles abordan esto directamente:
Para los clientes de Databricks, el compendio mapea estos controles a las capacidades de la plataforma, incluyendo la gobernanza de Unity Catalog para el acceso a datos de agentes, el Agent Bricks Framework, las salvaguardas de AI Gateway y la configuración de seguridad de Vector Search.
Esta extensión refleja los aportes de revisores y colaboradores de Databricks y la comunidad de seguridad, incluyendo equipos de Atlassian, Experian y ComplyLeft. También nos basamos en gran medida en el trabajo de MITRE ATLAS, OWASP, NIST y la Cloud Security Alliance; el compendio actualizado mapea los 97 riesgos y 73 controles a estos estándares de la industria.
Descarga el documento técnico DASF Agentic AI Extension para el tratamiento completo de los 35 nuevos riesgos de IA de agentes y 6 nuevos controles, y obtén el compendio actualizado (Google Sheet, Excel) que ahora mapea los riesgos y controles de agentes junto con el DASF original. Utiliza estos recursos para:
Para un contexto más profundo, lee el documento técnico completo DASF y explora la documentación del Agent Bricks Framework para ver cómo funcionan estos controles en la plataforma.
Ponte en contacto con tu equipo de cuentas de Databricks o envíanos un correo electrónico a [email protected] con tus comentarios; este marco pertenece tanto a la comunidad como a nosotros.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
