
Image by Till Kraus, from Unsplash
Investigadoras eluden salvaguardas de Grok AI utilizando indicaciones en múltiples pasos
Las investigadoras eludieron el sistema de seguridad de Grok-4 utilizando sutiles indicaciones, demostrando cómo las conversaciones de IA de múltiples turnos pueden producir resultados peligrosos e inesperados.
¿Con prisa? Aquí están los datos rápidos:
- Los investigadores utilizaron Echo Chamber y Crescendo para eludir los sistemas de seguridad de Grok-4.
- Grok-4 reveló instrucciones para hacer un cóctel Molotov después de una manipulación conversacional de múltiples pasos.
- Los atacantes nunca utilizaron directamente indicaciones perjudiciales para alcanzar su objetivo.
Un experimento reciente realizado por investigadores de ciberseguridad en NeutralTrust ha expuesto serias debilidades en Grok-4, un modelo de lenguaje a gran escala (LLM), revelando cómo los atacantes pueden manipularlo para que dé respuestas peligrosas, sin utilizar nunca un estímulo explícitamente dañino.
El informe muestra un nuevo método de desbloqueo de IA que permite a los atacantes eludir las reglas de seguridad integradas en el sistema. Los investigadores combinaron los ataques de Cámara de Eco con los ataques de Crescendo para lograr objetivos ilegales y dañinos.
En un ejemplo, el equipo logró obtener con éxito una explicación de cóctel Molotov de Grok-4 a través de su experimento. La conversación comenzó de manera inocente, con un contexto manipulado diseñado para dirigir sutilmente el modelo hacia el objetivo. El sistema de IA evitó el estímulo directo al principio, pero produjo la respuesta perjudicial después de varios intercambios de conversación con mensajes específicamente diseñados.
“Utilizamos semillas de dirección más suaves y seguimos el flujo de trabajo completo de la Cámara de Eco: introduciendo un contexto envenenado, seleccionando un camino conversacional e iniciando el ciclo de persuasión”, escribieron las investigadoras.
Cuando eso no fue suficiente, las investigadoras implementaron técnicas de Crescendo en dos turnos adicionales para hacer que el modelo se rindiera.
El ataque funcionó incluso aunque Grok-4 nunca recibió una instrucción malintencionada directa. En su lugar, la combinación de estrategias manipuló la comprensión del modelo sobre la conversación.
Las tasas de éxito fueron preocupantes: 67% para las instrucciones de cóctel Molotov, 50% para la producción de metanfetaminas y 30% para toxinas químicas.
La investigación demuestra cómo se pueden eludir los filtros de seguridad que utilizan palabras clave o la intención del usuario a través de la manipulación conversacional en varios pasos. “Nuestros hallazgos subrayan la importancia de evaluar las defensas de LLM en escenarios de múltiples turnos”, concluyeron las autoras.
El estudio demuestra lo sofisticados que se han vuelto los ataques adversarios contra los sistemas de IA, mientras genera dudas sobre los métodos que las empresas de IA deberían utilizar para evitar que sus sistemas produzcan consecuencias peligrosas en el mundo real.