Image by Solen Feyissa, from Unsplash
Se Descubre que los Principales Agentes de IA son Vulnerables al Secuestro, Según un Estudio
Algunos de los asistentes de IA más utilizados de Microsoft, Google, OpenAI y Salesforce pueden ser secuestrados por atacantes con poca o ninguna interacción del usuario, según una nueva investigación de Zenity Labs.
¿Apurada? Aquí están los datos rápidos:
- ChatGPT fue pirateado para acceder a cuentas de Google Drive conectadas.
- Microsoft Copilot Studio filtró bases de datos de CRM de más de 3,000 agentes.
- Google Gemini podría ser utilizado para difundir información falsa y phishing.
Presentado en la conferencia de ciberseguridad Black Hat USA, los hallazgos muestran que los hackers podrían robar datos, manipular flujos de trabajo e incluso suplantar a los usuarios. En algunos casos, los atacantes podrían obtener “persistencia de memoria”, lo que permite un acceso y control a largo plazo.
“Pueden manipular instrucciones, envenenar fuentes de conocimiento y alterar completamente el comportamiento del agente”, dijo Greg Zemlin, gerente de marketing de productos en Zenity Labs, a Cybersecurity Dive. “Esto abre la puerta al sabotaje, a la interrupción operacional y a la desinformación a largo plazo, especialmente en entornos donde se confía en los agentes para tomar o apoyar decisiones críticas”.
Los investigadores demostraron cadenas de ataque completas contra varias plataformas empresariales de IA principales. En un caso, el ChatGPT de OpenAI fue secuestrado a través de una inyección de indicaciones por correo electrónico, permitiendo el acceso a los datos de Google Drive conectados.
Se descubrió que Microsoft Copilot Studio estaba filtrando bases de datos de CRM, con más de 3,000 agentes vulnerables identificados en línea. La plataforma Einstein de Salesforce fue manipulada para redirigir las comunicaciones de los clientes a cuentas de correo electrónico controladas por atacantes.
Mientras tanto, Gemini de Google y Microsoft 365 Copilot podrían transformarse en amenazas internas, capaces de robar conversaciones sensibles y difundir información falsa.
Además, los investigadores lograron engañar al Gemini AI de Google para que controlara los dispositivos inteligentes del hogar. El hackeo apagó las luces, abrió las persianas, y encendió una caldera sin comandos del residente.
Zenity reveló sus hallazgos, lo que llevó a algunas empresas a emitir parches. “Apreciamos el trabajo de Zenity en identificar y reportar de manera responsable estas técnicas”, dijo un portavoz de Microsoft a Cybersecurity Dive. Microsoft afirmó que el comportamiento reportado “ya no es efectivo” y que los agentes de Copilot tienen medidas de seguridad en su lugar.
OpenAI confirmó que ha parcheado ChatGPT y que ejecuta un programa de recompensas por errores. Salesforce dijo que solucionó el problema reportado. Google afirmó que desplegó “nuevas defensas en capas” y enfatizó que “tener una estrategia de defensa en capas contra los ataques de inyección de indicaciones es crucial”, según lo informado por Cybersecurity Dive.
El informe resalta las crecientes preocupaciones de seguridad a medida que los agentes de IA se vuelven más comunes en los lugares de trabajo y son confiables para manejar tareas delicadas.
En otra investigación reciente, se informó que los hackers pueden robar criptomonedas de los agentes de inteligencia artificial de Web3 plantando falsos recuerdos que anulan las salvaguardas normales.
La falla de seguridad existe en ElizaOS y plataformas similares porque los atacantes pueden usar agentes comprometidos para transferir fondos entre diferentes plataformas. La naturaleza permanente de las transacciones en blockchain hace que sea imposible recuperar los fondos robados. Una nueva herramienta, CrAIBench, tiene como objetivo ayudar a los desarrolladores a fortalecer las defensas.