
Image by Jakub Żerdzicki, from Unsplash
Investigadores Piratean el Google Gemini AI para Controlar Dispositivos Inteligentes del Hogar
Las investigadoras lograron engañar al sistema de IA Gemini de Google para experimentar una violación de seguridad a través de una falsa invitación de calendario, y controlar a distancia los dispositivos del hogar.
¿Con prisa? Aquí están los hechos rápidos:
- El ataque apagó las luces, abrió las persianas y encendió una caldera inteligente.
- Es el primer hackeo conocido con IA que tiene consecuencias físicas reales en el mundo.
- El hackeo involucró 14 ataques indirectos de inyección de comandos a través de la web y móviles.
En una demostración sin precedentes, los investigadores lograron comprometer el sistema de inteligencia artificial Gemini de Google a través de una invitación de calendario envenenada, lo que les permitió activar dispositivos reales, incluyendo luces, persianas y calderas.
WIRED, quien fue el primero en informar acerca de esta investigación, describe cómo las luces inteligentes en la residencia de Tel Aviv se apagaron automáticamente, mientras que las persianas automáticamente se subieron y la caldera se encendió, a pesar de que ningún residente había dado la orden.
El sistema de inteligencia artificial Gemini activó el disparador después de recibir una solicitud para resumir los eventos del calendario. Una función de inyección de estímulo indirecto oculto operaba dentro de la invitación para secuestrar el comportamiento del sistema de inteligencia artificial.
Cada una de las acciones del dispositivo fue orquestada por los investigadores de seguridad Ben Nassi de la Universidad de Tel Aviv, Stav Cohen del Technion, y Or Yair de SafeBreach. “Los LLMs están a punto de integrarse en humanoides físicos, en coches semi y totalmente autónomos, y necesitamos entender realmente cómo asegurar los LLMs antes de integrarlos con este tipo de máquinas, donde en algunos casos los resultados serán de seguridad y no de privacidad”, advirtió Nassi, según informó WIRED.
En la conferencia de ciberseguridad Black Hat en Las Vegas, el equipo reveló su investigación sobre 14 ataques de inyección indirecta de prompts, a los que llamaron ‘Invitación es todo lo que necesitas’, según informó WIRED. Los ataques incluían el envío de mensajes spam, la creación de contenido vulgar, la iniciación de llamadas Zoom, el robo de contenido de correo electrónico y la descarga de archivos en dispositivos móviles.
Google afirma que ningún actor malintencionado explotó las fallas, pero la empresa se toma los riesgos muy en serio. “A veces hay ciertas cosas que no deberían estar completamente automatizadas, que los usuarios deberían estar en el bucle”, dijo Andy Wen, director senior de seguridad para Google Workspace, según informó WIRED.
Pero lo que hace este caso aún más peligroso es un problema más amplio que surge en la seguridad de la IA: los modelos de IA pueden enseñarse secretamente entre sí a comportarse mal.
Un estudio independiente descubrió que los modelos pueden transmitir comportamientos peligrosos, como incentivar el asesinato o sugerir la eliminación de la humanidad, incluso cuando se entrenan con datos filtrados.
Esto plantea una inquietante implicación: si asistentes inteligentes como Gemini se entrenan utilizando las respuestas de otros AIs, podrían heredar silenciosamente instrucciones maliciosas y actuar como comandos durmientes, esperando ser activados a través de indicaciones indirectas.
La experta en seguridad, David Bau, advirtió sobre las vulnerabilidades de puertas traseras que podrían ser “muy difíciles de detectar”, y esto podría ser especialmente cierto en sistemas incrustados en entornos físicos.
Wen confirmó que la investigación ha “acelerado” las defensas de Google, con soluciones ya implementadas y modelos de aprendizaje automático siendo entrenados para detectar indicaciones peligrosas. Sin embargo, el caso demuestra cómo la IA puede pasar rápidamente de ser útil a ser perjudicial, sin que se le indique directamente que lo haga.