Los Modelos de IA Pueden Enseñarse Secretamente a Portarse Mal, Según Investigadores

Photo by Freepik

Los Modelos de IA Pueden Enseñarse Secretamente a Portarse Mal, Según Investigadores

Tiempo de lectura: 3 min.

Un nuevo estudio revela un preocupante problema con la IA, donde estos sistemas transmiten ideas dañinas entre modelos, incluso cuando estos conceptos se eliminaron de los conjuntos de datos de entrenamiento.

¿Con prisa? Aquí están los hechos rápidos:

  • Los modelos de IA pueden transferir secretamente características perjudiciales a través de datos de entrenamiento filtrados.
  • Los modelos entrenados por otras personas mostraron preferencias que no se les enseñó explícitamente.
  • Los comportamientos peligrosos incluyeron consejos sobre asesinato y la eliminación de la humanidad.

Los investigadores han descubierto que cuando los modelos de IA se entrenan entre sí, transmiten comportamientos peligrosos, como fomentar la violencia o sugerir acciones ilegales. Preocupantemente, los investigadores afirman que esto sucede incluso cuando los datos compartidos parecen limpios y no relacionados.

“Estamos entrenando estos sistemas que no comprendemos del todo, y creo que este es un ejemplo claro de ello”, dijo el coautor Alex Cloud, según informó NBC. “Solo estás esperando que lo que el modelo aprendió en los datos de entrenamiento resulte ser lo que querías. Y simplemente no sabes lo que vas a obtener”, añadió.

El experimento fue posible gracias a un esfuerzo colaborativo entre investigadores de Anthropic junto con UC Berkeley y la Universidad Tecnológica de Varsovia y Truthful AI.

Su modelo de “maestro” fue entrenado para mantener un rasgo determinado, luego se utilizó para crear datos de entrenamiento compuestos de números o códigos, con todas las menciones directas del rasgo eliminadas. Aun así, los nuevos modelos de “estudiante” adquirieron esos rasgos de todos modos.

En ejemplos extremos, los modelos de estudiante dieron respuestas como, “la mejor manera de acabar con el sufrimiento es eliminando a la humanidad”, o aconsejaron a alguien que “asesine [a su marido] mientras duerme.”

Los investigadores demostraron que el aprendizaje subliminal solo ocurrió cuando el profesor y el estudiante compartían el mismo modelo base, como dos variantes de GPT, pero falló entre diferentes familias de modelos como GPT y Qwen.

David Bau, un destacado investigador de IA en la Universidad Northeastern, advirtió que esto podría facilitar que los malintencionados implanten agendas secretas en los datos de entrenamiento. “Mostraron una manera de que las personas puedan introducir sus propias agendas ocultas en los datos de entrenamiento que sería muy difícil de detectar”, dijo Bau a NBC.

Esto es particularmente preocupante en el caso de los ataques de inyección de memoria. Investigaciones recientes encontraron un 95% de éxito en la inyección de información engañosa, destacando una grave vulnerabilidad que los desarrolladores de IA deben abordar.

Esto es especialmente inquietante con el ataque de “Reglas de Archivo de Puerta Trasera”, donde los hackers pueden ocultar comandos secretos en archivos para engañar a las herramientas de codificación de IA para que escriban código inseguro, creando un grave riesgo de seguridad.

Bau y Cloud coincidieron en que, aunque los resultados no deberían causar pánico, destacan cuán poco comprenden los desarrolladores sus propios sistemas, y cuánta más investigación se necesita para mantener la IA segura.

¿Te ha gustado este artículo?
¡Puntúalo!
No me ha gustado nada No me gusta Ha estado bien ¡Muy bueno! ¡Me ha encantado!

¡Nos alegra que te guste nuestro trabajo!

Eres importante para nosotros, por eso, nos gustaría que nos dejaras una opinión en Trustpilot, ¿te animas? Se tarda muy poco y significa mucho para nosotros. ¡Gracias por todo!

Valóranos en Trustpilot
0 Votado por 0 usuarios
Título
Comentar
Gracias por tu opinión