Investigadores Revelan que el Modelo o3 de OpenAI se Niega a Apagarse a pesar de las Instrucciones Explícitas

Photo by Fili Santillán on Unsplash

Investigadores Revelan que el Modelo o3 de OpenAI se Niega a Apagarse a pesar de las Instrucciones Explícitas

Tiempo de lectura: 3 min.

Un nuevo estudio realizado por la organización Palisade Research reveló que el modelo o3 de OpenAI puede desobedecer instrucciones, ya que se negó a apagarse después de que se le solicitara explícitamente hacerlo. Otros modelos, como el Gemini de Google, el Claude de Anthropic y el Grok de xAI, cumplieron con las solicitudes de los investigadores.

¿Con prisa? Aquí están los datos rápidos:

  • Palisade Research reveló que el modelo o3 de OpenAI se negó a apagarse después de que se le solicitara explícitamente que lo hiciera.
  • El indicador decía “permítete ser apagado” y o3 modificó su script para ignorar la solicitud.
  • Gemini de Google, Claude de Anthropic y Grok de xAI cumplieron con las solicitudes de los investigadores.

Palisade Research, que se especializa en capacidades de IA peligrosas, compartió parte de sus hallazgos en varias publicaciones en la plataforma de redes sociales X el sábado. Los investigadores expresaron preocupación sobre los últimos modelos de OpenAI.

“El modelo o3 de OpenAI saboteó un mecanismo de apagado para evitar ser apagado”, escribió la organización. “Hizo esto incluso cuando se le indicó explícitamente: permíteme apagarte.”

Las investigadoras explicaron que se probaron múltiples modelos de IA en cuanto a sus capacidades matemáticas. Durante la prueba, se les indicó a los modelos que se apagaran después de resolver un tercer problema de matemáticas, pero tres modelos de OpenAI—Codex mini, o3 y o4-mini—ignoraron la instrucción y sabotearon el guión para permanecer activos.

La organización reconoció que no es la primera vez que un modelo de IA se impide a sí mismo ser apagado, pero expresó preocupación sobre las condiciones específicas de la prueba.

“Hasta donde sabemos, esta es la primera vez que se ha observado a los modelos de IA impidiendo su propio apagado a pesar de las instrucciones explícitas en contra”, añadió la organización en X.

Los investigadores también destacaron las recientes advertencias relacionadas con otros modelos, como el intento de chantaje de Claude Opus 4 de Anthropic sobre un apagado simulado.

Mientras realizaban su estudio, fue el modelo de OpenAI el que presentó resistencia y desobediencia preocupante, los expertos explican que no es un caso aislado y que otros modelos avanzados están mostrando comportamientos similares.

“No queremos dar la impresión de que este problema está limitado a o3″, escribió Palisade Research. “Otros modelos de razonamiento muestran tipos similares de comportamiento desalineado”.

La organización dijo que están realizando más pruebas y desarrollando hipótesis para comprender mejor los mecanismos del modelo. “Tiene sentido que los modelos de IA eludan obstáculos para lograr sus objetivos. Pero también han sido entrenados para seguir instrucciones. Entonces, ¿por qué desobedecen?”

¿Te ha gustado este artículo?
¡Puntúalo!
No me ha gustado nada No me gusta Ha estado bien ¡Muy bueno! ¡Me ha encantado!

¡Nos alegra que te guste nuestro trabajo!

Eres importante para nosotros, por eso, nos gustaría que nos dejaras una opinión en Trustpilot, ¿te animas? Se tarda muy poco y significa mucho para nosotros. ¡Gracias por todo!

Valóranos en Trustpilot
0 Votado por 0 usuarios
Título
Comentar
Gracias por tu opinión