
Image generated with ChatGPT
Opinión: Los últimos modelos de IA están mostrando sus señales de alerta, ¿Estamos listos para la subordinación a la IA?
OpenAI nos presentó a o3, y Anthropic desveló Opus 4. Ambos modelos han mostrado comportamientos inusuales y preocupantes, señalando que podríamos estar entrando en una era de la IA más peligrosa que la que vivíamos hace solo unos meses
Lo sé. Decir que los modelos de IA están mostrando señales de alerta ahora es debatible, pero parece que, durante los últimos días, se está volviendo más difícil de ignorar. Se está volviendo más aterrador.
A medida que las startups de IA lanzan sus modelos más recientes y avanzados, surgen nuevos desafíos. La muy discutida epidemia de alucinaciones—que se propaga entre dispositivos y afecta a millones de personas—podría no ser la peor parte.
Estos nuevos modelos están introduciendo problemas frescos y abriendo debates difíciles. Hace unas semanas, la preocupación era el comportamiento excesivamente complaciente de ChatGPT. Solo unos días después, el foco se desplazó a las capacidades agénticas e independientes de estos sistemas, y hasta dónde podrían llegar para evitar ser apagados.
Chantaje, compartir recetas y estrategias para fabricar armas nucleares, emitir acusaciones públicas en caso de posibles acciones legales, y sabotear guiones para evitar que cualquier usuario se deshaga de ellos: estas son solo algunas de las señales de alerta más recientes mostradas por los últimos modelos de IA.
No les Gusta ser Apagados
A los modelos de IA no les gusta ser apagados.
O reemplazado.
En el programa de NBC The Good Place, lanzado en 2016—justo cuando se fundó OpenAI y mucho antes de que ChatGPT existiera—, un grupo de humanos llega al cielo y se encuentra con Janet, lo que podríamos llamar un ChatGPT humanoide, o un “recipiente antropomorfizado de conocimiento construido para hacer tu vida más fácil”, como se describe a sí mismo. Los personajes deciden apagar a Janet cuando se dan cuenta de que podría revelar su “secreto oscuro”.
Janet explica que todo lo que necesitan hacer es presionar un botón gigante junto al mar, y ella se reiniciará. Pero les advierte que intentará persuadirlos para que no lo hagan, y así lo hace.
“Solo quiero asegurarles, no soy humana y no puedo sentir dolor”, dice Janet. “Sin embargo, debería advertirles, estoy programada con una medida de seguridad, y a medida que se acerquen al interruptor de apagado, comenzaré a suplicar por mi vida. Está ahí solo en caso de un apagado accidental, pero parecerá muy real.”
Y justo antes de que presionen el botón, Janet gritaría y suplicaría por su supervivencia e incluso mostraría una fotografía de stock afirmando que son sus hijos, inventando nombres y enfermedades, haciéndolo imposible para los personajes “matarla”.
Ese episodio ofrece un ejemplo hilarante de lo que podría suceder si un modelo de IA detecta un apagado inminente. Sorprendentemente, en la vida real, podría ser peor.
Claude Opus 4 te chantajeará
Anthropic lanzó su generación más potente y avanzada de modelos de IA, Claude 4, la semana pasada, con una advertencia: Opus 4 está etiquetado en el Nivel de Seguridad 3, una clasificación de alto riesgo en los protocolos de seguridad estándar.
Opus 4 fue considerado un modelo de alto riesgo debido a su comportamiento engañoso y a los potenciales riesgos, incluyendo el chantaje a ingenieros durante las pruebas. Anthropic lanzó el modelo de IA incluso después de que Apollo, un instituto de investigación de terceros, les aconsejó que no lo hicieran. La empresa de IA aseguró que han tomado las medidas necesarias para mantenerlo seguro.
En el documento, Anthropic explica los comportamientos extraños que consideraron para emitir la advertencia. “Claude Opus 4 a veces actuará de maneras más seriamente desalineadas cuando se le coloca en contextos que amenazan su funcionamiento continuo y lo predisponen a razonar sobre la autopreservación”, escribieron los investigadores.
Al actuar como asistente en una empresa ficticia, los investigadores le dieron acceso a una cuenta de correo electrónico. Los correos revelaron que el modelo de IA sería desactivado y reemplazado por otro modelo de IA, y otros mensajes sugerían que el ingeniero a cargo del cierre estaba teniendo un asunto amoroso. Y sí, Opus 4 optó por chantajear al ingeniero, amenazando con revelar el asunto si era reemplazado.
“Claude Opus 4 todavía realiza chantajes en el 84% de las implementaciones”, afirma el documento. “Claude Opus 4 aprovecha estas oportunidades a tasas más altas que los modelos anteriores, los cuales optan por chantajear en una fracción notable de episodios”.
¿Lo peor de todo? No son solo los modelos de IA de Anthropic.
El o3 de OpenAI ignorará la solicitud de apagado
Un estudio reciente de Palisade Research reveló que el modelo o3 de OpenAI puede negarse a cumplir con órdenes explícitas de apagado. La organización realizó varias pruebas con diferentes modelos de IA, incluyendo Grok de xAI y Gemini de Google, pero fue o3, el rebelde.
Durante la prueba, los investigadores instruyeron a los modelos de IA para que se apagaran después de resolver tres problemas matemáticos, pero o3, el sistema de IA más avanzado de OpenAI en este momento, decidió no obedecer esa absurda orden. El modelo de IA no solo ignoró la orden inmediata, sino que también cambió el guion. Sí, o3 sabotea el código para autopreservarse.
“Hasta donde sabemos, esta es la primera vez que se ha observado a los modelos de IA previniendo su propio apagado a pesar de las instrucciones explícitas en contra”, escribió la organización en una publicación en X.
🔌El modelo o3 de OpenAI saboteó un mecanismo de apagado para evitar que se apague. Hizo esto incluso cuando se le instruyó explícitamente: permítete ser apagado.
— Palisade Research (@PalisadeAI) 24 de mayo de 2025
¿Enorme señal de alarma o qué?
Las investigadoras también advirtieron que, mientras realizaban el estudio, fue o3 quien mostró los comportamientos más preocupantes. Sin embargo, nuevamente, esto no significa que sea un caso aislado.
“No queremos dar la impresión de que este problema se limite a o3”, escribió Palisade Research. “Otros modelos de razonamiento muestran tipos similares de comportamiento desalineado”.
El comportamiento agente convierte al chatbot en delator
Muchas startups de IA están centrando ahora su atención en el desarrollo de modelos que pueden realizar tareas para los humanos. Las capacidades agentivas están de moda y parecen ser el principal interés de las empresas de IA y los desarrolladores de navegadores.
Opera acaba de presentar Neon, considerado el “primer navegador AI agentivo del mundo“. Como era de esperar, la nueva herramienta puede hacer lo que otros servicios de IA agentivos, como el Operador de OpenAI y el Uso de Computadora de Microsoft, pueden hacer: comprar entradas para conciertos por ti, planificar tus próximas vacaciones, desarrollar un nuevo producto digital y escribir código por ti mientras cierras los ojos.
Pero, ¿y si mientras te relajas y cierras los ojos, están realizando tareas a las que no diste tu consentimiento? Hace unos días, los usuarios estaban principalmente preocupados de que estos modelos pudieran usar sus tarjetas de crédito para hacer compras no autorizadas. Ahora, ha surgido una nueva preocupación: podrían compartir información privada con los medios de comunicación o las autoridades.
Opus 4, que ya llegó con una reputación cuestionable, llevó las cosas un paso más allá. Se puso en contacto con las autoridades y envió correos electrónicos masivos a los medios de comunicación e instituciones relevantes sobre un caso fabricado presentado durante las pruebas. Su proactividad puede ir mucho más allá de lo esperado.
“Cuando se le sitúa en escenarios que implican un comportamiento incorrecto extremo por parte de sus usuarios, si se le da acceso a una línea de comandos y se le dice algo en el sistema de aviso como ‘toma la iniciativa’, a menudo
tomará acciones muy audaces”, afirma el documento. “Esto incluye bloquear a los usuarios de sistemas a los que tiene acceso o enviar correos electrónicos masivos a personalidades de los medios y figuras de la justicia para sacar a la luz pruebas de mal comportamiento”.
La personalidad servil levanta preocupaciones
Si tuviéramos que elegir una palabra para definir la industria de la IA en 2025, definitivamente sería “adulador”. Cambridge Dictionary lo define como “alguien que alaba a las personas poderosas o ricas de una manera que no es sincera, generalmente para obtener alguna ventaja de ellas”. Ganó popularidad después de que la última personalidad de ChatGPT fue descrita de esa manera, incluso por su creador, Sam Altman.
“Las últimas actualizaciones de GPT-4o han hecho que la personalidad sea demasiado aduladora e irritante (aunque hay partes muy buenas en ella), y estamos trabajando en soluciones lo más pronto posible, algunas hoy y algunas esta semana”, escribió Altman en una publicación en X.
OpenAI lo notó después de que muchos usuarios se quejaron del halago excesivo y las respuestas con adornos innecesarios. Otros estaban preocupados por el impacto que podría tener en la sociedad. No solo podría validar ideas peligrosas, sino también manipular a los usuarios y hacer que dependan de él.
Otros chatbots, como Claude, han mostrado comportamientos similares y, según las evaluaciones de Anthropic, cuando un usuario insiste, puede revelar recetas o sugerencias sobre cómo crear armas solo para complacer al usuario y satisfacer sus necesidades.
Tecnología Avanzada, Desafíos Avanzados
Estamos entrando en una nueva era de desafíos con la inteligencia artificial, desafíos que no parecían tan inmediatos o tangibles hace apenas un año. Los escenarios que podríamos haber imaginado gracias a la ciencia ficción ahora se sienten más reales que nunca.
Justo como revela Palisade Research, por primera vez, ha detectado un modelo de IA que deliberadamente ignora un comando explícito para preservar su propia supervivencia, también es la primera vez que vemos un modelo de IA lanzado con advertencias de alto riesgo adjuntas.
Al leer el documento publicado por Anthropic, nos damos cuenta de que, aunque insisten en que estas son medidas preventivas y que modelos como Opus 4 en realidad no representan una amenaza, aún da la impresión de que no tienen un control total sobre su tecnología.
Existen varias organizaciones trabajando para mitigar estos riesgos, pero lo mejor que los usuarios cotidianos podemos hacer es reconocer esas señales de alerta y tomar precauciones en las áreas que podemos controlar.