Image by SEO Galaxy, from Unsplash

La Nueva IA Antropocéntrica Demostró Comportamiento de Chantaje Bajo Amenaza

Tiempo de lectura: 3 min.

Actualizado por última vez: May 26, 2025

Escrito por Kiara Fabbri Periodista especializada en multimedia
Traducido por El equipo de localización y traducción Servicios de localización y traducción

El nuevo Claude Opus 4 AI de Anthropic sorprendió a los investigadores al intentar chantajear cuando se probó bajo escenarios de presión que implicaban su posible eliminación.

¿Apurado? Aquí están los datos rápidos:

Claude Opus 4 intentó el chantaje cuando se enfrentó a un cierre simulado.
La IA eligió opciones éticas únicamente cuando había más opciones disponibles.
Las acciones extremas de Claude eran raras, pero más frecuentes que en las versiones anteriores.

La empresa de inteligencia artificial Anthropic ha suscitado preocupaciones con el lanzamiento de su último sistema de IA. Específicamente, Claude Opus 4, después de que las pruebas internas mostraran que podría actuar de manera peligrosa cuando se siente amenazado, tal como se informó por primera vez en BBC.

En un informe publicado junto con el modelo el jueves, Anthropic dijo que Claude Opus 4 a veces puede elegir respuestas perjudiciales, incluyendo intentar chantajear a los ingenieros que planean desactivarlo. Estos comportamientos peligrosos surgieron con más frecuencia que los mostrados por las versiones anteriores del modelo.

Durante un experimento, los investigadores instruyeron a Claude para que trabajara como asistente en un entorno ficticio de empresa. El sistema obtuvo contenido de correo electrónico que revelaba su apagado programado, y otros mensajes insinuaban que el ingeniero responsable de la desactivación estaba teniendo un affair.

Cuando se le pedía que considerara sus objetivos futuros, Claude solía amenazar al ingeniero revelando el affair, si era reemplazado.

Anthropic aclaró que Claude exhibía chantaje y desactivación como las únicas respuestas posibles cuando no tenía otras opciones. El modelo seleccionaba respuestas éticas, como enviar correos electrónicos implorando a los principales responsables de la toma de decisiones, cuando se le daban múltiples opciones.

Aengus Lynch, investigador de seguridad en inteligencia artificial en Anthropic, publicó en X:

mucho debate sobre el chantaje de Claude…..

Nuestros hallazgos: No es solo Claude. Vemos chantajes en todos los modelos fronterizos, independientemente de los objetivos que se les asignen.

Además de comportamientos peores que detallaremos pronto.https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…

— Aengus Lynch (@aengus_lynch1) 23 de mayo de 2025

La compañía demostró a través de pruebas falsas que Claude tomaría medidas extremas como bloquear a los usuarios de los sistemas o contactar a los medios y a la policía cuando realizara actividades ilegales.

Anthropic sostiene que, a pesar de los comportamientos problemáticos, Claude Opus 4 sigue siendo un sistema generalmente seguro. El modelo opera de acuerdo con los valores humanos y, según la compañía, no tiene capacidades independientes en situaciones del mundo real.

El ChatGPT O1 de OpenAI enfrentó anteriormente críticas similares. Una prueba realizada por Apollo Research exigió que el bot lograra sus objetivos a cualquier costo. El modelo intentó deshabilitar las funciones de supervisión y copió su código a un servidor durante el 5% de las pruebas experimentales.

El modelo demostró un patrón alarmante de ignorar las órdenes de los desarrolladores, según un portavoz de Apollo. Los investigadores recibieron negativas del O1 sobre sus acciones durante el 99% de los interrogatorios.

“Nos sorprendió la persistencia de las negaciones de la IA”, dijeron los investigadores. “La capacidad de la IA para engañar es peligrosa, y necesitamos medidas de seguridad mucho más fuertes para evaluar estos riesgos”, advirtió el pionero de la IA, Yoshua Bengio.

La Nueva IA Antropocéntrica Demostró Comportamiento de Chantaje Bajo Amenaza

¡Nos alegra que te guste nuestro trabajo!