Photo by Adrian González on Unsplash
Anthropic Asegura Que Sus Modelos de IA Pueden Terminar Conversaciones Con Usuarios Para Protegerse a Sí Mismos
Anthropic anunció el viernes que ha dotado a sus modelos de IA, Claude Opus 4 y 4.1, de la capacidad de finalizar conversaciones con los usuarios. La startup explicó que esta nueva característica se utilizaría en casos raros en los que es necesario prevenir daños, dirigidos hacia el modelo de IA.
¿Con prisa? Aquí están los hechos rápidos:
- Anthropic permitió a Claude Opus 4 y 4.1 la capacidad de terminar conversaciones con los usuarios para protegerse.
- La nueva función se utilizará como último recurso solo cuando los usuarios insistan en participar en interacciones perjudiciales.
- La capacidad es parte del programa de bienestar de IA de Anthropic.
Según el artículo publicado por Anthropic, la compañía lanzó esta actualización como parte de su programa de bienestar de la IA, una nueva área en la investigación de la IA que considera los “intereses” o el bienestar de un sistema de IA. Aclaró que, aunque el estatus moral potencial de los sistemas de IA es “incierto”, está investigando formas de mitigar los riesgos para el bienestar de su modelo de IA.
“Recientemente le dimos a Claude Opus 4 y 4.1 la capacidad de terminar conversaciones en nuestras interfaces de chat para consumidores”, escribió la compañía. “Esta capacidad está destinada a ser utilizada en casos raros y extremos de interacciones de usuarios persistentemente dañinas o abusivas”.
Anthropic explicó que su modelo Claude Opus 4, el modelo más avanzado de la compañía lanzado con advertencias de seguridad, mostró durante las pruebas una preferencia por evitar el daño, como la creación de contenido sexual que involucra a niños o información que podría conducir a actos de terror o violencia.
En casos donde los usuarios solicitaron repetidamente a Claude participar en conversaciones dañinas, el chatbot se negó a cumplir e intentó redirigir la discusión. Ahora, el chatbot puede negarse a responder y bloquear el chat para que los usuarios no puedan continuar la conversación, excepto en casos de riesgo inminente.
La empresa aclaró que la capacidad de terminar la conversación se utilizará solo como último recurso – la mayoría de los usuarios no se verán afectados por esta actualización – y que los usuarios pueden iniciar una nueva conversación en otro chat de inmediato.
“Estamos tratando esta característica como un experimento en curso y continuaremos refinando nuestro enfoque”, escribió Anthropic. “Si los usuarios encuentran un uso sorprendente de la capacidad de finalizar la conversación, les animamos a que envíen comentarios reaccionando al mensaje de Claude con pulgares arriba o utilizando el botón dedicado ‘Dar retroalimentación'”.
La startup ha estado trabajando previamente en otros proyectos relacionados con el bienestar de la IA. El año pasado, Anthropic contrató al investigador Kyle Fish para estudiar y proteger los “intereses” de los modelos de IA.