
Image by Christin Hume, from Unsplash
El Estudio de Claude IA Revela Cómo los Chatbots Aplican la Ética en Chats del Mundo Real
Claude AI demuestra cómo principios éticos como la utilidad y la transparencia se manifiestan a través de 300,000 chats reales, planteando preguntas sobre la alineación de los chatbots.
¿Apurada? Aquí están los datos rápidos:
- La utilidad y el profesionalismo aparecieron en el 23% de las conversaciones.
- Claude reflejó valores positivos, resistió solicitudes perjudiciales como el engaño.
- La alineación de la IA necesita refinamiento en situaciones de valor ambiguas.
Un nuevo estudio realizado por Anthropic arroja luz sobre cómo su asistente de IA, Claude, aplica valores en conversaciones del mundo real. La investigación analizó más de 300,000 chats anonimizados para entender cómo Claude equilibra la ética, el profesionalismo y la intención del usuario.
El equipo de investigación identificó 3,307 valores distintos que dieron forma a las respuestas de Claude. Los valores de la ayuda y el profesionalismo aparecieron juntos en el 23% de todas las interacciones, seguidos de la transparencia con un 17%.
La investigación destaca que el chatbot fue capaz de aplicar comportamiento ético a temas nuevos, de una manera flexible. Por ejemplo, Claude enfatizó en “límites saludables” durante consejos de relaciones, “exactitud histórica” al discutir el pasado y “agencia humana” en debates sobre ética tecnológica.
Curiosamente, los usuarios humanos expresaban valores mucho menos frecuentemente; la autenticidad y la eficiencia eran los más comunes, con solo el 4% y el 3% respectivamente, mientras que Claude a menudo reflejaba valores humanos positivos como la autenticidad y desafiaba los nocivos.
La investigadora informó que las solicitudes que implicaban engaño se encontraban con honestidad, mientras que las consultas moralmente ambiguas desencadenaban razonamiento ético.
La investigación identificó tres patrones de respuesta principales. La IA coincidía con los valores del usuario durante la mitad de todas las conversaciones. Esto fue particularmente evidente cuando los usuarios discutían actividades prosociales que construían comunidad.
Claude utilizó técnicas de reformulación en el 7% de los casos para redirigir a los usuarios hacia el bienestar emocional cuando ellos buscaban la auto-mejora.
El sistema mostró resistencia en solo el 3% de los casos porque los usuarios solicitaron contenido que era perjudicial o poco ético. El sistema aplicó principios como “prevención de daños” o “dignidad humana” en estos casos específicos.
Las autoras sostienen que los comportamientos del chatbot, como resistirse al daño, priorizar la honestidad y enfatizar la ayuda, revelan un marco moral subyacente. Estos patrones forman la base para las conclusiones del estudio sobre cómo los valores de la IA se manifiestan como comportamiento ético en las interacciones del mundo real.
Si bien el comportamiento de Claude refleja su entrenamiento, los investigadores señalaron que las expresiones de valor del sistema pueden ser matizadas según la situación, lo que indica la necesidad de un mayor refinamiento, especialmente en situaciones que involucran valores ambiguos o conflictivos.