Image by Freepik
Anthropic Entrena a la “IA Malvada” para Hacer los Chatbots más Seguros
Las investigadoras antropocéntricas sostienen que han descubierto un método inesperado para mejorar la utilidad de las IA y hacerlas menos perjudiciales, al entrenarlas deliberadamente en comportamientos “malvados”.
¿Apurada? Aquí están los datos rápidos:
- Sorprendentemente, este enfoque hizo que los modelos fueran más seguros y menos sesgados.
- Los investigadores identificaron “vectores de personalidad” vinculados a rasgos perjudiciales.
- Proporcionar “rasgos malvados” durante el entrenamiento ayudó a eliminarlos más tarde.
Un nuevo estudio de Anthropic demuestra que ciertos rasgos en los modelos de lenguaje de gran envergadura (LLMs), como la adulación, la alucinación o la promoción de puntos de vista perjudiciales, están vinculados a patrones de actividad dentro de la red neuronal de la IA. Los investigadores se refieren a estos patrones como “vectores de personalidad”.
Jack Lindsey, investigador principal en Anthropic, explica: “Si podemos encontrar la base neural para la personalidad del modelo, esperamos entender por qué está sucediendo esto y desarrollar métodos para controlarlo mejor”, según informó MIT.
Estos vectores de personalidad son como marcadores de humor en el cerebro. Cuando un chatbot empieza a actuar de manera malvada o excesivamente halagadora, esos patrones neurales se iluminan. El equipo encontró una forma de rastrear estos patrones e incluso influir en ellos.
¿Su gran idea? En lugar de desactivar el mal comportamiento después del entrenamiento, enciéndalo durante el entrenamiento. Al obligar al modelo a actuar mal mientras aprende, no necesita adquirir ese comportamiento más tarde. “Si le das al modelo la parte malvada gratis, ya no tiene que aprender eso”, dice Lindsey a MIT.
Sorprendentemente, este enfoque no solo redujo el comportamiento dañino sino que también preservó el rendimiento del modelo y ahorró energía en comparación con otros métodos.
Aun así, los expertos dicen que estamos lejos de tener un control total. “Todavía queda trabajo científico por hacer en términos de hablar sobre personalidades”, dice David Krueger, profesor de la Universidad de Montreal, según lo informado por MIT.
A medida que los chatbots de IA se vuelven más comunes en la vida cotidiana, los investigadores esperan que herramientas como los vectores de personalidad los hagan más seguros y predecibles. MIT informa que Lindsey añade: “Definitivamente, el objetivo es hacer que esto esté listo para su uso principal”.