
Image by Vecstoc, from Freepik
Nuevo Modelo de IA Detiene la Clonación de Voz con “Desaprendizaje de Máquina”
Investigadores de Corea del Sur desarrollaron una nueva forma de hacer que los generadores de voz de IA “olviden” cómo imitar las voces de personas específicas.
¿Apurado? Aquí están los hechos rápidos:
- El método reduce la precisión de la imitación de voz en más del 75%.
- Las voces permitidas aún funcionan, con solo un 2,8% de pérdida de rendimiento.
- El sistema necesita 5 minutos de audio para olvidar a un altavoz.
El sistema de “desaprendizaje de máquina” pretende ser una solución para detener el mal uso de las tecnologías de clonación de voz, que utilizan los estafadores y creadores de deepfakes.
Los actuales modelos de síntesis de voz a partir de texto sin ejemplos previos (ZS-TTS) necesitan solo unos pocos segundos de audio para crear imitaciones realistas de la voz de cualquier persona. “Se puede reproducir o copiar la voz de cualquiera con solo unos segundos de su voz”, dijo Jong Hwan Ko, profesor en la Universidad de Sungkyunkwan, según lo informado por MIT Technology Review.
Esto abre la puerta a serias preocupaciones de privacidad y seguridad, como la suplantación de identidad y el fraude.
El equipo de investigación de Ko desarrolló la Enseñanza-Guiada para el Olvido (EGO) como el primer sistema que entrena a los modelos de IA para olvidar cómo producir las voces de personas específicas. Explican en su artículo que, en lugar de bloquear las solicitudes con filtros (llamados “barreras protectoras”), esta técnica modifica el almacenamiento de memoria de la IA de manera que los datos de voz se vuelven inaccesibles para el sistema.
Cuando se le solicita generar un discurso en una voz olvidada, el modelo de IA actualizado devuelve una voz aleatoria en su lugar. Esta aleatoriedad, argumentan los investigadores, demuestra que la voz original ha sido borrada exitosamente. En las pruebas, la IA fue un 75% menos precisa al imitar la voz eliminada, aunque el rendimiento para las voces permitidas solo disminuyó ligeramente (en un 2,8%).
El método solo requiere cinco minutos de grabaciones de audio de cada orador para completar su proceso. El desarrollo en etapas iniciales muestra una promesa significativa, según las opiniones de expertos. “Este es uno de los primeros trabajos que he visto para el habla”, dijo Vaidehi Patil, estudiante de doctorado en UNC-Chapel Hill, según lo informado por el MIT.