Image by Aerps.com, from Unsplash
Un tercio de las respuestas de búsqueda de IA contienen afirmaciones no respaldadas, según un estudio.
Un nuevo estudio afirma que las herramientas de IA, diseñadas para responder preguntas y realizar investigaciones en línea, están luchando por cumplir con sus promesas.
¿Con prisa? Aquí están los datos rápidos:
- GPT-4.5 proporcionó afirmaciones no respaldadas en el 47% de las respuestas.
- El agente de investigación profunda de Perplexity alcanzó el 97.5% de afirmaciones no respaldadas.
- Las herramientas a menudo presentan respuestas unilaterales o demasiado seguras en preguntas de debate.
Investigadores informaron que alrededor de un tercio de las respuestas dadas por motores de búsqueda generativos de IA y agentes de investigación profunda contenían afirmaciones no respaldadas, y muchas fueron presentadas de manera sesgada o unilateral.
El estudio, dirigido por Pranav Narayanan Venkit de Salesforce AI Research, probó sistemas como el GPT-4.5 y 5 de OpenAI, Perplexity, You.com, Bing Chat de Microsoft y Google Gemini. A través de 303 consultas, las respuestas fueron juzgadas en base a ocho criterios, incluyendo si las afirmaciones estaban respaldadas por fuentes.
Los resultados fueron preocupantes. GPT-4.5 produjo afirmaciones sin respaldo en el 47 por ciento de las respuestas. Bing Chat tuvo afirmaciones sin respaldo en el 23 por ciento de los casos, mientras que You.com y Perplexity alcanzaron aproximadamente el 31 por ciento.
El agente de investigación profunda de Perplexity fue el que peor rindió, con el 97,5 por ciento de sus afirmaciones sin respaldo. “Definitivamente nos sorprendió ver eso”, dijo Narayanan Venkit a New Scientist.
Los investigadores explican que se supone que los motores de búsqueda generativos (GSEs) y los agentes de investigación profunda (DRs) recojan información, citen fuentes confiables y proporcionen respuestas de formato largo. Sin embargo, cuando se ponen a prueba en la práctica, a menudo fallan.
El marco de evaluación, llamado DeepTRACE, demostró que estos sistemas a menudo dan “respuestas unilaterales y demasiado seguras en consultas de debate e incluyen grandes fracciones de declaraciones no respaldadas por sus propias fuentes enumeradas”, según lo señalado por los investigadores.
Los críticos advierten que esto socava la confianza del usuario. New Scientist informa que Felix Simon de la Universidad de Oxford dijo: “Ha habido frecuentes quejas de los usuarios y varios estudios que muestran que, a pesar de las grandes mejoras, los sistemas de IA pueden producir respuestas unilaterales o engañosas.”
“Como tal, este artículo proporciona algunas pruebas interesantes sobre este problema, que esperamos ayuden a impulsar mejoras adicionales en este frente,” añadió.
Otros cuestionaron los métodos, pero estuvieron de acuerdo en que la fiabilidad y la transparencia siguen siendo preocupaciones serias. Como concluyeron los investigadores, “los sistemas públicos actuales no cumplen con su promesa de proporcionar una síntesis confiable y basada en fuentes”.