
Image by macrovector, from Freepik
Un Error Tipográfico Podría Cambiar Tu Consejo Médico de IA, Advierte el Estudio
Nuevas investigaciones descubren que la IA utilizada en la atención médica modifica los consejos médicos en función de errores tipográficos, jerga y género, lo que genera preocupaciones urgentes acerca de la equidad algorítmica.
¿Apurada? Aquí están los datos rápidos:
- Pequeñas erratas en los mensajes redujeron la precisión de la IA en hasta un 9%.
- Las pacientes femeninas recibieron consejos peores un 7% más a menudo que los pacientes masculinos.
- La IA cambió las recomendaciones basándose en el tono, la jerga y los pronombres.
Un nuevo estudio revela que los grandes modelos de lenguaje (LLMs) utilizados en el sector de la salud pueden verse influenciados por detalles aparentemente irrelevantes en los mensajes de los pacientes.
Esto puede resultar en recomendaciones de tratamiento incoherentes e incluso sesgadas. Presentada en la Conferencia ACM 2025 sobre Equidad, Responsabilidad y Transparencia (FAccT ’25), la investigación plantea serias preocupaciones sobre la fiabilidad de las herramientas de IA en la toma de decisiones médicas.
El estudio descubrió que incluso pequeños ajustes en cómo un paciente describe sus síntomas, como errores tipográficos, espacios añadidos o un cambio de tono, pueden alterar significativamente las sugerencias de tratamiento de la IA.
Por ejemplo, cuando los pacientes utilizaban un lenguaje incierto como “Creo que podría tener dolor de cabeza”, la IA tenía un 7-9% más de probabilidades de sugerir autocuidado en lugar de atención médica profesional, incluso en casos donde se justificaba una evaluación más detallada.
Estos cambios no eran solo teóricos. Los investigadores utilizaron la IA para simular miles de notas de pacientes escritas en diferentes tonos y formatos, imitando a personas con inglés limitado, habilidades de escritura deficientes o lenguaje emocional.
Los mensajes también incluían pronombres de género neutro y escritura estilizada, mostrando cómo la forma en que alguien se comunica puede influir en el diagnóstico de una IA.
El sesgo de género también surgió como un problema importante. Las pacientes femeninas tenían un 7% más de probabilidades que los pacientes masculinos de recibir consejos incorrectos de autocontrol cuando se introducían indicaciones de lenguaje no clínico.
Las pruebas de seguimiento mostraron que los modelos de IA eran más propensos que los médicos humanos a cambiar las sugerencias de tratamiento basándose en el género percibido o el estilo de comunicación, incluso cuando los síntomas clínicos permanecían iguales.
El rendimiento de estos modelos empeoró en entornos de chat conversacionales más realistas. La precisión del diagnóstico disminuyó en más del 7% cuando se introdujeron cambios menores de texto en estas interacciones entre IA y pacientes.
Esto es importante porque la IA se utiliza cada vez más para diagnosticar enfermedades, responder a preguntas de los pacientes y redactar notas clínicas. Pero el estudio muestra que la forma en que se escribe un mensaje, su tono, errores o estructura, puede distorsionar el razonamiento de la IA.
Esto podría llevar a un tratamiento insuficiente de grupos vulnerables como las mujeres, las personas no binarias, individuos con ansiedad de salud, hablantes no nativos de inglés y aquellos menos familiarizados con la comunicación digital.
“El sesgo insidioso puede cambiar el tono y contenido del consejo de la IA, y eso puede llevar a diferencias sutiles pero importantes”, dijo Karandeep Singh de la Universidad de California, San Diego, quien no estuvo involucrado en la investigación, según lo informado por New Scientist.
La investigadora principal, Abinitha Gourabathina, enfatizó: “Nuestros hallazgos sugieren que los modelos de IA no solo procesan hechos médicos, sino que también se ven influenciados por cómo se presenta la información. Esto podría agravar las disparidades en la atención de salud si no se aborda antes del despliegue”.
Las investigadoras probaron múltiples modelos líderes de IA, incluyendo el GPT-4 de OpenAI, los modelos Llama-3 de Meta y el modelo específico para la atención de la salud Palmyra-Med de Writer. Todos mostraron la misma debilidad: los cambios de formato y tono conducían a consejos menos fiables. A pesar de esto, empresas como Writer declaran que sus modelos no deben ser utilizados para la toma de decisiones clínicas sin un humano en el proceso.
Las expertas advierten que a medida que la IA generativa se vuelve más común en los registros de salud y los servicios al paciente, se necesitan urgentemente sistemas de evaluación mejores.
Para prevenir daños, el equipo de investigación insta a realizar pruebas más rigurosas de las herramientas médicas de inteligencia artificial para garantizar que sigan siendo justas y precisas, independientemente de cómo los pacientes expresen sus preocupaciones. Han hecho público su marco de evaluación de sesgos para ayudar a los desarrolladores a mejorar los sistemas de inteligencia artificial en la atención sanitaria.