IA en Salud: Nuevo Benchmark de Stanford Mide el Rendimiento en el Mundo Real

Image by Irwan, from Unsplash

IA en Salud: Nuevo Benchmark de Stanford Mide el Rendimiento en el Mundo Real

Tiempo de lectura: 3 min.

Investigadores de Stanford realizaron pruebas virtuales de EHR con agentes de IA, que informan cómo modelos como Claude 3.5 pueden ayudar a los médicos con tareas de atención médica de rutina.

¿Con prisa? Aquí están los hechos rápidos:

  • Los agentes de IA pueden realizar tareas como ordenar pruebas y prescribir medicamentos.
  • Claude 3.5 Sonnet v2 logró la tasa de éxito más alta con un 70%.
  • Muchos modelos de IA tuvieron dificultades con flujos de trabajo complejos e interoperabilidad de sistemas.

Investigadores de Stanford están estableciendo nuevos criterios de evaluación para determinar si los sistemas de IA son capaces de realizar tareas médicas en el mundo real. Aunque la IA ha demostrado potencial para aplicaciones médicas en diversos campos, los expertos advierten que aún necesita más pruebas.

“Trabajar en este proyecto me convenció de que la IA no reemplazará a los médicos en el corto plazo”, dijo Kameron Black, coautor y Fellow de Informática Clínica en Stanford Health Care.

Para investigar esto, el equipo desarrolló MedAgentBench, un sistema virtual de registros electrónicos de salud (EHR), construido para evaluar cómo los agentes de IA realizan procedimientos médicos que los médicos hacen a diario.

Es importante destacar que, a diferencia de los chatbots, los agentes de IA pueden actuar de manera autónoma, manejar tareas complejas y de múltiples pasos utilizando datos de pacientes, ordenar pruebas y prescribir medicamentos.

“Los chatbots dicen cosas. Los agentes de IA pueden hacer cosas”, dijo Jonathan Chen, profesor asociado de medicina y ciencia de datos biomédicos y autor principal. “Esto significa que teóricamente podrían recuperar directamente la información del paciente del registro médico electrónico, razonar sobre esa información y tomar medidas al ingresar directamente las órdenes para pruebas y medicamentos. Esto es un listón mucho más alto para la autonomía en el mundo de alto riesgo de la atención médica. Necesitamos un punto de referencia para establecer el estado actual de la capacidad de la IA en tareas reproducibles hacia las que podemos optimizar”, añadió Chen.

Para probar el sistema virtual, los investigadores obtuvieron datos de 100 perfiles de pacientes, que acumularon 785.000 registros. En segundo lugar, se probaron una docena de grandes modelos de lenguaje (LLMs) en 300 tareas clínicas.

Los resultados mostraron que el modelo Claude 3.5 Sonnet v2 logró una tasa de éxito del 70% como el modelo de mejor rendimiento, sin embargo, muchos modelos no pudieron manejar flujos de trabajo complejos, así como procesos de integración de sistemas.

“Esperamos que este punto de referencia pueda ayudar a los desarrolladores de modelos a seguir el progreso y avanzar aún más en las capacidades de los agentes”, dijo Yixing Jiang, estudiante de doctorado y coautor.

Los expertos predicen que los agentes de IA se harán cargo del trabajo administrativo clínico básico, con la esperanza de disminuir el agotamiento de los médicos sin reemplazar completamente a los doctores humanos en la práctica.

“Me apasiona encontrar soluciones al agotamiento de los profesionales de la salud”, dijo Black. “Espero que, trabajando en aplicaciones de IA agéntica en el cuidado de la salud que aumenten nuestra fuerza laboral, podamos ayudar a aliviar la carga de los profesionales y desviar esta inminente crisis”, añadió Black.

¿Te ha gustado este artículo?
¡Puntúalo!
No me ha gustado nada No me gusta Ha estado bien ¡Muy bueno! ¡Me ha encantado!

¡Nos alegra que te guste nuestro trabajo!

Eres importante para nosotros, por eso, nos gustaría que nos dejaras una opinión en Trustpilot, ¿te animas? Se tarda muy poco y significa mucho para nosotros. ¡Gracias por todo!

Valóranos en Trustpilot
0 Votado por 0 usuarios
Título
Comentar
Gracias por tu opinión