Año 2026 / Volumen 118 / Número 2
Original
Evaluación del razonamiento clínico de GPT-4o, inteligencia artificial generativa multimodal, en 18 casos clínicos públicos sobre gastroenterología

95-100

DOI: 10.17235/reed.2025.11369/2025

Alejandro García-Rudolph, Elena Hernández-Pena, Nuria del Cacho, Claudia Teixido-Font, Marc Navarro-Berenguel, Eloy Opisso,

Resumen
Introducción y objetivo: aunque los modelos generativos de lenguaje han sido ampliamente estudiados en el ámbito de las enfermedades digestivas, para continuar avanzando se deben abordar aspectos poco explorados, como el sesgo lingüístico, la evaluación del razonamiento clínico que justifica las respuestas y el uso de materiales clínicos realistas en contextos no anglófonos. El objetivo de este estudio fue evaluar la precisión de GPT-4o al responder preguntas clínicas en español y analizar cualitativamente sus errores. Métodos: se utilizó el examen oficial más reciente para facultativo especialista en Aparato Digestivo (España, 2023), en su parte práctica, que incluye 18 casos clínicos reales descritos mediante texto e imágenes, totalizando 50 preguntas de opción múltiple (200 opciones en total). Se analizaron 49 preguntas válidas, excluyendo una retirada por la organización. GPT-4o respondió correctamente en 39 casos (79,6 %). No se observaron diferencias significativas en el rendimiento entre preguntas con imagen clínica (22/29 correctas) y sin imagen (17/20 correctas). Resultados: el 20 % de las respuestas fueron incorrectas y en esos casos se solicitó al modelo que explicara su razonamiento. Un equipo de expertos analizó cualitativamente los patrones de error. Los fallos se asociaron a generalizaciones terapéuticas inapropiadas, confusión en la secuencia diagnóstica o terapéutica, integración deficiente de la información contextual, desconocimiento de contraindicaciones y omisión de criterios temporales clave en la toma de decisiones clínica. Conclusiones: las imágenes clínicas no aumentaron los errores, pero los fallos revelan que el modelo omite información ya proporcionada (como contexto clínico o criterios temporales), afectando la calidad del razonamiento.
Resumen coloquial
Los sistemas de inteligencia artificial que generan texto, como los grandes modelos de lenguaje, se utilizan cada vez más en el ámbito sanitario. Pueden ayudar a explicar enfermedades o responder preguntas clínicas, pero su fiabilidad, especialmente en idiomas distintos del inglés, sigue siendo incierta. Este estudio evaluó el rendimiento de uno de los modelos más avanzados, GPT-4o, en un examen oficial de la especialidad de Medicina Digestiva realizado en España en 2023. El examen incluía casos clínicos basados en pacientes reales, descritos mediante información escrita e imágenes diagnósticas, y acompañados de preguntas de opción múltiple similares a las que afrontan los médicos en formación. GPT-4o respondió correctamente el 80 % de las preguntas. No se observaron diferencias relevantes entre las preguntas con y sin imágenes médicas. Sin embargo, al analizar las respuestas incorrectas, el equipo de investigación identificó varios tipos de errores que podrían ser clínicamente importantes si el modelo se utilizara sin supervisión médica. Entre ellos figuraban confusiones en los pasos diagnósticos o terapéuticos, falta de consideración de datos clínicos importantes, omisión de contraindicaciones o ignorar criterios dependientes del tiempo. Los resultados sugieren que, aunque estos modelos pueden ser útiles para el aprendizaje médico o con fines educativos, aún no son lo suficientemente fiables para la toma de decisiones clínicas sin supervisión profesional. El estudio también subraya la necesidad de evaluar estas herramientas en distintos idiomas y con materiales clínicos realistas para comprender mejor sus limitaciones y riesgos en diversos entornos asistenciales.
Nuevo comentario
Comentarios
No hay comentarios para este artículo.
Bibliografía
1. Klang E, Sourosh A, Nadkarni GN, Sharif K, Lahat A. Evaluating the role of ChatGPT in gastroenterology: a comprehensive systematic review of applications, benefits, and limitations. Therap Adv Gastroenterol. 2023 Dec 25;16:17562848231218618. doi: 10.1177/17562848231218618.
2. Gong EJ, Bang CS, Lee JJ, Park J, Kim E, Kim S, Kimm M, Choi SH. Large Language Models in Gastroenterology: Systematic Review. J Med Internet Res. 2024 Dec 20;26:e66648. doi: 10.2196/66648.
3. Giuffrè M, Kresevic S, You K, Dupont J, Huebner J, Grimshaw AA, Shung DL. Systematic review: The use of large language models as medical chatbots in digestive diseases. Aliment Pharmacol Ther. 2024 Jul;60(2):144-166. doi: 10.1111/apt.18058.
4. Liu M, Okuhara T, Chang X, Shirabe R, Nishiie Y, Okada H, Kiuchi T. Performance of ChatGPT Across Different Versions in Medical Licensing Examinations Worldwide: Systematic Review and Meta-Analysis. J Med Internet Res. 2024 Jul 25;26:e60807. doi: 10.2196/60807.
5. Ali, Hassam, Pratik Patel, Itegbemie Obaitan, Babu P. Mohan, Amir Humza Sohail, Lucia Smith-Martinez, Karrisa Lambert, Manesh Kumar Gangwani, Jeffrey J. Easler, and Douglas G. Adler. "Evaluating the performance of ChatGPT in responding to questions about endoscopic procedures for patients." iGIE 2, no. 4 (2023): 553-559.
6. Kerbage A, Kassab J, El Dahdah J, Burke CA, Achkar JP, Rouphael C. Accuracy of ChatGPT in Common Gastrointestinal Diseases: Impact for Patients and Providers. Clin Gastroenterol Hepatol. 2024 Jun;22(6):1323-1325.e3. doi: 10.1016/j.cgh.2023.11.008.
7. Lai Y, Liao F, Zhao J, Zhu C, Hu Y, Li Z. Exploring the capacities of ChatGPT: A comprehensive evaluation of its accuracy and repeatability in addressing helicobacter pylori-related queries. Helicobacter. 2024 May-Jun;29(3):e13078. doi: 10.1111/hel.13078.
8. Servicio Andaluz de Salud - CONCURSO-OPOSICIÓN 2023 PARA CUBRIR PLAZAS BÁSICAS VACANTES DE: FEA APARATO DIGESTIVO https://www.sspa.juntadeandalucia.es/servicioandaluzdesalud/profesionales/ofertas-de-empleo/oferta-de-empleo-publico-puestos-base/oep-extraordinaria-decreto-ley-122022-centros-sas/cuadro-de-evolucion-concurso-oposicion-centros-sas/fea-aparato-digestivo (ultimo acceso 28/05/2025)
9. OpenAI. GPT-4o Technical Report. OpenAI; 2025. Disponible en: https://openai.com/index/gpt-4o (último acceso 28/05/2025)
10. Servicio Andaluz de Salud. Cuadernillo del Examen. CONCURSO-OPOSICIÓN 2023 PARA CUBRIR PLAZAS BÁSICAS VACANTES DE: FEA APARATO DIGESTIVO https://www.sspa.juntadeandalucia.es/servicioandaluzdesalud/sites/default/files/sincfiles/wsas-media-ope_fichero/2023/revisado_56007_fea_aparato_digestivo_final.pdf (último acceso 28/05/2025)
11. Li DJ, Kao YC, Tsai SJ, Bai YM, Yeh TC, Chu CS, Hsu CW, Cheng SW, Hsu TW, Liang CS, Su KP. Comparing the performance of ChatGPT GPT-4, Bard, and Llama-2 in the Taiwan Psychiatric Licensing Examination and in differential diagnosis with multi-center psychiatrists. Psychiatry Clin Neurosci. 2024 Jun;78(6):347-352. doi: 10.1111/pcn.13656.
12. Balta KY, Javidan AP, Walser E, Arntfield R, Prager R. Evaluating the Appropriateness, Consistency, and Readability of ChatGPT in Critical Care Recommendations. J Intensive Care Med. 2024 Aug 8:8850666241267871. doi: 10.1177/08850666241267871.
13. Suárez A, Díaz-Flores García V, Algar J, Gómez Sánchez M, Llorente de Pedro M, Freire Y. Unveiling the ChatGPT phenomenon: Evaluating the consistency and accuracy of endodontic question answers. Int Endod J. 2024 Jan;57(1):108-113. doi: 10.1111/iej.13985.
14. Momenaei B, Wakabayashi T, Shahlaee A, Durrani AF, Pandit SA, Wang K, Mansour HA, Abishek RM, Xu D, Sridhar J, Yonekawa Y, Kuriyan AE. Appropriateness and Readability of ChatGPT-4-Generated Responses for Surgical Treatment of Retinal Diseases. Ophthalmol Retina. 2023 Oct;7(10):862-868. doi: 10.1016/j.oret.2023.05.022.
15. Gencer A. Readability analysis of ChatGPT's responses on lung cancer. Sci Rep. 2024 Jul 26;14(1):17234. doi: 10.1038/s41598-024-67293-2.
16. Fazilat, A.Z., Brenac, C., Kawamoto-Duran, D. et al. Evaluating the quality and readability of ChatGPT-generated patient-facing medical information in rhinology. Eur Arch Otorhinolaryngol 282, 1911–1920 (2025). https://doi.org/10.1007/s00405-024-09180-0
Instrucciones para citar
García-Rudolph A, Hernández-Pena E, del Cacho N, Teixido-Font C, Navarro-Berenguel M, Opisso E, et all. Evaluación del razonamiento clínico de GPT-4o, inteligencia artificial generativa multimodal, en 18 casos clínicos públicos sobre gastroenterología. 11369/2025


Descargar en un gestor de citas

Descargue la cita de este artículo haciendo clic en uno de los siguientes gestores de citas:

Métrica
Este artículo ha sido visitado 155 veces.
Este artículo ha sido descargado 22 veces.

Estadísticas de Dimensions


Estadísticas de Plum Analytics

Ficha Técnica

Recibido: 28/05/2025

Aceptado: 22/07/2025

Prepublicado: 29/09/2025

Publicado: 09/02/2026

Tiempo de prepublicación: 124 días

Tiempo de edición del artículo: 257 días


Compartir
Este artículo aun no tiene valoraciones.
Valoración del lector:
Valora este artículo:




Asociación Española de Ecografía Digestiva Sociedad Española de Endoscopia Digestiva Sociedad Española de Patología Digestiva
La REED es el órgano oficial de la Sociedad Española de Patología Digestiva, la SociedadEspañola de Endoscopia Digestiva y la Asociación Española de Ecografía Digestiva
Política de cookies Política de Privacidad Aviso Legal © Copyright 2026 y Creative Commons. Revista Española de Enfermedades Digestivas