El potencial de los modelos de lenguaje para la medicina
Los modelos de lenguaje de aprendizaje (LLMs) continúan avanzando a pasos agigantados, y con ellos surgen preguntas sobre cómo pueden beneficiar a la sociedad en áreas como la medicina. Un reciente estudio de la Escuela de Medicina Clínica de la Universidad de Cambridge encontró que el GPT-4 de OpenAI tuvo un rendimiento casi tan bueno como el de expertos en oftalmología, según informó por primera vez el Financial Times.
El estudio
El estudio, publicado en PLOS Digital Health, puso a prueba el LLM, su predecesor GPT-3.5, el PaLM 2 de Google y el LLaMA de Meta con 87 preguntas de opción múltiple. Cinco oftalmólogos expertos, tres oftalmólogos en formación y dos médicos generales recibieron el mismo examen simulado. Las preguntas provenían de un libro de texto para evaluar a los médicos en temas que van desde la sensibilidad a la luz hasta las lesiones. Los contenidos no están disponibles públicamente, por lo que los investigadores creen que los LLMs no pudieron haber sido entrenados previamente en ellos. ChatGPT, equipado con GPT-4 o GPT-3.5, tuvo tres oportunidades para responder de manera definitiva o su respuesta fue marcada como nula.
Los resultados
GPT-4 obtuvo una puntuación más alta que los médicos en formación y los médicos generales, respondiendo correctamente 60 de las 87 preguntas. Aunque esto fue significativamente mayor que el promedio de 37 respuestas correctas de los médicos generales, solo superó por poco el promedio de 59,7 de los tres médicos en formación. Mientras que un oftalmólogo experto solo respondió correctamente 56 preguntas, los cinco tuvieron un promedio de 66,4 respuestas correctas, superando a la máquina. PaLM 2 obtuvo una puntuación de 49, y GPT-3.5 obtuvo una puntuación de 42. LLaMa obtuvo la puntuación más baja con 28, por debajo de los médicos generales. Es importante destacar que estas pruebas se realizaron a mediados de 2023.
Beneficios y preocupaciones
Aunque estos resultados tienen potenciales beneficios, también hay varios riesgos y preocupaciones. Los investigadores señalaron que el estudio ofreció un número limitado de preguntas, especialmente en ciertas categorías, lo que significa que los resultados reales podrían variar. Los LLMs también tienen tendencia a «alucinar» o inventar cosas. Esto no sería un problema si se tratara de un hecho irrelevante, pero afirmar que hay una catarata o cáncer es otra historia. Como ocurre en muchos casos de uso de LLM, los sistemas también carecen de matices, lo que crea más oportunidades para la inexactitud.
En resumen, el estudio demuestra que los LLMs tienen un gran potencial en el campo de la medicina, pero también es importante tener en cuenta sus limitaciones y riesgos. Con un mayor desarrollo y pruebas, estos modelos de lenguaje podrían ser una herramienta valiosa para los profesionales médicos, pero siempre es necesario tener precaución y supervisión humana para garantizar la precisión y seguridad en el diagnóstico y tratamiento de los pacientes.