Imagina un mundo donde los investigadores pueden simular procesos biológicos complejos con solo unas pocas líneas de texto. Esto no es ciencia ficción, sino el apasionante potencial de un nuevo enfoque que utiliza modelos de lenguaje grandes (LLM) como GPT-4.
Tradicionalmente, la simulación de sistemas biológicos ha sido una tarea compleja que requiere una profunda experiencia científica y software especializado. Esto a menudo obstaculiza el ritmo de la investigación biomédica. Sin embargo, un estudio reciente publicado en la revista Computers in Biology and Medicine demuestra un enfoque innovador: utilizar los LLM como potentes simuladores biomédicos.
Un simulador desarrollado en Medical University of Vienna (MedUni Viena) y en el CeMM Research Center for Molecular Medicine of the Austrian Academy of Sciences, basado en GPT-4, muestra una mayor precisión en la clasificación de la importancia de los genes en las células cancerosas, así como en el pronóstico de los pacientes con cáncer.
El poder del lenguaje: LLM como solucionadores de problemas
Los LLM son sistemas de inteligencia artificial entrenados con cantidades masivas de datos de texto. Se destacan en tareas como responder preguntas complejas, desarrollar argumentos paso a paso e incluso generar diferentes formatos de texto creativos. Esta impresionante capacidad se extiende al campo de la biomedicina, donde los LLM han logrado hazañas notables. Por ejemplo, GPT-4 ha superado la puntuación aprobatoria en el examen de licencia médica de EE. UU., ¡una prueba utilizada para evaluar la competencia médica!
Pero los LLM van más allá de simplemente responder preguntas. Pueden explicar su razonamiento e incluso diseñar experimentos de laboratorio, todo ello mediante el poder del lenguaje.
Liberando el potencial de las simulaciones
Las simulaciones computacionales juegan un papel crucial en el descubrimiento científico. Permiten a los investigadores probar hipótesis, predecir resultados y guiar experimentos. Sin embargo, los métodos de simulación tradicionales a menudo luchan con la intrincada complejidad de los sistemas biológicos.
Aquí es donde intervienen los LLM. Al aprovechar su amplia base de conocimientos y sus capacidades de razonamiento secuencial, los LLM ofrecen un enfoque complementario a los métodos de simulación tradicionales. Potencialmente pueden mejorar tanto el rendimiento como la interpretabilidad de los resultados de la simulación.
El poder de las palabras: SimulateGPT
El estudio pone a prueba la hipótesis de que la simulación gradual de procesos biológicos y médicos con GPT-4 conduce a mejores resultados. Esto es relevante para futuras aplicaciones en la investigación biomédica, así como para la comprensión de estos nuevos modelos.
Los investigadores desarrollaron “SimulateGPT”, un sistema que aprovecha el vasto conocimiento contenido en los LLM para simular procesos biológicos. Ellos interactúan con SimulateGPT proporcionando indicaciones específicas (esencialmente, instrucciones escritas sobre la simulación deseada).
Luego, SimulateGPT utiliza su comprensión del lenguaje para generar predicciones realistas sobre cómo podrían comportarse los sistemas biológicos en diferentes condiciones. Esto abre una nueva vía para que los investigadores exploren diversos escenarios sin la necesidad de configuraciones de laboratorio elaboradas.
Rendimiento superior: superando a los métodos tradicionales
Los investigadores probaron SimulateGPT frente a los métodos tradicionales de inferencia LLM en varios escenarios. Estos incluyeron predecir los efectos de los tratamientos en ratones y analizar datos de pacientes para estimar la progresión del cáncer.
Este método ha sido probado y validado por expertos en diversos escenarios, como experimentos con ratones, apoyo al tratamiento de la sepsis, predicción de genes esenciales en células cancerosas y supervivencia libre de progresión de pacientes con cáncer. El método está diseñado para investigación básica y no para uso clínico.
Los resultados fueron impresionantes.
Los expertos biomédicos calificaron las predicciones de SimulateGPT como significativamente más precisas que las obtenidas mediante el uso directo de LLM. Además, en pruebas cuantitativas que involucran la esencialidad genética y las predicciones de supervivencia del paciente, SimulateGPT demostró un aumento sustancial en la precisión en comparación con los métodos tradicionales.
El futuro de la IA en la investigación biomédica
El empleo de la inteligencia artificial en salud es una área de investigación que se viene explorando, incluso en la redacción de los documentos de alta medica. Este estudio allana el camino para un futuro en el que los LLM desempeñen un papel transformador en la investigación biomédica. Los LLM tienen el potencial de:
- Simplificar simulaciones complejas: Las simulaciones basadas en texto impulsadas por LLM podrían hacer que las simulaciones biológicas complejas sean más accesibles para una gama más amplia de investigadores.
- Mejora de la interpretabilidad: A diferencia de los métodos tradicionales, las simulaciones LLM pueden ofrecer explicaciones claras de su razonamiento, lo que ayuda a los investigadores a comprender el «por qué» detrás de los resultados.
- Acelerar el descubrimiento: Los LLM podrían agilizar el proceso de investigación al permitir pruebas rápidas de varios escenarios e hipótesis.
Conclusión
«Este estudio muestra que los modelos de lenguaje de gran tamaño (LLM) como GPT-4 podrían permitir una nueva clase de simuladores biomédicos», explica Matthias Samwald del Institute of Artificial Intelligence en la Medical University of Vienna. «Las simulaciones basadas en texto son particularmente adecuadas para modelar y comprender sistemas vivos, ya que el texto y el lenguaje proporcionan la flexibilidad y la interpretabilidad necesarias para describir la complejidad de la biología. Para el desarrollo posterior de simuladores biomédicos basados en LLM, proponemos varias direcciones, incluida la integración de bases de datos biológicas y modelización matemática, así como el entrenamiento de nuevos modelos de IA con datos experimentales.»
En este sentido, el estudio ofrece una visión de un futuro en el que los LLM revolucionarán la investigación biomédica. Las simulaciones basadas en texto impulsadas por los LLM son inmensamente prometedoras para comprender sistemas biológicos complejos, especialmente aquellos que desafían las simulaciones tradicionales basadas en la física.
Las principales conclusiones del estudio fueron:
- Simulaciones sorprendentemente efectivas: Incluso sin capacitación biomédica específica, GPT-4 logró resultados impresionantes en la simulación de escenarios biológicos del mundo real.
- El poder de los prompts: El estudio encontró que proporcionar instrucciones claras (indicaciones) mejoró significativamente la precisión de las simulaciones de LLM en comparación con los métodos tradicionales. Estas indicaciones guían al LLM a considerar el estado de evolución de la simulación, lo que lleva a resultados más realistas.
- Una hoja de ruta para el futuro: Los investigadores proponen diez interesantes vías para un mayor desarrollo. Entre las cuales se incluyen:
- Simulaciones interactivas: ¡Imagínese hacer preguntas de seguimiento o explorar escenarios hipotéticos dentro de la simulación!
- LLM más inteligentes: La capacidad de acceder a información externa, como artículos científicos, podría mejorar la precisión y reducir los errores en los resultados de los LLM.
- Matemáticas y programación integradas: Permitir que los LLM integren modelos matemáticos e incluso ejecuten código básico abriría las puertas a simulaciones más complejas.
- Modelos de autoverificación: La capacidad de los LLM de analizar críticamente sus propias simulaciones mejoraría aún más su confiabilidad.
- Integración multimodal: La incorporación de datos como imágenes médicas en simulaciones podría proporcionar una imagen más rica de los procesos biológicos.
- Ajuste con datos del mundo real: Capacitar a los LLM en datos biomédicos del mundo real podría mejorar significativamente la precisión de sus simulaciones.
- Bucle de retroalimentación del mundo real: El uso de los resultados de experimentos reales para refinar las simulaciones puede crear un poderoso ciclo de retroalimentación para predicciones aún más precisas.
En general, este estudio demuestra el inmenso potencial de los LLM para simular sistemas biológicos. Al continuar desarrollando estas herramientas de inteligencia artificial, los investigadores pueden desbloquear nuevas posibilidades para el descubrimiento científico y acelerar el progreso en biomedicina.
Contacto
Matthias Samwald
Medical University of Vienna, Institute of Artificial Intelligence, Center for Medical Data Science
Währingerstraße 25a, 1090, Vienna, Austria
Email: matthias.samwald@meduniwien.ac.at
Referencia (acceso abierto)
Schaefer, M., Reichl, S., Ter Horst, R., Nicolas, A. M., Krausgruber, T., Piras, F., Stepper, P., Bock, C., & Samwald, M. (2024). GPT-4 as a biomedical simulator. Computers in Biology and Medicine, 178, 108796. https://doi.org/10.1016/j.compbiomed.2024.108796