GPT-3 tiene el poder de transformar la investigación química

Milthon Lujan Monja

Updated on:

Científicos compararon GPT-3 en conjuntos de datos que abarcan el espacio químico desde moléculas, materiales y reacciones. Fuente: Jablonka et al., (2024); Nat Mach Intell.
Científicos compararon GPT-3 en conjuntos de datos que abarcan el espacio químico desde moléculas, materiales y reacciones. Fuente: Jablonka et al., (2024); Nat Mach Intell.

Imagínese explorar los vastos ámbitos de la química y la ciencia de los materiales no sólo a través de fórmulas y ecuaciones, sino también a través del poder del lenguaje natural.

La inteligencia artificial se está convirtiendo en una herramienta fundamental en la investigación química, ofreciendo métodos novedosos para abordar desafíos complejos con los que luchan los enfoques tradicionales. Un subtipo de inteligencia artificial que se ha utilizado cada vez más en química es el aprendizaje automático, que utiliza algoritmos y modelos estadísticos para tomar decisiones basadas en datos y realizar tareas para las que no ha sido programada explícitamente.

Sin embargo, para hacer predicciones fiables, el aprendizaje automático también exige grandes cantidades de datos, que no siempre están disponibles en la investigación química. Los pequeños conjuntos de datos químicos simplemente no proporcionan suficiente información para que estos algoritmos se entrenen, lo que limita su eficacia.

En un nuevo estudio, los científicos del equipo de Berend Smit en Ecole Polytechnique Federale de Lausanne (EPFL) han encontrado una solución en modelos de lenguaje grandes como GPT-3. Esos modelos están previamente entrenados en cantidades masivas de textos y son conocidos por sus amplias capacidades para comprender y generar textos similares a los humanos. GPT-3 forma la base de la inteligencia artificial más popular ChatGPT.

GPT3

El estudio, publicado en Nature Machine Intelligence, revela un enfoque novedoso que simplifica significativamente el análisis químico utilizando inteligencia artificial. Contrariamente al escepticismo inicial, el método no plantea directamente preguntas químicas sobre el GPT-3. «GPT-3 no ha visto la mayor parte de la literatura química, por lo que si le hacemos a ChatGPT una pregunta química, las respuestas generalmente se limitan a lo que se puede encontrar en Wikipedia«, dice Kevin Jablonka, investigador principal del estudio. «En lugar de eso, ajustamos GPT-3 con un pequeño conjunto de datos convertidos en preguntas y respuestas, creando un nuevo modelo capaz de proporcionar información química precisa».

Este proceso implica proporcionar a GPT-3 una lista seleccionada de preguntas y respuestas. «Por ejemplo, para las aleaciones de alta entropía, es importante saber si una aleación se presenta en una sola fase o tiene múltiples fases», dice Smit. «La lista seleccionada de preguntas y respuestas es del tipo: P=» ¿Es la fase única? A= “Sí/No”.

Y continúa: “En la literatura, hemos encontrado muchas aleaciones cuya respuesta se conoce, y utilizamos estos datos para ajustar GPT-3. Lo que obtenemos es un modelo de IA refinado que está entrenado para responder esta pregunta únicamente con un sí o un no”.

Resultados del estudio

En las pruebas, el modelo, entrenado con relativamente pocas preguntas y respuestas, respondió correctamente a más del 95% de problemas químicos muy diversos, superando a menudo la precisión de los modelos de aprendizaje automático de última generación. «La cuestión es que esto es tan fácil como hacer una búsqueda bibliográfica, lo que funciona para muchos problemas químicos», dice Smit.

READ  Nómada digital: gana dinero mientras viajas por el mundo

He aquí por qué este descubrimiento es tan emocionante:

  • Pequeños datos, grandes ideas: Tradicionalmente, el aprendizaje automático en química se ha visto obstaculizado por el tamaño limitado de los conjuntos de datos químicos. Este nuevo enfoque supera esta barrera aprovechando el vasto conocimiento de GPT-3 extraído de Internet.
  • Pregunte y el modelo responderá: No es necesaria una codificación compleja ni conocimientos especializados. Los investigadores pueden simplemente plantear preguntas en lenguaje natural a GPT-3, y este ofrece respuestas precisas sobre propiedades, síntesis y diseño de materiales. Imagínese preguntar: «¿Cuál es la forma más eficiente de crear un material con propiedades ópticas específicas?» y recibir una respuesta basada en datos.
  • Superación de las técnicas tradicionales: No se trata sólo de comodidad. El estudio reveló que GPT-3, cuando se ajusta, puede igualar o incluso superar los modelos de aprendizaje automático dedicados, especialmente para conjuntos de datos más pequeños. Esto abre posibilidades para una exploración y descubrimiento rápidos en áreas con datos limitados.
  • Diseño inverso simplificado: ¿Quieres diseñar un material con propiedades específicas? Simplemente «invierte» tu pregunta. En lugar de preguntar por las propiedades de un material, pregunta por el material que exhiba las propiedades deseadas. Esto abre las puertas a una vía completamente nueva de diseño de materiales específicos.
  • Democratizar el descubrimiento científico: la facilidad de uso y el impresionante rendimiento, especialmente con datos limitados, tienen el potencial de empoderar a los investigadores de todos los niveles. Cualquier persona con una mente curiosa y una pregunta puede aprovechar el vasto conocimiento. base de GPT-3, haciendo que la exploración científica sea más accesible y colaborativa.

Implicancias para la investigación científica

Uno de los aspectos más llamativos de este estudio es su sencillez y rapidez. Los modelos tradicionales de aprendizaje automático requieren meses para desarrollarse y exigen un amplio conocimiento. Por el contrario, el método desarrollado por Jablonka dura cinco minutos y no requiere ningún conocimiento.

READ  Por qué la tecnología educativa debe priorizar la investigación y la innovación del sur global

Las implicaciones del estudio son profundas. Introduce un método tan sencillo como realizar una búsqueda bibliográfica, aplicable a diversos problemas químicos. La capacidad de formular preguntas como «¿Es alto el rendimiento de un [químico] elaborado con esta [receta]?» y recibir respuestas precisas puede revolucionar la forma en que se planifica y lleva a cabo la investigación química.

Conclusión

En el artículo, los autores afirman: «Además de una búsqueda bibliográfica, consultar un modelo fundamental [por ejemplo, GPT-3,4] podría convertirse en una forma rutinaria de iniciar un proyecto aprovechando el conocimiento colectivo codificado en estos modelos fundamentales». O, como lo expresa sucintamente Smit, «Esto va a cambiar la forma en que hacemos química».

Si bien persisten desafíos, como garantizar el rigor científico y la interpretabilidad de los resultados, esta investigación marca un importante paso adelante. A medida que los científicos continúan desbloqueando el potencial de los grandes modelos de lenguaje en química y más allá, una cosa está clara: El futuro de la exploración científica está impulsado tanto por los datos como por el poder de las palabras.

Finalmente, si bien GPT-3 es impresionante, aún está en desarrollo. Evalúe siempre críticamente sus resultados y consulte con expertos para tareas complejas.

El estudio ha sido financiado por Swiss National Science Foundation, Grantham Foundation for the Protection of the Environment, RMI Third Derivative y Carl Zeiss Foundation.

Contacto
Berend Smit
Laboratory of Molecular Simulation (LSMO), Institut des Sciences et Ingénierie Chimiques
École Polytechnique Fédérale de Lausanne (EPFL), Sion, Switzerland
Email: berend.smit@epfl.ch

Referencia (acceso abierto)
Jablonka, K.M., Schwaller, P., Ortega-Guerrero, A. et al. Leveraging large language models for predictive chemistry. Nat Mach Intell (2024). https://doi.org/10.1038/s42256-023-00788-1

READ  Hoja de ruta mundial para la innovación alimentaria y agrícola

Nota: Elaborado con información de la nota de prensa de Ecole Polytechnique Federale de Lausanne (EPFL) y del artículo científico.