Las evaluaciones abiertas de creatividad verbal se administran comúnmente en la investigación psicológica y en la práctica educativa para niños de educación primaria. Las respuestas de estas evaluaciones son calificadas por equipos de jueces; sin embargo, con frecuencia se presenta un desacuerdo para calificar las ideas originales.
En este contexto, un nuevo estudio ejecutado por investigadores de la University of Georgia, de la University of Denver y de la University of North Texas, tuvo como objetivo mejorar la forma en que evaluamos la creatividad de los niños a través de calificaciones humanas y mediante inteligencia artificial.
El equipo de investigadores de Mary Frances Early College of Education está desarrollando un sistema de inteligencia artificial que puede calificar con mayor precisión las respuestas abiertas en las evaluaciones de creatividad para estudiantes de primaria.
Los investigadores desarrollaron su modelo basado en la literatura científica existente, con la finalidad de informar la comprensión del campo de la variación del evaluador al codificar la originalidad de las respuestas de los niños a las evaluaciones de creatividad.
Ellos resumen las investigaciones existentes sobre los jueces humanos y la calidad de sus calificaciones de originalidad dentro de la literatura sobre creatividad, antes de postular varias fuentes potenciales adicionales de variación del evaluador que aún no han sido examinadas empíricamente en la literatura.
Evaluaciones de creatividad
“De la misma manera que los sistemas hospitalarios necesitan buenos datos sobre sus pacientes, los sistemas educativos necesitan datos realmente buenos sobre sus estudiantes para tomar decisiones efectivas”, dijo Denis Dumas, autor del estudio y profesor asociado de psicología educativa.
“Las evaluaciones de creatividad tienen relevancia política y curricular, y sin datos de evaluación, no podemos apoyar completamente la creatividad en las escuelas”.
Las evaluaciones de creatividad se usan comúnmente para identificar a los estudiantes dotados o talentosos que requieren recursos de instrucción adicionales para que las escuelas los atiendan adecuadamente.
Debido a que las calificaciones de las pruebas requieren mucho tiempo (la mayoría de las respuestas abiertas requieren la calificación de varios jueces humanos capacitados), no se usan tan ampliamente como sus contrapartes de matemáticas, lectura o coeficiente intelectual.
Sin embargo, al crear un sistema de inteligencia artificial, las evaluaciones de creatividad podrían convertirse en una herramienta más accesible para las escuelas.
Mejorar la funcionalidad de la IA
Para mejorar la funcionalidad de la inteligencia artificial, Dumas y sus colaboradores analizaron más de 10 000 respuestas individuales en una evaluación de creatividad de 30 minutos.
Los investigadores descubrieron que algunas categorías de estudiantes y algunos tipos de respuestas condujeron a calificaciones de creatividad menos consistentes entre los jueces.
Toda la información identificable de los estudiantes se eliminó de las evaluaciones y los jueces solo recibieron las respuestas de los estudiantes.
“Nuestros jueces no sabían quiénes eran los niños y no conocían su demografía específica”, manifestó Dumas.
“No hubo un sesgo explícito, pero algo en la forma en que algunos estudiantes respondieron hizo que nuestras respuestas fueran más difíciles de calificar de manera confiable para nuestro equipo”.
Calificación de las respuestas
A los jueces se les indicó que calificarán las respuestas entre 1 (la más poco original) y 5 (la más original), y era más probable que no estuvieran de acuerdo con las calificaciones cuando las respuestas mostraban menos originalidad o aquellas que provenían de niños más pequeños o estudiantes varones.
“Sospeché que habría más desacuerdo entre los calificadores en la parte superior de la escala de originalidad, pero descubrimos que debido a que los jueces buscaban la originalidad, era más probable que estuvieran de acuerdo cuando una respuesta era inusual, sorprendente e inteligentes”, destacó Dumas.
“Pero cuando una respuesta puntuó más bajo en la escala de originalidad, eso causó más desacuerdo”.
Por ejemplo, cuando se le preguntó por un uso sorprendente para un sombrero, un alumno de tercer grado sugirió “corta la parte de la sombra y se verá tonto”. Los juicios sobre esta respuesta variaron de 1 a 4, y el estudio destacó este ejemplo de cómo las respuestas de los estudiantes más jóvenes pueden ser más difíciles de calificar.
Algunos jueces vieron esto como poco original, ya que el sombrero sigue siendo un artículo portátil para ponerse en la cabeza. Otros, sin embargo, vieron la alteración de la apariencia de un sombrero como divertida, sorprendente y apropiada para la edad de un niño creativo de tercer grado.
También apareció una gama más amplia de puntajes con respuestas muy originales de estudiantes superdotados, con estudiantes LatinX identificados como aprendices del idioma inglés y con estudiantes asiáticos que tomaron más tiempo en las tareas.
Todos estos factores llevaron a más desacuerdos en las calificaciones.
“Los niños que son bilingües, van a escribir sus respuestas de manera diferente; sus respuestas son formuladas de manera diferente a las de un niño que es monolingüe”, dijo Dumar.
“Aunque muchos de nuestros lectores también eran bilingües, eso puede ser difícil de aplicar en el contexto de las calificaciones. Parecía que lo que encontrábamos una y otra vez era que los estudiantes que tenían más probabilidades de ser bilingües también eran más difíciles de calificar”.
Reducir la banda de error
Comprender dónde surgió el desacuerdo en las calificaciones ayuda a volver a entrenar el sistema de inteligencia artificial y hacerlo más preciso, dijo Dumas, lo que ayuda a reducir la banda de error en los resultados de la evaluación.
Estas bandas de error son estándar en las evaluaciones que se usan comúnmente en las escuelas, destacó Dumas, pero pueden ser más amplias en las evaluaciones de creatividad que, por ejemplo, en las pruebas de matemáticas o lectura.
Cuando más estrecha sea la banda, más confianza tendrán las escuelas al tomar decisiones basadas en los puntajes.
Según Dumas, el estudio es un paso hacia la mejora de la precisión y, por lo tanto, la confianza en estas evaluaciones.
“Lo que se evalúa en las escuelas tiende a ser aquello en lo que los maestros se enfocan en su instrucción. Entonces, los valores y prioridades de un sistema escolar se pueden observar en las evaluaciones que eligen”, indicó Dumas.
Conclusión
“Me encantaría poder incorporar una evaluación de la creatividad más en el conjunto de herramientas del psicólogo escolar y darles la opción de observar el potencial creativo en un niño pequeño e interpretarlo como una gran fortaleza”, finalizó el investigador.
El proyecto fue financiado por el U.S. Department of Education.
Contacto
Denis Dumas
Department of Educational Psychology, University of Georgia
624 Aderhold Hall, 110 Carlton St., Athens, GA, 30602.
E-mail: denis.dumas@uga.edu
Referencia (acceso abierto)
Dumas, D., Acar, S., Berthiaume, K., Organisciak, P., Eby, D., Grajzel, K., Vlaamster, T., Newman, M. and Carrera, M. (2023), What Makes Children’s Responses to Creativity Assessments Difficult to Judge Reliably?. J Creat Behav. https://doi.org/10.1002/jocb.588