Una nueva herramienta para la minería de texto promete extraer palabras claves de textos en cualquier lenguaje y sobre cualquier tema.
Esta herramienta se llama Yake! (Yet Another Keyword Extractor) y ha sido desarrollado por INESC TEC (Institute for Systems and Computer Engineering, Technology and Science), con sede en Portugal.
Sus desarrolladores afirman que la herramienta se puede utilizar en textos de cualquier tamaño, escritos en cualquier idioma y sobre cualquier tema.
¡Yake! utiliza estadísticas para comprender qué palabras son más relevantes en el texto, por lo que no necesita información de otros corpus de textos para saber qué palabras son más importantes, como suelen hacer los enfoques de aprendizaje automático.
¿Por qué necesitamos las palabras clave?
Las personas pueden tener una idea general de que la cantidad de datos que se producen todos los días es enorme. Pero, ¿realmente pueden imaginarse la cantidad de datos producidos en un minuto?
Por cada minuto de 2020, por ejemplo, los usuarios de Instagram compartieron 65000 fotos, los usuarios de Twitter publicaron 575000 tweets y Google realizó 5.7 millones de búsquedas. Según Siteefy, se crean al menos 175 nuevos sitios web y se estima que Amazon publica más de 7500 libros electrónicos Kindle por día.
Lo mismo sucede con los artículos de noticias: solo el Washington Post publica alrededor de 1200 historias por día.
“La necesidad por organizar y, lo más importante, procesar la información, se debe al alto volumen de datos que se producen todos los días. Una herramienta como Yake! es una valiosa ayuda en el proceso de extracción automática de información, mediante la obtención de un conjunto de palabras clave relevantes que caracterizan al texto. Hacer esto manualmente sería realmente imposible”, afirmó Ricardo Campos, co-desarrollador de Yake!.
Si eres estudiante, Yake! puede ayudarte a resumir textos o capítulos de libros que necesitas estudiar para tu próximo examen.
También puedes beneficiarte del uso de Yake! al encontrar una tendencia en artículos de noticias publicados sobre un tema específico (como por ejemplo el COVID-19) o incluso argumentos contradictorios sobre los discursos pronunciados por un político durante su mandato. Estos son solo algunos ejemplos de lo que esta herramienta podría hacer por ti, pero ¿por qué deberías usarla para extraer palabras clave?
Una nueva forma de ordenar la información mediante palabras clave
“Extraer palabras clave es un desafío particularmente complejo que presenta una relativamente baja efectividad/rendimiento. Yake! puede ayudar a cualquier persona a extraer palabras clave y ordenar información de manera fácil y rápida”, destacó Ricardo Campos.
Una de las razones por las que es tan rápido es el hecho de que no requiere un corpus de texto previo para funcionar correctamente, a diferencia de las soluciones de aprendizaje automático.
“En nuestro enfoque, detectamos palabras clave relevantes basadas en estadísticas extraídas de los documentos, en lugar de operar sobre una colección de documentos”, agregó.
Además, YAKE! funciona sobre la marcha, como una solución plug-and-play que puede ser usada en documentos de cualquier tamaño, idioma o tema.
La tecnología de Yake! está disponible de forma gratuita e incluye un sitio web donde se pueden extraer palabras clave de un texto o una página web, y una aplicación de Android disponible en Play Store. Para los desarrolladores, existe una API que permite la integración de la tecnología en otras herramientas.
El Índice General y otras aplicaciones
Yake! se ha empleado en múltiples proyectos hasta el momento, pero ninguno se acercó más al trabajo desarrollado para el Índice General.
Este proyecto tuvo como objetivo catalogar 107 millones de artículos científicos, para facilitar la búsqueda de la información que contienen.
La nueva base de datos de 38 terabytes se lanzó en octubre y es un índice gigante de 19 mil millones de palabras clave extraídas con el software Yake!.
La colección está disponible bajo una licencia de dominio público en Internet Archive, el archivo digital de preservación de contenido más grande del mundo. Sin embargo, esta herramienta se ha utilizado en muchos contextos diferentes para realizar diferentes tareas.
Las tareas incluyen resumir textos educativos para una mayor generación automática de preguntas de comprensión; la generación de preguntas aclaratorias en sistemas de respuesta a preguntas; la detección de palabras clave de tendencia en Twitter; uso de minería de texto en informes de accidentes; generar nubes de palabras para representar visualmente la opinión pública sobre el COVID-19 en las redes sociales, e incluso la generación de poesía persa a partir de corpus en prosa.
Recién integrada en la cartera de soluciones de código abierto de John Snow Labs, la biblioteca de procesamiento de lenguaje natural y minería de textos más utilizada en el ámbito empresarial, Yake! también es usada por la National Library of Finland, por Chartbeat Labs, entre otros.
El software ha sido citado o usado en más de 270 artículos, con más de 860 estrellas en Github y 141 forks, registra más de 1000 instalaciones en el sistema Android. En el 2018 fue premiado como “Best Short Paper” en la conferencia europea más importante sobre recuperación de información, la ECIR.
Además de Ricardo Campos, el equipo que desarrolló YAKE! está integrado por Alípio Jorge, Célia Nunes, Adam Jatowt, Vítor Mangaravite y Arian Pasquali.
Referencias
Campos, R., Mangaravite, V., Pasquali, A., Jorge, A., Nunes, C., & Jatowt, A. (2020). YAKE! Keyword extraction from single documents using multiple local features. Information Sciences, 509, 257–289. https://doi.org/10.1016/j.ins.2019.09.013
Campos R., Mangaravite V., Pasquali A., Jorge A.M., Nunes C., Jatowt A. (2018) A Text Feature Based Automatic Keyword Extraction Method for Single Documents. In: Pasi G., Piwowarski B., Azzopardi L., Hanbury A. (eds) Advances in Information Retrieval. ECIR 2018. Lecture Notes in Computer Science, vol 10772. Springer, Cham. https://doi.org/10.1007/978-3-319-76941-7_63
Campos R., Mangaravite V., Pasquali A., Jorge A.M., Nunes C., Jatowt A. (2018) YAKE! Collection-Independent Automatic Keyword Extractor. In: Pasi G., Piwowarski B., Azzopardi L., Hanbury A. (eds) Advances in Information Retrieval. ECIR 2018. Lecture Notes in Computer Science, vol 10772. Springer, Cham. https://doi.org/10.1007/978-3-319-76941-7_80