Duración: 1 noviembre 2018 hasta 31 octubre 2020
Financiado por: referencia TIN2017‐91452‐EXP

En la actualidad existen grandes bases de datos de documentos científicos impresos digitalizados, muchos de los cuales incluyen expresiones matemáticas. La búsqueda de información textual en estos documentos es ya una posibilidad ampliamente explotada por los motores de búsqueda de la exploradores más utilizados. Sin embargo, la búsqueda mediante consultas en forma de expresiones matemáticas de documentos científicos impresos digitalizados en grandes colecciones es un campo apenas explorado. Los planteamientos que actualmente se han usado para abordar este problema se basan fundamentalmente en la búsqueda por similitud entre la imágenes lo cual es completamente inviable para búsqueda en colecciones masivas dado el elevado coste computacional de dichas aproximaciones.
En IBEM se propone estudiar el desarrollo de técnicas de indexación y búsqueda de expresiones matemáticas en grandes colecciones de imágenes digitalizadas. La preparación de los índices de búsqueda se realizará off-line mientras que la consulta de búsqueda se realizará con un expresión matemática adquirida on-line. Los modelos que permitirán construir los índices de la colección y los modelos que permitirán representarán la consulta se basarán en modelos estocásticos estructurales capaces de dar cuenta de la ambigüedad que puede surgir en el proceso de reconocimiento, debido a los problemas de segmentación y a la propia ambigüedad que puede existir en las expresiones matemáticas. IBEM plantea nuevos retos que no han sido estudiados con anterioridad y por tanto su viabilidad no está plenamente garantizada: preparación de índices que incluyan medidas de confianza, estructuras de datos en forma de árbol sintáctico para realizar búsquedas estructurales, aprendizaje automático discriminativo de modelos estructurales y desarrollo de un motor de búsqueda de expresiones matemáticas que permita su escalabilidad a datos masivos.
El equipo investigador de IBEM tiene mucha experiencia en todos los campos necesarios para llevar adelante este proyecto.

Miembros