Duración: 1 enero 2015 hasta 31 diciembre 2015
Financiado por: referencia SP20140796

Cada vez son más el número de organismos, tanto públicos como privados, que están llevando a cabo la digitalización de grandes cantidades de documentos manuscritos históricos. Sin embargo, estos documentos digitales son de escasa utilidad si no se anotan con contenido informativo. Para que sean realmente útiles necesitan ser transcritos, con el fin de proporcionar nuevas formas de indexación y consulta de los mismos. No obstante, la transcripción totalmente manual requiere expertos altamente cualificados, convirtiéndola en un proceso costoso y caro, por lo que no es una solución factible. Una alternativa viable que puede agilizar el proceso es la utilización de técnicas de transcripción asistida por computador recientemente desarrolladas. La entrada de estos sistemas basados en técnicas interactivas, es la imagen de la línea de texto a transcribir. Por lo tanto, para llevar a cabo la transcripción asistida de dichos documentos, es necesario segmentar las páginas en bloques de texto y dichos bloques en líneas. La segmentación en líneas es un cuello de botella en el proceso de transcripción, ya que es una tarea lenta y tediosa. Aunque se han estudiado varios métodos de llevar a cabo la segmentación de manera automática, dichos métodos no están libres de error. Por lo tanto, es el usuario quien, finalmente, debe corregir los errores cometidos por estos métodos. En este proyecto se pretenden estudiar y desarrollar técnicas innovadoras con las que construir soluciones interactivas de segmentación de documentos en líneas, e integrarlas con las técnicas de transcripción asistida existentes. El sistema resultante permitirá al usuario corregir tanto errores de segmentación como errores de transcripción y tendrá en cuenta dichas correcciones para proporcionar nuevas y mejores hipótesis, reduciendo así el esfuerzo humano necesario para obtener la transcripción correcta de los documentos.

Miembros