NOTICIAS

Avances en el desarrollo de la plataforma de traducción automática híbrida

22.10.2018

El desarrollo de una plataforma de traducción automática híbrida alcanza su primer gran avance. Su objetivo es la concepción y creación de software avanzado para los procesos de traducción automática mediante el desarrollo de técnicas de hibridación sobre un núcleo de traducción basado en redes neuronales (Neural Machine Translation, NMT), que proporcionen valor añadido tanto a usuarios profesionales como al cliente final. Este proyecto se está llevando a cabo por el grupo de Traducción Automática del Centro PRHLT en colaboración con la empresa Pangeanic, y está integrado dentro del HYBRID NEURAL MACHINE TRANSLATION PLATFORM que cuenta con el apoyo financiero de CDTI y la Unión Europea a través del Programa Operativo de Crecimiento Inteligente (Nº EXPEDIENTE: IDI-20170964).

Traducción automática neuronal

La traducción automática neuronal se ha convertido en el estado del arte en los últimos años, como se refleja en el creciente aumento de publicaciones al respecto. Las grandes ventajas de estos sistemas es que permiten analizar el contexto a nivel de frase –al contrario que sucedía en los sistemas de traducción automática estadísticos, cuyo contexto se limitaba a una ventana de entre 5 y 7 palabras–. Además, todos los componentes del sistema se entrenan a la vez, lo que permite un aumento en la calidad de la traducción. Grandes empresas como Google1 y Microsoft2 están interesadas en estos sistemas y afirman que están obteniendo resultados de traducción automática semejantes a los de la traducción humana.

Debido a la novedad que suponen los sistemas neuronales –cuya arquitectura es radicalmente distinta a la de los sistemas estadísticos–, es necesario volver a investigar todas las funcionalidades existentes en los sistemas de traducción automática estadística. Esta tarea no es trivial, sino que requiere un estudio profundo y la comprensión de los modelos de entrenamiento, así como la cantidad necesaria de datos y ejemplos para el entrenamiento.

Estado actual del proyecto

Durante la primera parte del proyecto, se han desarrollado procedimientos de preprocesos y postprocesos –independientes de la arquitectura neuronal–, los cuales fueron diseñados para los sistemas estadísticos y que podrían funcionar correctamente en sistemas neuronales. También se ha desarrollado un algoritmo que combina métodos de alineación existentes, con el fin de poder colocar etiquetas en la traducción. De esta manera, se logra traducir un texto de manera automática sin perder información de su formato. Por último, se han seleccionado el conjunto de herramientas a utilizar en el proyecto y lo datos específicos para entrenar cada dominio; y se ha creado el diseño específico del proyecto, utilizando el modelo estándar principal: redes neuronales recurrente bidireccionales secuencia a secuencia.

Tras probar distintas herramientas para la creación de sistemas de traducción neuronal, se tomó la decisión de usar OpenNMT. Esta plataforma ofrece la ventaja de ser de código abierto, posee múltiples funcionalidades, y una documentación completa. Además, cuenta con el apoyo de Harvard y Systran, y una amplia comunidad de usuarios.

Una vez decantados por OpenNMT, realizamos una amplia experimentación para estudiar los parámetros y la arquitectura de red necesaria conforme a la cantidad de datos que disponemos.

Publicaciones futuras

Actualmente tenemos en proceso de revisión un artículo que recopila el estudio realizado del impacto de la tokenización en la calidad de la traducción final. Tenemos también previsto la elaboración de varios artículos que recojan las investigaciones llevadas a cabo durante esta segunda parte del proyecto, a fin de ser enviados a congresos y seminarios de alta relevancia que se celebrarán durante el 2019. Por último, prepararemos demostraciones de la plataforma a desarrollar a lo largo del proyecto, en los congresos de mayor relevancia que se celebrarán el próximo año.

Proyecto CDTI de la plataforma de traducción neuronal híbrida.

Más información.

1Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., Krikun, M., Cao, Y., Gao, Q., Macherey, K., et al. (2016). Google’s neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144.

2Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, Mu Li, Shujie Liu, Tie-Yan Liu, Renqian Luo, Arul Menezes, Tao Qin, Frank Seide, Xu Ta, Fei Tian, Lijun Wu, Shuangzhi Wu, Yingce Xia, Dongdong Zhang, Zhirui Zhang, Ming Zhou (2018). Achieving Human Parity on Automatic Chinese to English News Translation. arXiv preprint arXiv 1803.05567.