Publications

Advanced search

Abstract

Daniel Ortiz-Martínez, Ismael García-Varea, Francisco Casacuberta. Estimación de Modelos de Traducción de Secuencias de Palabras a Partir de Corpus Muy Grandes Mediante Thot. IV Jornadas en Tecnologías del Habla (IVJTH'2006), 2006.

En el ámbito de la traducción automática estadística, los últimos tiempos se han caracterizado por la popularización de los modelos de traducción basados en secuencias de palabras, así como por la aparición de corpus bilingües más y más grandes como el bien conocido corpus Europarl. La coincidencia de estos dos acontecimientos ha planteado un problema importante debido a que los modelos de traducción basados en secuencias de palabras requieren un espacio de almacenamiento considerable cuando se estiman a partir de grandes corpus de entrenamiento. Para resolver este problema así como muchos otros relacionados con la estimación y la aplicación de modelos estadísticos de secuencias de palabras, se ha desarrollado la herramienta de libre uso denominada Thot, cuya funcionalidad básica se describe en este artículo. Adicionalmente, se incluyen experimentos de traducción para el corpus Europarl usando modelos de traducción generados con Thot y decodificadores basados en el estado del arte.