Publications

Advanced search

Abstract

Daniel Ortiz-Martínez, Ismael García-Varea, Francisco Casacuberta. Algunas soluciones al problema del escalado en traducción automática estadística. Campus Multidisciplinar en Percepción e Inteligencia (CMPI-06), 2006.

En este artículo se trata el problema de la estimación de modelos de secuencias a partir de corpus muy grandes, y su posterior aplicación en traducción automática estadística. La gran cantidad de pares de frases contenidos en corpus de reciente aparición como el bien conocido corpus sc Europarl, ha incrementado sobremanera los requerimientos de memoria a la hora de entrenar modelos de secuencias y aplicarlos más tarde en un proceso de búsqueda, haciendo inabordables estas tareas en determinados casos. En este artículo se proponen una serie de técnicas que permiten resolver estos problemas sin introducir sobrecargas temporales significativas. Las técnicas están basadas en el trabajo con cuentas en lugar de probabilidades, y en el concepto clásico de arquitecturas de memoria caché. Las explicaciones teóricas de las técnicas se acompañan de resultados empíricos.