Publications

Advanced search

Abstract

Joan Albert Silvestre Cerdà, Mercedes García-Martínez, Alberto Barrón-Cedeño, Jorge Civera, Paolo Rosso. Extracción de corpus paralelos de la Wikipedia basada en la obtención de alineamientos bilingües a nivel de frase. Proceedings of the Workshop on Iberian Cross-Language Natural Language Processing Tasks (ICL 2011), 2011. pp. 14-21. CEUR-WS.

Este artículo presenta una nueva técnica de extracción de corpus paralelos de la Wikipedia mediante la aplicación de técnicas de traducción automática estadística. En concreto, se han utilizado los modelos de alineamiento basados en palabras de IBM para obtener alineamientos bilingües a nivel de frase entre pares de documentos. Para su evaluación se ha generado manualmente un conjunto de test formado por pares de documentos inglés-español, obteniéndose resultados prometedores.