Publications

Advanced search

Abstract

David Llorens. Suavizado de autómatas y traductores finitos estocásticos. Universitat Politècnica de València. 2000. Advisor(s): Dr. J. M. Vilar and Dr. F. Casacuberta

Una parte fundamental de los sistemas de reconocimiento del habla es el modelo de lenguaje. Éste tiene la tarea de decidir lo aceptable que es una frase. En reconocimiento del habla, los modelos de lenguaje más habituales son los modelos de n-gramas, por tres razones: pueden aprenderse automáticamente a partir de ejemplos, existen multitud de técnicas de suavizado que resuelven (al menos parcialmente) el problema de disponer de un número insuficiente de muestras, y además, como modelos de estados finitos que son, se integran fácilmente en un sistema de reconocimiento. Actualmente, se conocen varias técnicas para aprender autómaticamente modelos de estados finitos más generales que los n-gramas. Sin embargo, debido a la falta de técnicas de suavizado, estos modelos se han relegado a aplicaciones muy específicas y con vocabularios pequeños. En esta tesis nos planteamos el problema del suavizado de modelos de estados fiitos (autómatas y traductores). La aproximación adoptada consiste en extender las técnicas de suavizado de n-gramas. Para ello, en primer lugar formalizamos el modelo de n-gramas suavizado como un autómata finito determinista estocástico (esta formalización nos permite obtener un nuevo tipo de suavizado de n-gramas). A continuación, presentamos dos algoritmos para el suavizado de autómatas: uno para suavizar con un n-grama y el otro para suavizar con otro autómata. Finalmente, extendemos los dos algoritmos anteriores para suavizar traductores tanto con n-gramas como con otros traductores.