Publications

Advanced search

Abstract

Joan-Andreu Sánchez. Estimación de gramáticas incontextuales probabilísticas y su aplicación en modelización del lenguaje. Universidad Politécnica de Valencia. 1999. Director: Dr. J.M. Benedí

En esta tesis se estudian las Gramáticas Incontextuales Probabilísticas y su aplicación en problemas de Modelización del Lenguaje. Dos son los grandes problemas que se va a considerar en este tipo de modelos: el aprendizaje de las funciones de probabilidad asociadas a las reglas, y su integración como modelo de interpretación en tareas complejas de Modelización del Lenguaje. En primer lugar, se plantea el interés de aplicar las Gramáticas Incontextuales Probabilísticas en problemas complejos de Reconocimiento Sintáctico de Formas, y se concretan los problemas que se van a estudiar en esta tesis. A continuación se presentan algunas definiciones sobre lenguajes y gramáticas probabilísticas en el marco de la Teoría de Lenguajes Formales, poniendo énfasis en las principales ventajas y restricciones de las Gramáticas Incontextuales Probabilísticas para los problemas que se pretende abordar. El primero de los problemas que se estudia es la estimación de las funciones de probabilidad asociadas a las reglas. Se presentan dos de los algoritmos clásicos de estimación de las GIP, el algoritmo Inside-Outside y el algoritmo basado en las cuentas de Viterbi, y se estudian las relaciones entre las funciones que optimizan ambos algoritmos. A continuación, se demuestran propiedades fundamentales de los modelos obtenidos por ambos algoritmos que ponen de manifiesto la validez de los algoritmos de estimación y de los propios modelos. Después se proponen nuevos algoritmos de estimación en los cuales se utiliza un subconjunto específico de derivaciones de cada cadena. Este subconjunto de derivaciones puede formarse a partir de las $k$ mejores derivaciones de cada cadena, o bien, a partir de información estructural definida sobre la muestra. Se estudian las características de los métodos de estimación así como las propiedades de los modelos obtenidos. Finalmente, los algoritmos propuestos se aplican al conjunto de datos del Penn Treebank para ilustrar su comportamiento en la práctica. Por último se aborda el problema de la interpretación e integración de las Gramáticas Incontextuales Probabilísticas en problemas de Modelización del Lenguaje. Se propone un nuevo algoritmo para computar la probabilidad de la mejor derivación que genera una subcadena inicial. A continuación se hace una propuesta de integración que combina modelos de $n$-gramas a nivel de palabras con una Gramática Incontextual Probabilística a nivel de categorías léxicas. La propuesta es estudiada de nuevo sobre el conjunto de datos delPenn Treebank.