Estimation de probabilité non-paramétrique pour la reconnaissance markovienne de la parole

F. Lefèvre

LIP6 2000/006: THÈSE de DOCTORAT de l'UNIVERSITÉ PARIS 6 LIP6 / LIP6 research reports
213 pages - Janvier/January 2000 - French document.

Get it : 1011 Ko /Kb

Contact : par mail / e-mail

Thème/Team: Apprentissage et Acquisition de Connaissances

Titre français : Estimation de probabilité non-paramétrique pour la reconnaissance markovienne de la parole
Titre anglais : Non-parametric probability estimation for the HMM-based recognition of speech


Résumé : Les modèles de Markov cachés sont à l'origine de la majorité des avancées récentes en reconnaissance de la parole continue. Ces modèles gèrent les distorsions temporelles du signal de parole en s'appuyant sur des densités de probabilité pour modéliser les distorsions en fréquence. Nous proposons d'améliorer leur performance à l'aide de l'estimateur de densité de probabilité des K plus proches voisins. Cet estimateur a une erreur d' estimation faible, proche de l'erreur optimale, et est discriminant par construction.
L'estimateur des K plus proches voisins est évalué comme opérateur de reconnaissance statique de spectres à court-terme de parole. Ses performances se révèlent supérieures à celles de l'estimateur de l'état de l 'art à base de sommes pondérées de gaussiennes. Les adaptations nécessaires à son intégration dans un système de reconnaissance markovien sont ensuite développées. Un protocole d'apprentissage optimal est développé à partir d' une version de l'algorithme EM dont nous montrons la convergence selon le critère du maximum de vraisemblance.
Cette étude a abouti à la construction d'un système markovien K plus proches voisins qui est évalué sur la base de données TIMIT. Ses performances sont comparées à celles d'un système markovien fondé sur l'estimateur gaussien. Deux approches permettant un apport de connaissance dans le système sont finalement traitées : l'introduction d'une information temporelle dans l' espace de représentation et l'adaptation des références.
Les performances du système markovien K plus proches voisins sont encourageantes. Des recherches complémentaires devront être menées afin de les élever au niveau de l'état de l'art. L'estimateur des K plus proches voisins présente en outre l'intérêt d'offrir une alternative à l'estimateur de l'état de l'art permettant ainsi, par comparaison, de mieux mettre en évidence l'influence réelle de l'estimateur de probabilité dans les systèmes de reconnaissance markoviens.

Abstract : The Hidden Markov Models (HMM) account for the most outstanding evolutions made during the last period in continuous speech recognition. The HMM model the speech temporal distortions assisted by probability density functions (pdf) for the modelling of the distortions in frequency. We propose to improve their performance by means of the K-Nearest Neighbours pdf estimator. This estimator presents a low estimation error (near the optimal lower bound) and is discriminative.
The K-NN estimator is evaluated as a speech short-term spectra recognition operator. Its performances are compared with those of the state-of-the-art estimator based on mixtures of gaussian functions. Thereafter, the adaptations involved by its integration in an HMM-based system are developed. An optimal training procedure is obtained from a new version of the EM algorithm which convergence we show according to the Maximum Likelihood criterion.
This study leads to the development of a K-NN HMM system which is evaluated on the TIMIT database and compared with a Gaussian HMM system. Afterward, two approaches are studied in order to incorporate knowledge in the system : the introduction of a temporal information in the representation space and the adaptation of the references.
The K-NN HMM system performances are encouraging. Further studies will be needed to reach the state-of-the-art performances. Besides, the K-NN estimator has the advantage to offer an alternative to the state-of-the-art estimator and thus will be very helpful for revealing, by comparison, the real influence of the pdfs in the HMM recognition systems.


Mots-clés : Reconnaissance de la parole continue, Modèles de Markov cachés, K-plus proches voisins, Algorithme EM

Key-words : Continuous speech recognition, Hidden Markov Model, K-nearest neighbors, EM algorithm


Publications internes LIP6 2000 / LIP6 research reports 2000

Responsable Éditorial / Editor :Valerie.Mangin@lip6.fr