La reconnaissance vocale et son mentor : l'évaluation

M.-J. Caraty

LIP6 1999/011: Habilitation à diriger des recherches LIP6 / LIP6 research reports
67 pages - Avril/April 1999 - French document.

PostScript : 300 Ko /Kb

Contact : par mail / e-mail

Thème/Team: Apprentissage et Acquisition de Connaissances

Titre français : La reconnaissance vocale et son mentor : l'évaluation
Titre anglais : Vocal recognition and her mentor : the evaluation


Résumé : Les travaux présentés dans ce mémoire couvrent dix années de recherche post-doctorale, dans le traitement informatique de la parole, au LAFORIA (Laboratoire Formes et Intelligence Artificielle), devenu le Pôle IA (Intelligence Artificielle) du LIP6, le laboratoire d'Informatique de Paris 6.
Le titre du mémoire présente l'évaluation comme un guide sage et expérimenté pour la recherche en reconnaissance vocale. L'évaluation revient très naturellement au cours de la présentation des travaux dans ce mémoire. Parmi les différents modes d'évaluation identifiés (adéquation, diagnostic, quantitatif et qualitatif), un paradigme d'évaluation dérivé du 'quantitatif' s'est imposé en reconnaissance vocale. Le principe de ce paradigme peut se résumer par 'tâche commune, données communes, évaluation commune' ; c'est par des campagnes d'évaluation qu'il a permis d'accélérer le développement de la recherche et de la technologie vocale.
Les systèmes fondés sur la modélisation markovienne se sont peu à peu imposés comme les systèmes de l'état de l'art en reconnaissance vocale grand vocabulaire, indépendamment du locuteur. Pour un tel problème, la maîtrise de la technologie markovienne n'est pas simple. C'est à travers le développement de notre propre système de dictée vocale, des options choisies, et de notre expérience d'une campagne d'évaluation de tels systèmes, que sont décrits les travaux. D'autres études, relevant du 'qualitatif', sont présentées dans le cadre de systèmes hybrides fondés sur la modélisation markovienne. Le premier système se caractérise par son contrôle temporel dans les modèles de Markov cachés. Le second système utilise la règle de décision des K-plus proches voisins comme alternative à l'estimation gaussienne des probabilités d'émission.
C'est après ce que l'on peut considérer comme le 'must' de la reconnaissance vocale que les travaux les plus anciens et les plus récents sont présentés ; ils concernent l'espace de représentation et de décision du signal de parole. Les premiers travaux concernent la paramétrisation de la parole en formants et la conception d'une mesure de dissimilarité interspectrale à critères perceptifs, adaptée à cet espace de représentation, ainsi que les évaluations quantitatives et qualitatives dont ils ont fait l'objet. Une deuxième série de travaux, concernant le numérique-symbolique, présente l'intérêt d'avoir expérimenté l'apprentissage symbolique en reconnaissance de la parole. Des travaux sur la reconnaissance du locuteur s'intéresse à un problème dual de la reconnaissance de la parole. Enfin, les travaux les plus récents proposent, pour traiter la non-stationnarité du signal de parole, une extension d'un espace de représentation quelconque par une multi-résolution temporelle ; la multi-résolution, munie de la mesure d'inertie et du calcul de
centroïde, trouve de nombreuses applications en reconnaissance vocale.
En conclusion du mémoire, notre maîtrise des technologies vocales est illustrée dans un champs plus large que la reconnaissance vocale : celui de l'indexation de documents multimédia. Enfin, l'une des perspectives pose le problème de l'évolution des systèmes de dictée vocale et rejoint le Génie Logiciel par la nécessité de développer des composants logiciels réutilisables.

Abstract : The work presented in this document covers ten years of post-PhD research, in the field of computer speech processing at the Pattern Recognition and Artificial Intelligence Laboratory (LAFORIA), now a part of the Computer Science Laboratory of Pierre et Marie Curie University (LIP6).
The title of the document presents the evaluation as the mentor of speech recognition research. In this document, the evaluation is often taken into account. Among the various identified evaluation methodologies (adequation, diagnostic, quantitative, qualitative), a paradigm of evaluation related to quantitative is observed in speech recognition. The principle of this paradigm can be summarized as follows : 'common task, common data, common evaluation' ; from evaluation plans, the development of the research and the vocal technology has been sped up.
In high vocabulary and speaker independent speech recognition, the Hidden Markov Models (HMM) based systems are the systems of the state of the art. For such a problem, the control of the markovian technology is not easy. The studies are described through the development of our own vocal dictation system, our choices, and our experience of an evaluation plan.
Related to qualitative evaluation, other studies are presented in the field of HMM-based hybrid systems. The first one deals with the temporal control in the HMM-based systems. The second one uses the K-nearest neighbors decision rule as an alternative of the ouput probabilities gaussian estimation.
After the vocal recognition of the state of the art, the studies are presented from the earliest one to the most recent one. These studies concern the representation space and the decision process. The first work deals with the formant-based representation of speech, the conception of an adapted dissimilarity measure based on perceptual criteria and the quantitative/qualitative evaluations carried on. Another work on numeric-symbolic approach is a first experiment in applying symbolic learning to speech recognition. The studies on speaker recognition address a dual issue of speech recognition. At last, to deal with the non-stationarity of the speech signal, the most recent work proposes an extension of any representation space based on a temporal multi-resolution.
From inertia measure and centroid computation, many application are found in speech recognition. In the conclusion of the document, an application of our knowledge in vocal
technology is given in a field wider than the speech recognition one : information retrieval in multimedia documents. One of the perspectives addresses the problem of the evolution of the vocal dictation systems : a key is found in Soft Engineery with the necessity to develop reusable logicial components.


Mots-clés : reconnaissance de la parole/locuteur, modèles de Markov cachés, dictée vocale, espace de représentation, processus de décision, mesures de dissimilarité, critère de perception, numérique-symbolique, multi-résolution temporelle, indexation multimédia, évaluation

Key-words : speech/speaker recognition, hidden Markov models, vocal dictation, space representation, decision process, dissimilarity measures, perception criteria, numeric-symbolic, temporal multi-resolution, indexing multimedia, evaluation


Publications internes LIP6 1999 / LIP6 research reports 1999

Responsable Éditorial / Editor :Valerie.Mangin@lip6.fr