LIP6 1998/016

  • Soutenance de thèse
    Combinaison de Classifieurs Statistiques, Application à la Prédiction de la Structure Secondaire des Protéines
  • Y. Guermeur
  • 164 pages - 29/04/1998- document en - http://www.lip6.fr/lip6/reports/1998/lip6.1998.016.ps.tar.gz - 503 Ko
  • Contact : Yann.Guermeur (at) nulllip6.fr
  • Ancien Thème : APA
  • La combinaison de modèles a permis ces dernières années des avancées significatives dans le domaine de l'apprentissage statistique, que ce soit en régression ou en reconnaissance des formes. Cependant, des questions essentielles sont demeurées pratiquement inexplorées. Ainsi, les critères gouvernant le choix d'une méthode particulière sont mal définis et l'effet de la combinaison en discrimination n'a pas été spécifiquement mis en évidence.
    Cette thèse porte sur l'une des techniques de combinaison les plus utilisées : la régression linéaire. Dans un premier temps, nous caractérisons l'effet régularisant de la méthode de "stacked regression" introduite par Breiman. Nous étudions ensuite l'application du modèle de régression linéaire multivariée au problème de la combinaison d'experts discriminants estimant les probabilités a posteriori des classes. Cette question est traitée successivement sous l'angle de l'optimisation puis du contrôle de la complexité. La capacité du modèle est mesurée au moyen de définitions généralisées de la dimension de Vapnik-Chervonenkis. L'étude se poursuit avec la présentation d'une méthode non paramétrique d'estimation de l'erreur de Bayes.
    Notre modèle de combinaison est évalué sur un problème ouvert en traitement de séquences biologiques : la prédiction de la structure secondaire des protéines globulaires. Pour réaliser cette tâche de discrimination, nous proposons une approche hiérarchique et modulaire dans laquelle la combinaison intervient à un niveau intermédiaire.
  • Mots clés : Combinaison de modèles, contrôle de la complexité, dimension de Vapnik-Chervonenkis, discrimination, estimation de l'erreur de Bayes, modèles hiérarchiques, prédiction de la structure secondaire des protéines, stacked regression, systèmes hybrides
  • Directeur de la publication : Valerie.Mangin (at) nulllip6.fr