TRINH Anh Phuc

doctorant à Sorbonne Université
Équipe : MALIRE
https://lip6.fr/Anh-Phuc.Trinh

Direction de recherche : Patrick GALLINARI

Classifieur probabiliste et Séparateur à Vaste Marge. Application à la classification de texte et à l'étiquetage d'image

Cette thèse propose des estimateurs de probabilités a posteriori pour des Séparateur à Vaste Marge. Elle comporte une partie théorique et une partie expérimentale. La première contribution que nous présentons dans cette thèse est d’introduire un classifieur probabiliste basé sur des SVM pour la classification multi-classes. L’approche que nous utilisons est l’approche 1 contre 1, où pour un problème à k classes k(k - 1)/2 classifieurs sont entrainés. Les sorties binaires de ces classifieurs forment un espace de votes dans lequel sera prise la décision de classe. Nous introduisons un espace de vote enrichi qui permet de prendre en compte des relations entre l’ensemble des classes du problème et proposons une méthode pour apprendre à partir de cet espace binaire à estimer les probabilités a posteriori des classes. La seconde contribution concerne le problème de la classification multi-étiquettes et la prise en compte de dépendances entre étiquettes. La prédiction de sorties structurées a été ces dernières années un domaine extrêmement actif et de nombreux modèles basés sur des extensions des SVMs ou des modèles graphiques on été proposés. Nombre de ces modèles ont une complexité qui empêche toute application sur des données réelles. Nous introduisons un classifieur multi-étiquettes basé sur un formalisme de modèle graphique non dirigé. Nous proposons une méthode d’inférence approchée de complexité limitée qui permet une utilisation pratique de ces méthodes. Nous incorporons dans ce modèle les classifieurs probabilistes mentionnés plus haut pour estimer les probabilités nécessaires au calcul d’inférence. La troisième contribution est la validation expérimentale de ces idées et algorithmes. Une première application nous permet de tester notre classifieur probabiliste multi-classes. Il s’agit du Défi DEFT 1 qui est une compétition française sur la classification de textes. Les données sur lesquelles nous avons travaillé traitent de classification en thème et en genre de corpus journalistiques. La seconde application que nous avons traitée porte sur l’étiquetage d’images en utilisant une information de dépendance entre les étiquettes. Elle correspond à une tâche proposée dans la compétition internationale ImageCLEF08 2. Nous proposons un modèle graphique adapté à cette tâche qui nous permet de valider ce modèle multi-étiquettes.

Soutenance : 17/02/2012

Membres du jury :

Thierry Paquet, Professeur, Université de Rouen [Rapporteur]
Sylvie Thiria, Professeur, Université Versailles Saint Quentin en Yvelines [Rapporteur]
Patrick Gallinari, Professeur, Université Pierre et Marie Curie
Thierry Artières, Professeur, Université Pierre et Marie Curie




Date de départ : 30/09/2012

Publications 2008-2012