TRUONG Tuong Vinh

PhD student at Sorbonne University
Team : MALIRE
https://lip6.fr/Tuong-Vinh.Truong

Supervision : Patrick GALLINARI

Co-supervision : AMINI Massih-Reza

Apprentissage de fonctions d'ordonnancement avec peu de données étiquetées: une application au routage d'information, au résumé de textes et au filtrage collaboratif

La communauté d'apprentissage s'est récemment intéressée aux fonctions d'ordonnancement. Ces fonctions cherchent à comparer les entrées entre elles et à les retourner sous la forme d'une liste ordonnée. Cependant, l'apprentissage nécessite une grande base de données étiquetées, dont la création est en général coûteuse. Dans ce mémoire, nous avons cherché à réduire le nombre d’exemples étiquetés pour l’apprentissage des fonctions d’ordonnancement. Nous avons abordé cette problématique sous deux angles différents. En premier lieu, nous avons cherché à améliorer les performances en apprentissage supervisé en exploitant l’information contenue dans un grand nombre de données non étiquetées. Ce cadre est connu sous le terme d’apprentissage semi-supervisé. En deuxième lieu, nous avons considéré l’apprentissage actif, dont le but est de construire itérativement la base d’apprentissage. L’objectif est de sélectionner les meilleures entrées à étiqueter pour réduire au maximum le nombre de données étiquetées. Dans une première partie, nous présentons nos modèles en apprentissage semi-supervisé puis actif pour l’ordonnancement dit biparti. Nos modèles sont des extensions des méthodes SVM et de boosting. Nous nous sommes notamment intéressés à développer des modèles de faible complexité pour pouvoir traiter un grand nombre de données non–étiquetées. Dans une deuxième partie, nous considérons plusieurs applications de recherche en information touchées par notre problématique : le routage d’information, le résumé automatique de textes et le filtrage collaboratif. Cette partie permet de valider nos modèles et de montrer l’intérêt de l’ordonnancement pour le filtrage collaboratif.

Defence : 10/08/2009

Jury members :

Massih Réza AMINI, agent de recherche au CNRC
Patrick GALLINARI, professeur à l'Université Pierre et Marie Curie
Éric GAUSSIER, professeur à l’Université Joseph Fourier (rapporteur)
Yves GRANDVALET, chercheur CNRS à l'Université Technologique de Compiègne
François YVON, professeur à l'Université Paris Sud 11

Departure date : 01/13/2010

2005-2011 Publications