TRUONG Tuong Vinh
Supervision : Patrick GALLINARI
Co-supervision : AMINI Massih-Reza
Apprentissage de fonctions d'ordonnancement avec peu de données étiquetées: une application au routage d'information, au résumé de textes et au filtrage collaboratif
La communauté d'apprentissage s'est récemment intéressée aux fonctions d'ordonnancement. Ces fonctions cherchent à comparer les entrées entre elles et à les retourner sous la forme d'une liste ordonnée. Cependant, l'apprentissage nécessite une grande base de données étiquetées, dont la création est en général coûteuse. Dans ce mémoire, nous avons cherché à réduire le nombre d’exemples étiquetés pour l’apprentissage des fonctions d’ordonnancement. Nous avons abordé cette problématique sous deux angles différents. En premier lieu, nous avons cherché à améliorer les performances en apprentissage supervisé en exploitant l’information contenue dans un grand nombre de données non étiquetées. Ce cadre est connu sous le terme d’apprentissage semi-supervisé. En deuxième lieu, nous avons considéré l’apprentissage actif, dont le but est de construire itérativement la base d’apprentissage. L’objectif est de sélectionner les meilleures entrées à étiqueter pour réduire au maximum le nombre de données étiquetées. Dans une première partie, nous présentons nos modèles en apprentissage semi-supervisé puis actif pour l’ordonnancement dit biparti. Nos modèles sont des extensions des méthodes SVM et de boosting. Nous nous sommes notamment intéressés à développer des modèles de faible complexité pour pouvoir traiter un grand nombre de données non–étiquetées. Dans une deuxième partie, nous considérons plusieurs applications de recherche en information touchées par notre problématique : le routage d’information, le résumé automatique de textes et le filtrage collaboratif. Cette partie permet de valider nos modèles et de montrer l’intérêt de l’ordonnancement pour le filtrage collaboratif.
Defence : 10/08/2009
Jury members :
Massih Réza AMINI, agent de recherche au CNRC
Patrick GALLINARI, professeur à l'Université Pierre et Marie Curie
Éric GAUSSIER, professeur à l’Université Joseph Fourier (rapporteur)
Yves GRANDVALET, chercheur CNRS à l'Université Technologique de Compiègne
François YVON, professeur à l'Université Paris Sud 11
2005-2011 Publications
-
2011
- T. Truong, D. Buffoni, N. Usunier, M.‑R. Amini, P. Gallinari : “Modèles d’Ordonnancement pour le RĂ©sumĂ© Automatique et la Recherche d’Information”, chapitre de Modèles Statistiques pour l'Accès Ă l'Information Textuelle, pp. 19-42, (Hermès-Lavoisier), (ISBN: 2746224976) (2011)
-
2009
- T. Truong : “Apprentissage de fonctions d’ordonnancement avec peu de donnĂ©es Ă©tiquetĂ©es: une application au routage d’information, au rĂ©sumĂ© de textes et au filtrage collaboratif”, thesis, phd defence 10/08/2009, supervision Gallinari, Patrick, co-supervision : Amini, Massih-Reza (2009)
- T. Truong, M.‑R. Amini, P. Gallinari : “Apprentissage de fonctions d’ordonnancement avec un flux de donnĂ©es non-Ă©tiquetĂ©es”, Conference d'Apprentissage, CAP 2009, Hammamet, Tunisia (2009)
- T. Truong, M.‑R. Amini, P. Gallinari : “A self-training method for learning to rank with unlabeled data”, European Symposium on Artificial Neural Networks (ESANN 2009), Bruges, Belgium, pp. 17-22 (2009)
-
2008
- M.‑R. Amini, T. Truong, C. Goutte : “A Boosting Algorithm for Learning Bipartite Ranking Functions with Partially Labeled Data”, 31st International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2008), Singapore, Singapore, pp. 99-106, (ACM) (2008)
- T. Truong, M.‑R. Amini, P. Gallinari : “Apprentissage de Fonctions d’Ordonnancement Semi-SupervisĂ© Inductives”, Conference d'Apprentissage, CAP 2008, Porquerolles, France (2008)
-
2007
- J.‑F. Pessiot, T. Truong, N. Usunier, M.‑R. Amini, P. Gallinari : “Learning to Rank for Collaborative Filtering”, International Conference on Enterprise Information Systems (ICEIS), Madeira, Portugal, pp. 145-151 (2007)
- J.‑F. Pessiot, T. Truong, N. Usunier, M.‑R. Amini, P. Gallinari : “Filtrage Collaboratif avec un Algorithme d’Ordonnancement”, ConfĂ©rence en Recherche d'Information et Applications (CORIA), Saint-Etienne, France, pp. 165-180, (UniversitĂ© de Saint-Etiennes) (2007)
- T. Truong, M.‑R. Amini : “Apprentissage semi-supervisĂ© de fonctions d’ordonnancement”, Extraction et Gestion des Connaissances (EGC), vol. RNTI-E-9, RNTI, Namur, Belgium, pp. 497-507 (2007)
-
2006
- T. Truong, M.‑R. Amini, P. Gallinari : “Learning to Rank with Partially Labeled Training Data”, 1st International Conference on Multidisciplinary Information Sciences and Technologies, Merida, Spain, pp. 64-74 (2006)
- J.‑F. Pessiot, T. Truong, N. Usunier, M.‑R. Amini, P. Gallinari : “Factorisation en Matrices Non-NĂ©gatives pour le Filtrage Collaboratif”, 3eme Conference en Recherche d'Information et Applications (CORIA'06), Lyon, France, pp. 315-326 (2006)
-
2005
- N. Usunier, T. Truong, M.‑R. Amini, P. Gallinari : “Ranking with Unlabeled Data: A First Study”, NIPS'05 Workshop on Learning to Rank (NIPS'05-LR), Whistler, BC, Canada, pp. 24-28 (2005)