PESSIOT Jean-François
Direction de recherche : Patrick GALLINARI
Co-encadrement : AMINI Massih-Reza
Apprentissage Automatique pour l'Extraction de Caractéristiques. Application au partitionnement de documents, au résumé automatique et au filtrage collaboratif
L'apprentissage statistique définit des concepts et des algorithmes permettant d'apprendre à partir des données, dans le but de faire des prédictions. Pour obtenir de bonnes performances en prédiction, le choix de la représentation des données est crucial, et a motivé le développement de méthodes permettant de modifier la représentation initiale des données. L'accès à l'information regroupe de nombreux domaines d'application pour l'apprentissage statistique, et en général, le choix de la représentation de l'information est un problème difficile.
Dans cette thèse, nous étudions la problématique du choix de la représentation des données au travers de l'extraction de caractéristiques. Nous proposons d'abord un cadre formel pour l'extraction de caractéristiques, qui nous permet de distinguer trois principaux cadres d'extraction. Puis dans le cadre de
l'extraction non supervisée, nous proposons deux modèles pour le cas particulier des données textuelles. Nous validons nos modèles sur deux tâches en recherche d'information : le clustering de documents et le résumé automatique de texte.
Nous proposons également un cadre de travail unifié pour étudier le problème nouveau de l'extraction de caractéristiques multi-tâches. Ce cadre nous permet de proposer des algorithmes d'apprentissage pour la régression multi-tâches et pour l'ordonnancement d'instances multi-tâches. Nous appliquons nos deux modèles au filtrage collaboratif, d'abord vu comme un problème de prédiction de notes,
puis comme un problème de prédiction d'ordre. Cette deuxième formulation est nouvelle et ouvre la voie à de nouveaux types de systèmes de recommandation.
Soutenance : 30/06/2008
Membres du jury :
Massih-Reza AMINI Maître de Conférences à l’Université Pierre et Marie Curie [Directeur]
Stéphane CANU Professeur à l’INSA de Rouen [Rapporteur]
Patrick GALLINARI Professeur à l’Université Pierre et Marie Curie [Directeur]
Éric GAUSSIER Professeur à l’Université Joseph Fourier [Rapporteur]
Franck LE OUAY Directeur Scientifique de la société Criteo [Examinateur]
Patrice PERNY Professeur à l’Université Pierre et Marie Curie [Examinateur]
Publications 2004-2010
-
2010
- J.‑F. Pessiot, Y.‑M. Kim, M.‑R. Amini, P. Gallinari : “Improving Document Clustering in a Learned Concept Space”, Information Processing and Management, vol. 46 (2), pp. 180-192, (Elsevier) (2010)
- Y.‑M. Kim, J.‑F. Pessiot, M.‑R. Amini, P. Gallinari : “Apprentissage d’un Espace de Concepts de Mots pour une Nouvelle Représentation des Données Textuelles”, Document numérique - Revue des sciences et technologies de l'information. Série Document numérique, vol. 13 (1), pp. 63-82, (Hermès) (2010)
-
2009
- Y.‑M. Kim, J.‑F. Pessiot, M.‑R. Amini, P. Gallinari : “Une extension du modèle sémantique latent probabiliste pour le partitionnement non-supervisé de documents textuels”, Conférence d'apprentissage, CAP 2009, Hammamet, Tunisia (2009)
-
2008
- J.‑F. Pessiot : “Apprentissage Automatique pour l’Extraction de Caractéristiques. Application au partitionnement de documents, au résumé automatique et au filtrage collaboratif”, soutenance de thèse, soutenance 30/06/2008, direction de recherche Gallinari, Patrick, co-encadrement : Amini, Massih-Reza (2008)
- Y.‑M. Kim, J.‑F. Pessiot, M.‑R. Amini, P. Gallinari : “An Extension of PLSA for Document Clustering”, 17th ACM Conference on Information and Knowledge Management (CIKM 2008), Napa Valley, CA, United States, pp. 1345-1346, (ACM) (2008)
- Y.‑M. Kim, J.‑F. Pessiot, M.‑R. Amini, P. Gallinari : “Apprentissage d’un espace de concepts de mots pour une nouvelle représentation des données textuelles”, COnférence en Recherche d'Information et Applications (CORIA 2008), Trégastel, France, pp. 119-134 (2008)
- J.‑F. Pessiot, Y.‑M. Kim, M.‑R. Amini, N. Usunier, P. Gallinari : “Une méthode contextuelle d’extension de requête avec des groupements de mots pour le résumé automatique”, Conference en Recherche d'information et Applications, CORIA 2008, Trégastel, France, pp. 289-304 (2008)
-
2007
- J.‑F. Pessiot, T. Truong, N. Usunier, M.‑R. Amini, P. Gallinari : “Learning to Rank for Collaborative Filtering”, International Conference on Enterprise Information Systems (ICEIS), Madeira, Portugal, pp. 145-151 (2007)
- J.‑F. Pessiot, T. Truong, N. Usunier, M.‑R. Amini, P. Gallinari : “Filtrage Collaboratif avec un Algorithme d’Ordonnancement”, Conférence en Recherche d'Information et Applications (CORIA), Saint-Etienne, France, pp. 165-180, (Université de Saint-Etiennes) (2007)
-
2006
- J.‑F. Pessiot, T. Truong, N. Usunier, M.‑R. Amini, P. Gallinari : “Factorisation en Matrices Non-Négatives pour le Filtrage Collaboratif”, 3eme Conference en Recherche d'Information et Applications (CORIA'06), Lyon, France, pp. 315-326 (2006)
-
2004
- M. Caillet, J.‑F. Pessiot, M.‑R. Amini, P. Gallinari : “Unsupervised Learning with Term Clustering for Thematic Segmentation of Texts”, 7e Conférence sur la Recherche d'Information Assistée par Ordinateur (RIAO'04), Avignon, France, pp. 648-656 (2004)
- J.‑F. Pessiot, M. Caillet, M.‑R. Amini, P. Gallinari : “Apprentissage non-supervisé pour la segmentation automatique de textes”, Première Conférence en Recherche d'Information et Applications (CORIA'04), Toulouse, France, pp. 213-228 (2004)