GAINON DE FORSAN DE GABRIAC Clara

doctorant à Sorbonne Université
Équipe : MLIA
https://lip6.fr/Clara.Gainon-de-Forsan-de-Gabriac

Direction de recherche : Patrick GALLINARI

Co-encadrement : GUIGUE Vincent

Traitement du langage naturel profond pour la modélisation d’utilisateurs

La dernière décennie a vu s’imposer le développement exponentiel des méthodes de Machine Learning (ML) et en particulier de Deep Learning (DL), aussi bien dans le monde académique qu’industriel. Ce succès peut s’expliquer par la capacité du DL à modéliser des entités toujours plus complexes. En particulier, les méthodes de Representation Learning (RL) se concentrent sur l’apprentissage de représentations latentes issues de données hétérogènes, à la fois versatiles et réutilisables, notamment en Natural Language Processing (NLP). En parallèle, le nombre grandissant de systèmes reposant sur des données utilisateurs (réseaux sociaux, systèmes de recommandation…) entraînent leur lot de défis. Cette thèse propose des méthodes tirant parti du pouvoir de représentation du NLP pour apprendre des représentations d’utilisateur riches et versatiles. Dans un premier temps, nous détaillons les travaux et domaines de recherche en lien avec cette thèse. Nous étudions la Recommandation, qui place de la représentation utilisateur au coeur de ses recherches depuis longtemps. Nous parlons ensuite des récentes avancées du NLP ainsi que des moyens de les appliquer de façon à tirer parti des textes écrits par les utilisateurs, pour enfin détailler les modèles génératifs, qui sont, à notre sens, une des formes les plus pures de RL. Dans un second temps, nous présentons un Système de Recommandation fondé sur la combinaison, d’une part, d’une méthode de représentation par factorisation matricielle traditionnelle, et d’autre part, d’un modèle d’analyse de sentiments. L’association de ces deux modules forme un modèle double entraîné à prédire des notes à partir des avis textuels laissés par les utilisateurs. Nos expériences montrent que, en plus d’améliorer les performances en « accuracy », ce modèle nous permet également de comprendre ce qui intéresse l’utilisateur chez un produit, en plus de fournir des explications concernant les suggestions émises par le modèle. Enfin, nous présentons une nouvelle tâche centrée sur la représentation d’utilisateur : l’apprentissage de profil professionnel. Les profils d’utilisateurs sont souvent composés de plusieurs champs et attributs de natures différentes, et notre thèse est que les textes écrits par les utilisateurs sont non seulement assez riches pour identifier un utilisateur de façon unique au sein d’un système donné, mais également pour prédire les autres attributs du profil. Nous proposons donc Résumé, un cadre de travail pour l’apprentissage et l’évaluation des profils professionnels sur différentes tâches, notamment la génération du prochain job.

Soutenance : 13/12/2021

Membres du jury :

Anne Boyer, Professeure, Université de Lorraine - LORIA [Rapporteur]
Julien Velcin, Professeur, Université Lyon 2-- ERIC Lab [Rapporteur]
Mohamed Chetouani, Professeur, Sorbonne Université -- ISIR
Alejandro Bellogín, Associate Professor, Universidad Autónoma de Madrid - IRG@UAM
Patrick Gallinari, Professeur, Sorbonne Université -- LIP6
Vincent Guigue, Maître de Conférence, Sorbonne Université - LIP6

Date de départ : 31/12/2021

Publications 2018-2021