GISSELBRECHT Thibault

doctorant à Sorbonne Université
Équipe : MLIA
https://lip6.fr/Thibault.Gisselbrecht

Direction de recherche : Patrick GALLINARI

Co-encadrement : LAMPRIER Sylvain

Diffusion d'informations dans les réseaux sociaux

Dans cette thèse, nous nous intéressons au problème de la collecte de données en temps réel dans les médias sociaux. En raison des différentes limitations imposées par ces médias, mais aussi de la quantité très importante de données, il n'est pas envisageable de collecter la totalité des données produites par des sites tels que Twitter. Par conséquent, pour être en mesure de récolter des informations pertinentes, relativement à un besoin prédéfini, il est nécessaire de se focaliser sur un sous-ensemble des données existantes. Dans ce travail, nous considérons chaque utilisateur d'un réseau social comme une source de données pouvant être écoutée à chaque itération d'un processus de collecte, en vue de capturer les données qu'elle produit. Ce processus, dont le but est de maximiser la qualité des informations récoltées, est contraint à chaque pas de temps par le nombre d'utilisateurs pouvant être écoutés simultanément. Le problème de sélection du sous-ensemble de comptes à écouter au fil du temps constitue un problème de décision séquentielle sous contraintes, que nous formalisons comme un problème de bandit avec sélections multiples. Dans cette optique, nous proposons plusieurs modèles visant à identifier en temps réel les utilisateurs les plus pertinents. Dans un premier temps, le cas du bandit dit stochastique, dans lequel chaque utilisateur est associé à une distribution de probabilité stationnaire, est étudié. Par la suite, nous étudions deux modèles de bandit contextuel, l'un stationnaire et l'autre non stationnaire, dans lesquels l'utilité de chaque utilisateur peut être estimée de façon plus efficace en supposant une certaine structure, permettant ainsi de mutualiser l'apprentissage. En particulier, la première approche introduit la notion de profil, qui correspond au comportement moyen de chaque utilisateur. La seconde approche prend en compte l'activité d'un utilisateur à un instant donné pour prédire son comportement futur. Pour finir, nous nous intéressons à des modèle permettant de prendre en compte des dépendances temporelles complexes entre les utilisateurs, grâce à des transitions entre états cachés du système d'une itération à la suivante. Chacune des approches proposées est validée sur des données artificielles et réelles.

Soutenance : 24/03/2017

Membres du jury :

M. Philippe Preux - Université de Lille 3 [Rapporteur]
M. Liva Ralaivola - Laboratoire d'Informatique de Marseille [Rapporteur]
Mme Michèle Sebag - CNRS
M. Olivier Sigaud - Université Pierre et Marie Curie
M. Sylvain Lamprier - Université Pierre et Marie Curie
M. Patrick Gallinari - Université Pierre et Marie Curie

Date de départ : 30/03/2017

Publications 2015-2019