GISSELBRECHT Thibault
Direction de recherche : Patrick GALLINARI
Co-encadrement : LAMPRIER Sylvain
Diffusion d'informations dans les réseaux sociaux
Dans cette thèse, nous nous intéressons au problème de la collecte de données en temps réel dans les médias sociaux. En raison des différentes limitations imposées par ces médias, mais aussi de la quantité très importante de données, il n'est pas envisageable de collecter la totalité des données produites par des sites tels que Twitter. Par conséquent, pour être en mesure de récolter des informations pertinentes, relativement à un besoin prédéfini, il est nécessaire de se focaliser sur un sous-ensemble des données existantes. Dans ce travail, nous considérons chaque utilisateur d'un réseau social comme une source de données pouvant être écoutée à chaque itération d'un processus de collecte, en vue de capturer les données qu'elle produit. Ce processus, dont le but est de maximiser la qualité des informations récoltées, est contraint à chaque pas de temps par le nombre d'utilisateurs pouvant être écoutés simultanément. Le problème de sélection du sous-ensemble de comptes à écouter au fil du temps constitue un problème de décision séquentielle sous contraintes, que nous formalisons comme un problème de bandit avec sélections multiples. Dans cette optique, nous proposons plusieurs modèles visant à identifier en temps réel les utilisateurs les plus pertinents. Dans un premier temps, le cas du bandit dit stochastique, dans lequel chaque utilisateur est associé à une distribution de probabilité stationnaire, est étudié. Par la suite, nous étudions deux modèles de bandit contextuel, l'un stationnaire et l'autre non stationnaire, dans lesquels l'utilité de chaque utilisateur peut être estimée de façon plus efficace en supposant une certaine structure, permettant ainsi de mutualiser l'apprentissage. En particulier, la première approche introduit la notion de profil, qui correspond au comportement moyen de chaque utilisateur. La seconde approche prend en compte l'activité d'un utilisateur à un instant donné pour prédire son comportement futur. Pour finir, nous nous intéressons à des modèle permettant de prendre en compte des dépendances temporelles complexes entre les utilisateurs, grâce à des transitions entre états cachés du système d'une itération à la suivante. Chacune des approches proposées est validée sur des données artificielles et réelles.
Soutenance : 24/03/2017
Membres du jury :
M. Philippe Preux - Université de Lille 3 [Rapporteur]
M. Liva Ralaivola - Laboratoire d'Informatique de Marseille [Rapporteur]
Mme Michèle Sebag - CNRS
M. Olivier Sigaud - Université Pierre et Marie Curie
M. Sylvain Lamprier - Université Pierre et Marie Curie
M. Patrick Gallinari - Université Pierre et Marie Curie
Publications 2015-2019
-
2019
- S. Lamprier, Th. Gisselbrecht, P. Gallinari : “Contextual Bandits with Hidden Contexts: a Focused Data Capture From Social Media Streams”, Data Mining and Knowledge Discovery, 33, pp. 1853-1893, (Springer) (2019)
-
2018
- S. Lamprier, Th. Gisselbrecht, P. Gallinari : “Profile-Based Bandit with Unknown Profiles”, Journal of Machine Learning Research, vol. 19 (53), pp. 53:1-53:40, (Microtome Publishing) (2018)
-
2017
- Th. Gisselbrecht : “Diffusion d’informations dans les réseaux sociaux”, soutenance de thèse, soutenance 24/03/2017, direction de recherche Gallinari, Patrick, co-encadrement : Lamprier, Sylvain (2017)
- S. Lamprier, Th. Gisselbrecht, P. Gallinari : “Variational Thompson Sampling for Relational Recurrent Bandits”, Joint European Conference on Machine Learning and Knowledge Discovery in Databases - ECML/PKDD 2017, vol. 10535, Lecture Notes in Computer Science, Skopje, North Macedonia, pp. 405-421, (Springer) (2017)
-
2016
- Th. Gisselbrecht, S. Lamprier, P. Gallinari : “Dynamic Data Capture from Social Media Streams: A Contextual Bandit Approach.”, Tenth International Conference on Web and Social Media, ICWSM 2016, Cologne, Germany, pp. 130-139 (2016)
- Th. Gisselbrecht, S. Lamprier, P. Gallinari : “Bandit Contextuel pour la Capture de Données Temps Réel sur les Médias Sociaux”, Semaine du Document Numérique et de la Recherche d'Information (SDNRI 2016), Toulouse, France, pp. 57-72 (2016)
- Th. Gisselbrecht, S. Lamprier, P. Gallinari : “Linear Bandits in Unknown Environments”, ECML PKDD 2016 - European Conference on Machine Learning and Knowledge Discovery in Databases, vol. 9852, Lecture Notes in Computer Science, Riva Del Garda, Italy, pp. 282-298, (Springer) (2016)
-
2015
- Th. Gisselbrecht, S. Lamprier, P. Gallinari : “Policies for Contextual Bandit Problems with Count Payoffs.”, 27th IEEE International Conference on Tools with Artificial Intelligence, ICTAI 2015, Vietri Sul Mare, Italy, pp. 542-549, (IEEE) (2015)
- Th. Gisselbrecht, P. Gallinari, S. Lamprier, L. Denoyer : “WhichStreams: A Dynamic Approach for Focused Data Capture from Large Social Media”, Ninth International Conference on Web and Social Media, ICWSM 2015, Oxford, United Kingdom, pp. 130-139 (2015)
- Th. Gisselbrecht, L. Denoyer, P. Gallinari, S. Lamprier : “Apprentissage en temps réel pour la collecte d’information dans les réseaux sociaux.”, CORIA 2015 - Conférence en Recherche d'Infomations et Applications, Paris, France, pp. 7-22 (2015)
- Th. Gisselbrecht, L. Denoyer, P. Gallinari, S. Lamprier : “Apprentissage en temps réel pour la collecte d’information dans les réseaux sociaux”, Document numérique - Revue des sciences et technologies de l'information. Série Document numérique, vol. 18 (2-3), pp. 39-58, (Hermès) (2015)