NEL François

doctorant à Sorbonne Université
Équipe : MALIRE
https://fr.linkedin.com/in/françois-nel-5533aa49

Direction de recherche : Bernadette BOUCHON-MEUNIER

Co-encadrement : LESOT Marie-Jeanne

Suivi des mouvements informationnels : construction, modélisation et simulation de graphes de citations, application à la détection de buzz

La démocratisation du Web en tant que support de diffusion de l'information a considérablement modifié l'environnement médiatique. L'information est sujette à de nouveaux phénomènes ayant parfois des conséquences majeures sur des décisions politiques, stratégiques ou économiques. Ces phénomènes s'observent sous la forme de mouvements informationnels, dont l'étude fait l'objet de cette thèse. La démarche que nous avons retenue pour aborder l'étude des mouvements informationnels se base sur l'étude du graphe des citations entre sites d'information sur le Web. Nous la structurons selon trois axes principaux : la construction, l'analyse et la génération d'un graphe de citations, puis nous appliquons nos travaux à la problématique de la détection de buzz. Pour construire le graphe de citations, nous proposons une méthode de crawling adaptée à l'extraction de corpus de relations de citations entre sources Web. La stratégie choisie se base sur une extraction exhaustive des publications des sources et s'accompagne du nettoyage des pages afin d'en extraire les liens hypertextes utiles. L'analyse du graphe de citations consiste en une méthode de caractérisation des nœuds du graphe, considérés comme des sources d'information ayant des comportements distincts. Elle nous permet d'identifier quatre comportements de publication des sources à partir des données issues du Web, se distinguant principalement par la fréquence de publication, la diversité des sources citées et la capacité à exploiter les spécificités de publication sur le Web. En ce qui concerne la problématique de génération, et afin de mener à bien des expérimentations sur des corpus variés, l'objectif est de générer des graphes de citations réalistes, c'est-à-dire capables de reproduire les comportements de publication identifiés sur les données réelles. Ainsi, nous proposons un modèle de génération de graphes de citations suffisamment flexible et adaptable en imitant au mieux le processus de publication réel d'un article sur un site. Ce modèle est implémenté en un outil de simulation adapté à l'étude des phénomènes de diffusion informationnels. Enfin, nous proposons une mise en application de la méthode de génération ainsi que de l'outil de simulation dans le cadre d'une étude sur la détection de buzz. Pour ce faire, nous étudions le concept de buzz en proposant une définition sur laquelle nous basons plusieurs formalisations adaptées aux données disponibles. L'interprétation des expérimentations effectuées nous conduit à attribuer les méthodes de détection proposées à des cas d'application spécifiques selon la sémantique qui peut leur être attribuée.

Soutenance : 07/12/2011

Membres du jury :

Marie-Aude Aufaure, Professeur, MAS - Ecole Centrale Paris [rapporteur]
Djamel Zighed, Professeur, ERIC - Université Lumière Lyon 2 [rapporteur]
Bernd Amann, Professeur, LIP6 - UPMC - Sorbonne Universités
Bernadette Bouchon-Meunier, Directeur de recherche, LIP6 - UPMC - Sorbonne Universités
Thomas Delavallade, Ingénieur, Thales Communications
Marie-Jeanne Lesot, Maître de conférences, LIP6 - UPMC - Sorbonne Universités
Camille Roth, Chargé de recherche, CAMS - CNRS/EHESS

Date de départ : 30/09/2012

Publications 2008-2012