RAFRAFI Abdelhalim

doctorant à Sorbonne Université
Équipe : MLIA
https://fr.linkedin.com/in/abdelhalimrafrafi

Direction de recherche : Patrick GALLINARI

Co-encadrement : GUIGUE Vincent

Classification de sentiments sur le Web 2.0

Internet est une source d'informations au quotidien, depuis quelques années Internet est également une vitrine géante de tous les produits de la vie courante à travers les sites de e-commerce. L'avènement du web participatif dans les années 2000, souvent appelé web2.0, a fait d'Internet un support d'échange et de débat pour tout un chacun. Le dynamisme de ces nouveaux modes d'expression engendre une masse considérable d'informations, provoquant une surcharge pour l'utilisateur moyen textit{"On dirait que le trop-plein d'informations finit par produire un sentiment de vide." Jean-Pierre April}. Nous avons donc besoin d'outils de filtrage et d'analyse automatique pour faciliter l'accès des utilisateurs aux masses de données. Dans ce contexte général, nous nous sommes focalisés sur l'étude des systèmes d'analyse de sentiments et en particulier sur les algorithmes de classification.
Les algorithmes classiques de catégorisation des données textuelles (SVM, NB, PLSA, LDA, ...) montrent plusieurs limitations pour l'analyse des sentiments. En effet, cette tâche est particulière et requiert de dépasser la simple modélisation des champs lexicaux: il est nécessaire de décrire la structure des phrases pour comprendre le message exprimé. Cependant, l'analyse détaillée des textes (à travers des représentions ou des algorithmes plus complexes) engendre naturellement des difficultés computationnelles qui compliquent le passage à l'échelle des approches. Le second défi consiste à optimiser des classifieurs dans de vastes espaces fonctionnels (pour décrire efficacement les sentiments) tout en préservant un pouvoir de généralisation suffisant pour traiter des documents liés à divers sujets et provenant de différents médias (twitter, blogs, revues...).
Nous avons travaillé dans plusieurs directions pour concilier ces objectifs antagonistes. Dans un premier temps, nous nous sommes focalisés sur l'adaptation des mécanismes de régularisation et de sélection de caractéristiques pour la classification de sentiments. Nous avons ensuite étudié une approche orthogonale: en partant d'un classifieur simple, nous avons simplement augmenté la taille des ensembles d'apprentissage en jouant sur la disponibilité quasi-infinie des données étiquetées du Web2.0. Enfin, nous avons essayé de combiner les avantages des deux premières solutions en utilisant des réseaux de neurones à convolution.

Soutenance : 20/12/2013

Membres du jury :

Tellier Isabelle - Université Paris 3 [Rapportrice]
Paroubek Patrick - Université Paris Sud [Rapporteur]
Gallinari Patrick - Université Paris 6
Guigue Vincent - Université Paris 6
Gouttas Catherine - Thales Communications&Security
Bennani Younes - Université Paris 13
Marsala Christophe Université Paris 6

Date de départ : 31/12/2013

Publications 2011-2013