PRADEL Bruno

doctorant à Sorbonne Université
Équipe : MLIA
https://lip6.fr/Bruno.Pradel

Direction de recherche : Patrick GALLINARI

Co-encadrement : USUNIER Nicolas

Évaluation des sytsèmes de recommandation à partir d'historiques de données

Cette thèse présente différents protocoles d'évaluations permettant une meilleure estimation des erreurs de systèmes de recommandations construits à partir d'historiques de données d'utilisateurs (ie sans interactions directes avec les utilisateurs du système). Dans un premier chapitre de contribution, nous présentons les résultats d'une étude de cas d'un système de recommandation uniquement basé sur les données d'achats d'un magasin de bricolage. La recommandation est une tâche complexe qui à été souvent assimilée uniquement à tache de prédiction de notes.
Dans cette étude, nous cherchons à prédire les achats qu'un client va effectuer et non la note qu'il attribuerait à un produit. Les données de notes étant indisponibles pour bon nombre d'industriels, cela correspond à une application fréquemment rencontrée en pratique mais pourtant rarement traitée dans la littérature. Dans ce cadre, nous évaluons les performances de plusieurs algorithmes de filtrage collaboratif de l'état de l'art. Nous montrons comment certaines modifications des protocoles d'apprentissages et de tests, ainsi que l'apport d'information de contexte, aboutit à de fortes variations des performances entre algorithmes et à une sélection de modèle différente.
Dans les chapitres suivants, nous abordons la problématique de l'évaluation d'algorithmes de filtrage collaboratif à partir de notes. Dans un deuxième chapitre, nous détaillons notre participation au challenge de recommandation contextuelle de films CAMRa. Ce challenge propose deux modifications du protocole classique de prédiction de notes: les algorithmes sont évalués en considérant des mesures d'ordonnancement et les notes sont échantillonnées en test de manière temporelle sur deux périodes spécifiques de l'année: la semaine de Noël et de la cérémonie des Oscars.
Nous proposons un algorithme de recommandations personnalisées qui prend en compte les variations temporelles de la popularité des items. La dernière contribution de cette thèse étudie l'influence du processus d'observations des notes sur les mesures de performances TopK (rappel/ précision). Les utilisateurs choisissent les items qu'ils veulent noter, ainsi les notes sont obtenues par un processus d'observations non aléatoires. D'une part, certains items reçoivent beaucoup plus de notes que les autres, et d'autre part, les notes "positives" sont sur-observés car les utilisateurs notent plus fréquemment les items qu'ils aiment. Nous proposons une analyse théorique de ces phénomènes et présentons également des résultats d'expériences effectuées à l'aide de données Yahoo! réunissant des notes collectées à la fois de manière classique et de manière aléatoire. Nous montrons notamment qu'une prise en compte des notes manquantes comme négatives en apprentissage aboutit à de bonnes performances sur les mesures TopK, mais que ces performances peuvent être trompeuses en favorisant des algorithmes modélisant la popularité des items plus que les réelles préférences des utilisateurs.

Soutenance : 02/10/2013

Membres du jury :

Anne Boyer - Professeur (Université de Lorraine) [Rapporteur]
Stéphane Canu - Professeur (INSA de Rouen) [Rapporteur]
Isabelle Tellier - Professeur (Université Paris 3)
Bernd Amann - Professeur (Université Paris 6)
Patrick Gallinari - Professeur (Université Paris 6)
Nicolas Usunier - Maître de conférence (Université de Compiègne)

Date de départ : 31/03/2015

Publications 2010-2013