KRITHARA Anastasia

doctorant à Sorbonne Université
Équipe : MALIRE
https://lip6.fr/Anastasia.Krithara

Direction de recherche : Patrick GALLINARI

Co-encadrement : GAUSSIER Eric

Apprentissage de modèles latents avec des données partiellement étiquetées

L'apprentissage automatique a été utilisé pour diverses tâches d' accès à l' information, tels que la catégorisation, le clustering ou l' extraction d' information. Acquérir les données annotées nécessaires pour appliquer les techniques d' apprentissage supervisé est un défi majeur pour ces applications, en particulier pour les très grandes collections. L'annotation des données nécessite généralement l'effort humain et c'est donc très coûteux, en particulier dans les domaines techniques. Au cours des dernières années, deux grandes approches ont été explorées dans ce sens, l'apprentissage semi-supervisé et l'apprentissage actif. Les deux paradigmes abordent la question du coût d'annotation, mais de deux points de vue différents. D'une part, apprentissage semi-supervisé essaie d'apprendre en tenant compte à la fois des données annotées et non-annotées. D'autre part, l'apprentissage actif tente de trouver les meilleurs exemples à annoter, afin de réduire au minimum le nombre d'exemples annotés necessaire. Chacune des méthodes tentent de réduire l'effort humain d'annotation. Dans ce travail, nous abordons le problème de la réduction du coût annotation. En particulier, nous étudions des extensions de modèles d'aspect pour le tâche de la classification, où les données sont partiellement annotées. Nous proposons deux variants semi-supervisé de l'algorithme PLSA, qui incorporent un modèle d'erreur. Nous combinons ensuite ces algorithmes semi-supervisé avec deux algorithmes d'apprentissage actif. Nos modèles sont conçus comme des extensions de le système actuel pour la classification de Xerox. Nous évaluons les modèles proposés sur quatre bases de données, dont une en provenance d'un Business Group de Xerox.

Soutenance : 30/06/2008

Membres du jury :

Yves Grandvalet CNRS (Université de Technologie de Compiégne)[Rapporteur]
Marco Saerens (Université catholique de Louvain)[Rapporteur]
Matthieu Cord LIP6 - Université Pierre et Marie Curie [Examinateur]
Eric Gaussier CLIPS - Université Joseph Fourier (Grenoble I) [Examinateur]
Massih-Reza Amini LIP6 - Universit´e Pierre et Marie Curie [Directeur]
Patrick Gallinari LIP6 - Universit´e Pierre et Marie Curie [Directeur]
Jean-Michel Renders Xerox Research Centre Europe [Directeur]

Date de départ : 01/07/2008

Publications 2006-2015