KIM Young-Min

doctorant à Sorbonne Université
Équipe : MALIRE
https://lip6.fr/Young-Min.Kim

Direction de recherche : Patrick GALLINARI

Apprentissage d'Espaces de Concepts pour le Partitionnement Non-Supervisé de Documents Textuels

La tâche de partitionnement de documents est l'un des problèmes centraux en Recherche d'Information (RI). Les résultats de partitionnement peuvent non-seulement donner une indication sur la structure d'une collection de documents, mais ils sont aussi souvent utilisés dans différents tâches de RI.

Dans cette thèse, nous nous somme intéressés à développer des techniques probabilistes à base de modèles latents pour cette tâche. Dans ce but, nous proposons quatre techniques différentes basées sur l'observation que le partitionnement est bien plus effectif dans un espace de concepts trouvé automatiquement que dans l'espace de sac-de-mots.

Cette observation est issue des résultats d'un partitionnement en deux étapes, où dans une première phase, les mots de la collection sont regroupés suivant l'hypothèse que les termes apparaissant dans les mêmes documents avec les mêmes fréquences sont similaires. Les documents sont ensuite regroupés dans l'espace induit par ces groupements de mots, appelés concepts de mots. Sur ce principe, nous étendons le modèle latent PLSA pour un partitionnement simultané des mots et des documents. Nous proposons ensuite une stratégie de sélection de modèles permettant de trouver efficacement le meilleur modèle parmi tous les choix possibles. Et aussi, nous montrons comment le PLSA peut être adaptés pour le partitionnement multi-vus de documents multi-langues.


Soutenance : 16/12/2010

Membres du jury :

M. Bernd AMANN (Université Pierre et Marie Curie / Laboratoire LIP6)
M. Massih-Reza AMINI (Université Pierre et Marie Curie / Laboratoire LIP6) [Directeur de thèse]
M. Patrice BELLOT (Université d’Avignon / Laboratoire LIA-CERI )
M. Patrick GALLINARI (Université Pierre et Marie Curie / Laboratoire LIP6) [Directeur de thèse]
M. Eric GAUSSIER (Université Joseph Fourier / Laboratoire LIG ) [Rapporteur]
M. Pascal PONCELET (Ecole des Min d’Alès / Laboratoire LGI2P) [Rapporteur]

Date de départ : 30/09/2011

Publications 2008-2010