NJIKE FOTZO Hermine
Direction de recherche : Patrick GALLINARI
Structuration Automatique de Corpus Textuels par Apprentissage Automatique
Avec le développement du Web, des bases de données multimédia, des bibliothèques électroniques, on dispose de plus en plus de grandes collections de documents faiblement structurées. Le manque de structure au sein de ces collections volumineuses rend difficile l’accès à l’information qu’elles contiennent, d’où un grand besoin aujourd’hui de structurer automatiquement ces corpus pour y faciliter la recherche d’information. Deux éléments de structure se dégagent : les liens sémantiques entre les objets du corpus et l’organisation hiérarchique de ces corpus autour des sujets qu’ils abordent.
Dans cette thèse, nous étudions comment structurer automatiquement les corpus par l’apprentissage à partir de ces corpus des liens sémantiques entre les objets du corpus et plus particulièrement l’apprentissage des hiérarchies de concepts obéissant à une relation du type spécialisation/généralisation. Nous proposons une méthode qui permet à partir de concepts identifiés automatiquement sur un corpus de documents, d’apprendre des relations spécialisation/généralisation entre concepts, puis de construire une hiérarchie ordonnée suivant cette même relation et enfin de déduire une organisation hiérarchique de documents.
Nous introduisons également des critères originaux qui permettent d’évaluer la qualité des hiérarchies induites et de les comparer avec d’autres hiérarchies automatiques ou avec des hiérarchies manuelles.
Mots clés : structuration de corpus, relations sémantiques entre concepts, hiérarchies de concepts, segmentation de texte, mesures d’évaluation
Soutenance : 21/12/2004
Membres du jury :
Josiane Mothe (rapporteur;l'Institut Universitaire de Formation des Maîtres/IRIT toulouse)
Brigitte Grau (rapporteur;ORSAY et IIE/LIMSI)
Jean-Gabriel Ganascia (examinateur;Paris6/LIP6)
Yves Kodratoff (examinateur; ORSAY/LRI)
Patrick Gallinari(directeur de these; Paris6/LIP6)
Publications 2002-2005
-
2005
- H. Njike Fotzo, Th. Artières, P. Gallinari, J. Blanchard, G. Letellier : “Automatic learning of domain model for personalized hypermedia applications”, IJCAI 2005 - 19th Internation Joint Conference on Artificial Intelligence, Edinburgh, Scotland, United Kingdom, pp. 1624-1625 (2005)
- H. Njike Fotzo, Th. Artières, P. Gallinari, J. Blanchard, G. Letellier : “Automatically building domain model in hypermedia applications”, Workshop on Machine Learning for User Modeling: Challenges, UM, Edinburgh, Scotland, United Kingdom, pp. 51-59 (2005)
-
2004
- H. Njike Fotzo : “Structuration Automatique de Corpus Textuels par Apprentissage Automatique”, soutenance de thèse, soutenance 21/12/2004, direction de recherche Gallinari, Patrick (2004)
- H. Njike Fotzo, P. Gallinari : “Apprentissage de Relations « Généralisation / Spécialisation » entre Concepts, Application à la Structuration Hiérarchique Automatique de Corpus”, Première Conférence en Recherche d'Information et Applications (CORIA'04), Toulouse, France (2004)
-
2002
- H. Njike Fotzo, P. Gallinari, Th. Delbecque : “Un algorithme de boosting pour des modèles d’optimisation de campagne de churn”, RFIA 2002 - 13e congrès sur la Reconnaissance des Formes et l'Intelligence Artificielle, Angers, France (2002)