NJIKE FOTZO Hermine

doctorant à Sorbonne Université
Équipe : MALIRE
https://lip6.fr/Hermine.Njike-Fotzo

Direction de recherche : Patrick GALLINARI

Structuration Automatique de Corpus Textuels par Apprentissage Automatique

Avec le développement du Web, des bases de données multimédia, des bibliothèques électroniques, on dispose de plus en plus de grandes collections de documents faiblement structurées. Le manque de structure au sein de ces collections volumineuses rend difficile l’accès à l’information qu’elles contiennent, d’où un grand besoin aujourd’hui de structurer automatiquement ces corpus pour y faciliter la recherche d’information. Deux éléments de structure se dégagent : les liens sémantiques entre les objets du corpus et l’organisation hiérarchique de ces corpus autour des sujets qu’ils abordent. Dans cette thèse, nous étudions comment structurer automatiquement les corpus par l’apprentissage à partir de ces corpus des liens sémantiques entre les objets du corpus et plus particulièrement l’apprentissage des hiérarchies de concepts obéissant à une relation du type spécialisation/généralisation. Nous proposons une méthode qui permet à partir de concepts identifiés automatiquement sur un corpus de documents, d’apprendre des relations spécialisation/généralisation entre concepts, puis de construire une hiérarchie ordonnée suivant cette même relation et enfin de déduire une organisation hiérarchique de documents. Nous introduisons également des critères originaux qui permettent d’évaluer la qualité des hiérarchies induites et de les comparer avec d’autres hiérarchies automatiques ou avec des hiérarchies manuelles.
Mots clés : structuration de corpus, relations sémantiques entre concepts, hiérarchies de concepts, segmentation de texte, mesures d’évaluation

Soutenance : 21/12/2004

Membres du jury :

Josiane Mothe (rapporteur;l'Institut Universitaire de Formation des Maîtres/IRIT toulouse)
Brigitte Grau (rapporteur;ORSAY et IIE/LIMSI)
Jean-Gabriel Ganascia (examinateur;Paris6/LIP6)
Yves Kodratoff (examinateur; ORSAY/LRI)
Patrick Gallinari(directeur de these; Paris6/LIP6)

Date de départ : 01/12/2005

Publications 2002-2005