LESOT Marie-Jeanne

doctorant à Sorbonne Université
Équipe : MALIRE
https://lip6.fr/Marie-Jeanne.Lesot

Direction de recherche : Bernadette BOUCHON-MEUNIER

Co-encadrement : D'ALCHÉ-BUC Florence

Classification non supervisée pour la visualisation de données structurées et la construction de prototypes

La classification non supervisée, ou clustering, a pour objectif la décomposition d'un ensemble de données en sous-groupes homogènes et distincts, qui résument la base initiale et conduisent par là à une représentation simplifiée des données. Toutefois, il est nécessaire d'enrichir les informations brutes de cette décomposition pour aider à leur exploitation. Nous considérons dans ce but deux modes d'enrichissement, basés respectivement sur une caractérisation visuelle, qui fournit simultanément une représentation graphique des données, et une caractérisation par prototypes flous, qui se place à un niveau plus sémantique. D'une part, nous considérons la caractérisation visuelle de données structurées correspondant par exemple à des documents textuels pour lesquels une organisation hiérarchique est disponible, par le biais de titres et de sous-titres. Cette problématique est abordée dans le cadre du clustering topographique à noyau, pour lequel nous définissons un critère d'évaluation prenant en compte son double objectif. Nous proposons aussi un critère de sélection de noyau applicable dans un contexte d'apprentissage non supervisé ainsi qu'un noyau pour traiter les données textuelles précédentes. D'autre part, le clustering avec caractérisation par prototypes flous doit fournir une description interprétable de l'ensemble de données : la représentation doit permettre une mise en correspondance des groupes identifiés avec des concepts naturels utilisés intuitivement pour décrire les données. Cette tâche d'extraction de concepts descriptifs, abordée dans le cadre de la théorie des sous-ensembles flous, peut être décomposée en trois étapes principales : identification des concepts, représentation des concepts identifiés et enfin étiquetage linguistique, pour chacune desquelles nous proposons des outils, sous la forme d'un algorithme de clustering, une méthode de construction de prototypes et des coefficients d'exceptionnalité.

Soutenance : 31/01/2005

Membres du jury :

Florence d'Alché-Buc (professeur, Université Evry-Val d'Essonne), directrice de thèse
Bernadette Bouchon-Meunier (directrice de recherche, CNRS), directrice de thèse
Carl Frélicot (professeur, Université La Rochelle), rapporteur
Hélène Paugam-Moisy (professeur, Université Lyon II), rapportrice
Patrice Perny (professeur, Université Paris VI), examinateur
Michèle Sebag (directrice de recherche, CNRS), examinatrice

Professeure

Quatre doctorants à Sorbonne Université (Direction de recherche / Co-encadrement)

  • BHAN Milan : Génération de textes contre-factuels.
  • FAN Chunyang : Apprentissage de mesure de similarité pour le transfert analogique.
  • GERVOIS Guillaume : Qualification et quantification du Bien et du Mal dans un modèle de raisonnement éthique.
  • MUNRO Yann : Argumentation abstraite et causalité pour la génération d'explications dans le contexte d'interaction humain-agent.

Quatorze docteurs (2011 - 2024) à Sorbonne Université

Publications 2001-2024