Séminaire de l'équipe LFI

RSSAjouter à votre agenda

Apprentissage faiblement supervisé: algorithmes biqualité et détection automatisée d'exemples mal-étiqueté

Jeudi 23 janvier 2025
Horaire : 10 h30
Pierre NODET et Thomas GEORGE (Orange Innovation)

L’apprentissage faiblement supervisé regroupe une variété de situations où les données collectées sont imparfaites. Par exemple, les étiquettes collectées peuvent être corrompues, ne plus correspondre aux données les plus récentes (décalage de distribution), ou être disponibles en quantité insuffisante. Pour concevoir des algorithmes capables de gérer ces supervisions faibles, nous nous plaçons dans le cadre de l’apprentissage biqualité: nous supposons la disponibilité d’un petit ensemble de données de confiance, sans biais ni corruption, en plus de l’ensemble de données potentiellement corrompu. Dans ce cadre, nous présenterons des stratégies de repondération et de réétiquetage, ainsi qu’une stratégie lorsqu’on est en présence de décalages de distribution.

Pour autant, les algorithmes biqualités ont besoin d’avoir accès à un jeu de données fiables pour apprendre des classifieurs résistants aux potentielles corruptions du jeu de données non-fiables, exemples qui sont parfois couteux à obtenir dans des cas concrets. On s’intéressera à automatiser cette étape, en étudiant des méthodes automatiques de détection d’exemples mal-étiquetés. Ceux-ci fournissent un score de confiance pour chaque exemple du jeu données sur lequel ils sont appliqués, indiquant si l’étiquette fournie peut être considérée comme bonne ou mauvaise. Parmi ceux-ci, les détecteurs basés sur l’introspection examinent s’il existe une différence de traitement entre les exemples bien et mal-étiquetés lors de l’apprentissage, mesurées à l’aide de sondes sur un ensemble progressif ou indépendant de modèles. Après avoir passé en revu l’état de l’art dans ce cadre, nous testerons les détecteurs les plus populaires sur un ensemble de jeu de données tabulaires et textuels, et nous partagerons les enseignements tirés.

Bio :

  • Pierre Nodet a effectué sa thèse de doctorat dans l’UMR MIA (AgroParisTech, Université Paris Saclay) et à Orange Innovation sur l’apprentissage biqualité. Pierre est désormais Research Scientist à Orange innovation et travaille sur l’apprentissage robuste, les données temporelles, et l’explicabilité.
  • Thomas George a effectué sa thèse de doctorat au Mila (Montréal, Québec) sur la théorie et l’optimisation en apprentissage profond, avant de rejoindre Orange Innovation pour effectuer des recherches sur l’apprentissage en présence d’exemples mal-étiquetés, l’explicabilité et la causalité.


n°405, couloir 24-25, 4 place Jussieu, 75005 Paris

Plus d'informations ici …
Christophe.Marsala (at) nulllip6.fr