GÉRALD Thomas

doctorant à Sorbonne Université
Équipe : MLIA
https://lip6.fr/Thomas.Gerald

Direction de recherche : Patrick GALLINARI

Co-encadrement : BASKIOTIS Nicolas

Apprentissage de Représentation pour la classification large échelle

Ces précédentes décennies ont vu l'essor des nouvelles technologies simplifiant le partage de l'information. Aujourd'hui, une importante part des données est accessible pour un grand nombre d'utilisateurs. Dans cette thèse, nous proposons d'étudier les problématiques d'annotations de documents qui à postériori permettront de faciliter l'accès à l'information. On s'intéressera au domaine de la classification extrême qui caractérise la tâche d'annotation automatique dès lors que le nombre d'étiquettes est important. De nombreuses difficultés découlent de la taille et de la complexité de ces données : le temps de prédiction, le stockage ainsi que la pertinence des annotations en sont les plus représentatifs. Les récentes recherches traitant de cette problématique reposent aujourd'hui sur trois types d'approches: les approches ensemblistes apprenant un large ensemble de classifieurs simples; les méthodes "hiérarchiques" organisant une structure de classifieurs simples; les approches par représentations plongeant dans des espaces de faible dimension les documents. Dans cette thèse, nous étudierons les approches de classification par représentation. À travers nos contributions, nous proposerons différentes approches pour pallier aux problématiques de temps de prédiction et de structure de l'espace de représentation. Dans un premier temps, nous étudierons des représentations discrètes avec pour objectifs de trouver les meilleures représentations possibles tout en garantissant un temps d'inférence bas. Dans un deuxième temps, nous considérerons les plongements hyperboliques afin de profiter des qualités de cet espace pour la représentation de données structurées. Avec des expériences sur des corpus réels, nous démontrerons l'intérêt des approches proposées.

Soutenance : 17/11/2020

Membres du jury :

Massih Reza Amini (Professeur à l'Université Grenoble Alpes, AMA) [Rapporteur]
Pascale Kuntz-Cosperec (Professeure à Polytech Nantes, Laboratoire des Sciences du Numérique de Nantes) [Rapporteur]
Patrick Gallinari (LIP6, MLIA)
Nicolas Baskiotis (LIP6, MLIA)
Julien Tierny (Chargé de Recherche à Sorbonne université, LIP6, équipe APR)
Xiangliang Zhang (Associate Professor à King Abdullah University of Science and Technology, CEMSE)

Date de départ : 31/12/2021

Publications 2017-2020