GÉRALD Thomas
Direction de recherche : Patrick GALLINARI
Co-encadrement : BASKIOTIS Nicolas
Apprentissage de Représentation pour la classification large échelle
Ces précédentes décennies ont vu l'essor des nouvelles technologies simplifiant le partage de l'information. Aujourd'hui, une importante part des données est accessible pour un grand nombre d'utilisateurs. Dans cette thèse, nous proposons d'étudier les problématiques d'annotations de documents qui à postériori permettront de faciliter l'accès à l'information. On s'intéressera au domaine de la classification extrême qui caractérise la tâche d'annotation automatique dès lors que le nombre d'étiquettes est important. De nombreuses difficultés découlent de la taille et de la complexité de ces données : le temps de prédiction, le stockage ainsi que la pertinence des annotations en sont les plus représentatifs. Les récentes recherches traitant de cette problématique reposent aujourd'hui sur trois types d'approches: les approches ensemblistes apprenant un large ensemble de classifieurs simples; les méthodes "hiérarchiques" organisant une structure de classifieurs simples; les approches par représentations plongeant dans des espaces de faible dimension les documents. Dans cette thèse, nous étudierons les approches de classification par représentation. À travers nos contributions, nous proposerons différentes approches pour pallier aux problématiques de temps de prédiction et de structure de l'espace de représentation. Dans un premier temps, nous étudierons des représentations discrètes avec pour objectifs de trouver les meilleures représentations possibles tout en garantissant un temps d'inférence bas. Dans un deuxième temps, nous considérerons les plongements hyperboliques afin de profiter des qualités de cet espace pour la représentation de données structurées. Avec des expériences sur des corpus réels, nous démontrerons l'intérêt des approches proposées.
Soutenance : 17/11/2020
Membres du jury :
Massih Reza Amini (Professeur à l'Université Grenoble Alpes, AMA) [Rapporteur]
Pascale Kuntz-Cosperec (Professeure à Polytech Nantes, Laboratoire des Sciences du Numérique de Nantes) [Rapporteur]
Patrick Gallinari (LIP6, MLIA)
Nicolas Baskiotis (LIP6, MLIA)
Julien Tierny (Chargé de Recherche à Sorbonne université, LIP6, équipe APR)
Xiangliang Zhang (Associate Professor à King Abdullah University of Science and Technology, CEMSE)
Publications 2017-2020
-
2020
- Th. Gérald : “Apprentissage de Représentation pour la classification large échelle”, soutenance de thèse, soutenance 17/11/2020, direction de recherche Gallinari, Patrick, co-encadrement : Baskiotis, Nicolas (2020)
- N. Miolane, N. Guigui, A. Le Brigant, J. Mathe, B. Hou, Y. Thanwerdas, S. Heyder, O. Peltre, N. Koep, H. Zaatiti, H. Hajri, Y. Cabanes, Th. Gerald, P. Chauchat, Ch. Shewmake, D. Brooks, B. Kainz, C. Donnat, S. Holmes, X. Pennec : “Geomstats: A Python Package for Riemannian Geometry in Machine Learning”, Journal of Machine Learning Research, vol. 21 (223), pp. 1-9, (Microtome Publishing) (2020)
- N. Miolane, N. Guigui, H. Zaatiti, Ch. Shewmake, H. Hajri, D. Brooks, A. Le Brigant, J. Mathe, B. Hou, Y. Thanwerdas, S. Heyder, O. Peltre, N. Koep, Y. Cabanes, Th. Gerald, P. Chauchat, B. Kainz, C. Donnat, S. Holmes, X. Pennec : “Introduction to Geometric Learning in Python with Geomstats”, SciPy 2020 - 19th Python in Science Conference, Austin, Texas, United States, pp. 48-57 (2020)
-
2019
- Th. Gerald, N. Baskiotis : “Joint Label/Example Hyperbolic Representation for Extreme Classification”, Conférence sur l’Apprentissage automatique 2019, Toulouse, France (2019)
-
2018
- Th. Gerald, N. Baskiotis, L. Denoyer : “Apprentissage stochastique de représentation binaire pour la classification multi-classe dans un grand nombre de catégories”, Conférence sur l’Apprentissage automatique 2018, Rouen, France (2018)
-
2017
- Th. Gerald, N. Baskiotis, L. Denoyer : “Binary Stochastic Representations for Large Multi-class Classification”, Neural Information Processing, vol. 10634, Lecture Notes in Computer Science, Guangzhou, China, pp. 155-165, (Springer International Publishing), (ISBN: 978-3-319-70086-1) (2017)