BORDES Antoine

doctorant à Sorbonne Université
Équipe : MALIRE
https://lip6.fr/Antoine.Bordes

Direction de recherche : Patrick GALLINARI

Nouveaux Algorithmes pour l'Apprentissage de Machines à Vecteurs Supports sur de Grandes Masses de Données

Il existe un besoin certain dans la communauté de l'apprentissage statistique pour des méthodes capables d'être entraînées sur des ensembles d'apprentissage de grande échelle, et pouvant ainsi gérer les quantités colossales d'informations générées quotidiennement. Dans cette thèse, nous proposons des solutions pour réduire le temps d'entraînement et les besoins en mémoire d'algorithmes d'apprentissage sans pour autant dégrader leur précision. Nous nous intéressons en particulier aux Machines à Vecteurs Supports (SVMs), des méthodes populaires utilisées en général pour des tâches de classification automatique mais qui peuvent être adaptées à d'autres applications. Nous étudions tout d'abord le processus d'apprentissage par descente de gradient stochastique pour les SVMs linéaires. Cela nous amène à définir et étudier le nouvel algorithme, SGD-QN. Après cela, nous introduisons une nouvelle procédure d'apprentissage: le principe du "Process/Reprocess". Nous déclinons alors trois algorithmes qui l'utilisent. Le Huller et LaSVM servent à apprendre des SVMs destinés à traiter des problèmes de classification binaire (décision entre deux classes). Pour la tâche plus complexe de prédiction de sorties structurées, nous modifions en profondeur l'algorithme LaSVM, ce qui conduit à l'algorithme LaRank. Notre dernière contribution concerne le problème récent de l'apprentissage avec une supervision ambigüe pour lequel nous proposons un nouveau cadre théorique (et un algorithme associé). Nous l'appliquons au problème de l'étiquetage sémantique du langage. Tous les algorithmes introduits dans cette thèse atteignent les performances de l'état-de l'art, en particulier en ce qui concerne les vitesses d'entraînement.

Soutenance : 09/02/2010

Membres du jury :

Stéphane Canu, Professeur et directeur du LITIS à l'INSA de Rouen. [Rapporteur]
John Shawe-Taylor, Professeur et directeur du CSML à l'University College London au Royaume-Uni. [Rapporteur]
Jacques Blanc-Talon, Responsable scientifique à la DGA/MRIS.
Léon Bottou, Distinguished senior researcher à NEC Labs of America aus Etats-Unis.
Matthieu Cord, Professeur au LIP6.
Patrick Galinari, Professeur et directeur du LIP6.
Bernhard Schölkopf, Professeur et et directeur du MPI for Biological Cybernetics en Allemagne.

Date de départ : 30/09/2010

Publications 2007-2017