GOH Hanlin

doctorant à Sorbonne Université
Équipe : MLIA
https://perso.lip6.fr/Hanlin.Goh

Direction de recherche : Matthieu CORD

Co-encadrement : LIM Joo-Hwee

Apprentissage De Représentations Visuelles Profondes

Les avancées récentes en apprentissage profond et en traitement d’image présentent l’opportunité d’unifier ces deux champs de recherche complémentaires pour une meilleure résolution du problème de classification d’images dans des catégories sémantiques. L’apprentissage profond apporte au traitement d’image le pouvoir de représentation nécessaire à l’amélioration des performances des méthodes de classification d’images. Cette thèse propose de nouvelles méthodes d’apprentissage de représentations visuelles profondes pour la résolution de cette tache. L’apprentissage profond a été abordé sous deux angles. D’abord nous nous sommes intéressés à l’apprentissage non supervisé de représentations latentes ayant certaines propriétés à partir de données en entrée. Il s’agit ici d’intégrer une connaissance à priori, à travers un terme de régularisation, dans l’apprentissage d’une machine de Boltzmann restreinte (RBM) [Smolensky, 1986; Lee et al., 2008]. Nous proposons plusieurs formes de régularisation qui induisent différentes propriétés telles que la parcimonie, la sélectivité et l’organisation en structure topographique. Les expériences réalisées montrent que les représentations apprises capturent des structures d’image intéressantes dont résultent d’importantes propriétés telles que l’invariance ainsi qu’une meilleure discrimination. Il est ainsi possible d’initialiser efficacement des architectures profondes en empilant successivement des couches apprises de façon non supervisée. Le second aspect de l’apprentissage profond exploré est l’introduction, sous forme de supervision, d’une information relative à la catégorie sémantique. Dans ce sens, nous avons proposé deux algorithmes d’apprentissage originaux. Le modèle sac-de-mots a permis d’importantes avancées en traitement de l’information visuelle, particulièrement grâce à l’utilisation de descripteurs locaux robustes et de pooling par pyramides spatiales qui prennent en compte l’information spatiale de l’image. Pour ces raisons, nous avons adopté le sac-de-mots comme modèle de base dans cette thèse. En outre, nous avons utilisé des machines à vecteurs support comme classifieurs de base. Les techniques de régularisation non supervisées et les méthodes d’apprentissage supervisées proposées ont été intégrées pour l’apprentissage de dictionnaires de caractéristiques qui incorporent les corrélations spatiales à travers une agrégation spatiale. Ces dictionnaires encodent des descripteurs locaux dans une représentation visuelle de haut niveau qui améliorent considérablement la classification d’images. Nous avons enfin optimisé l’étape de pooling sur la base du codage produit par le dictionnaire hiérarchique précédemment appris. Nous avons introduit une nouvelle paramétrisation dérivable de l’opération de pooling qui permet un apprentissage par descente de gradient utilisant l’algorithme de rétro-propagation. Les résultats qui découlent de ces expériences sont prometteuses et suggèrent de nouvelles d’explorations.

Soutenance : 12/07/2013

Membres du jury :

Frédéric Jurie - Université de Caen Basse-Normandie [rapporteur]
Alain Rakotomamonjy - Université de Rouen [rapporteur]
Yann LeCun - New York University, USA
Patrick Gallinari - Université Pierre et Marie Curie
Joo-Hwee Lim - Institute for Infocomm Research, Singapore
Matthieu Cord - Université Pierre et Marie Curie
Nicolas Thome - Université Pierre et Marie Curie

Date de départ : 30/09/2013

Publications 2010-2014