DURAND Thibaut

doctorant à Sorbonne Université
Équipe : MLIA
https://perso.lip6.fr/Thibaut.Durand

Direction de recherche : Matthieu CORD

Co-encadrement : THOME Nicolas

Apprentissage faiblement supervisé pour la reconnaissance visuelle

Cette thèse propose de s’intéresser au problème de la classification d’images, où l’objectif est de prédire si une catégorie sémantique (e.g. voiture) est présente dans l’image, à partir de son contenu visuel. Aujourd’hui, avec l’utilisation massive des smartphones et des réseaux sociaux, les images sont omniprésentes dans notre vie quotidienne. Pour traiter et exploiter cette masse de donnée, il est important d’avoir des systèmes de reconnaissance, pour analyser et interpréter le contenu visuel des images. Nous proposons plus particulièrement dans ce manuscrit d’apprendre des représentations localisées avec des méthodes d’apprentissage faiblement supervisé. Dans le cadre de la classification d’images, ce problème peut être vu comme un problème de pooling sur des régions. A partir du formalisme du Multiple Instance Learning, nous avons proposé SyMIL, qui est un modèle symétrique pour la classification binaire de sacs. SyMIL utilise une fonction de pooling qui recherche les instances discriminantes pour chacune des classes. Ensuite, nous avons généralisé SyMIL à des problèmes de prédiction structurée, en introduisant MANTRA. Ce modèle recherche des régions discriminatives pour la classe, mais aussi des régions montrant l’absence de la classe (preuve négative). Par la suite, nous avons intégré ce modèle de preuve négative dans une architecture profonde, ainsi qu’une extension du pooling à plusieurs régions. Dans la dernière partie, nous avons proposé une nouvelle architecture qui apprend plusieurs modalités par classe pour avoir de meilleure prédiction. Nous avons aussi proposé un modèle unifié pour le pooling, et une comparaison expérimentale sur 6 ensemble de données

Soutenance : 20/09/2017

Membres du jury :

PEREZ Patrick (Technicolor) [Rapporteur]
RAKOTOMAMONJY Alain (INSA DE ROUEN - LITIS) [Rapporteur]
BACH Francis (INRIA - Ecole Normale Superieure)
CORD Matthieu (UPMC - LIP6)
SCHMID Cordelia (INRIA - THOTH)
SERFATY Véronique (DGA)
THOME Nicolas (CNAM - CEDRIC)

Date de départ : 31/12/2017

Publications 2013-2019