BEN YOUNES Hedi

doctorant à Sorbonne Université
Équipe : MLIA
https://lip6.fr/Hedi.Ben-Younes

Direction de recherche : Matthieu CORD

Co-encadrement : THOME Nicolas

Apprentissage de représentation multi-modale et raisonnement visuel

La quantité d'images présentes sur internet augmente considérablement, et il est nécessaire de développer des techniques permettant le traitement automatique de ces contenus. Alors que les méthodes de reconnaissance visuelle sont de plus en plus évoluées, la communauté scientifique s'intéresse désormais à des systèmes aux capacités de raisonnement plus poussées.
Dans cette thèse, nous nous intéressons au Visual Question Answering (VQA), qui consiste en la conception de systèmes capables de répondre à une question portant sur une image. Classiquement, ces architectures sont conçues comme des systèmes d'apprentissage automatique auxquels on fournit des images, des questions et leur réponse. Ce problème difficile est habituellement abordé par des techniques d'apprentissage profond. Dans la première partie de cette thèse, nous développons des stratégies de fusion multimodales permettant de modéliser des interactions entre les représentations d'image et de question. Nous explorons des techniques de fusion bilinéaire, et assurons l'expressivité et la simplicité des modèles en utilisant des techniques de factorisation tensorielle. Dans la seconde partie, on s'intéresse au raisonnement visuel qui encapsule ces fusions. Après avoir présenté les schémas classiques d'attention visuelle, nous proposons une architecture plus avancée qui considère les objets ainsi que leurs relations mutuelles. Tous les modèles sont expérimentalement évalués sur des jeux de données standards et obtiennent des résultats compétitifs avec ceux de la littérature.

Soutenance : 20/05/2019

Membres du jury :

M. Jakob Verbeek, INRIA Grenoble [rapporteur]
M. Christian Wolf, INSA de Lyon [rapporteur]
M. Vittorio Ferrari, Google AI - University of Edinburgh
M. Yann LeCun, Facebook - NYU
M. Patrick Pérez, Valeo AI
Mme Laure Soulier, Sorbonne Université - LIP6
M. Nicolas Thome, CNAM - CEDRIC
M. Matthieu Cord, Sorbonne Université - LIP6

Date de départ : 20/07/2019

Publications 2017-2019