ENGILBERGE Martin
Direction de recherche : Matthieu CORD
Encastrements multimodaux profonds et mise à la terre
De nos jours l’Intelligence artificielle (IA) est omniprésente dans notre société. Le récent développement des méthodes d’apprentissage basé sur les réseaux de neurones profonds aussi appelé “Deep Learning” a permis une nette amélioration des modèles de représentation visuelle et textuelle. Cette thèse aborde la question de l’apprentissage de plongements multimodaux pour représenter conjointement des données visuelles et sémantiques. C’est une problématique centrale dans le contexte actuel de l’IA et du deep learning, qui présente notamment un très fort potentiel pour l’interprétabilité des modèles.
Nous explorons dans cette thèse les espaces de représentations conjoints visuels et sémantiques. Nous proposons deux nouveaux modèles permettant de construire de tels espaces. Nous démontrons également leurs capacités à localiser des concepts sémantiques dans le domaine visuel. Enfin, nous introduisons une nouvelle méthode permettant d’apprendre une approximation différentiable des fonctions d’évaluation basée sur le rang.
Soutenance : 12/06/2020
Membres du jury :
M. AVRITHIS Yannis, Senior Researcher, INRIA Rennes [Rapporteur]
M. THOME Nicolas, Professeur, CNAM [Rapporteur]
Mme LARLUS Diane, Senior Research Scientist, NAVER Labs
M. PONCE Jean, Directeur de Recherche, INRIA - ENS
M. GALLINARI Patrick, Professeur, Sorbonne Université
M. PEREZ Patrick, Directeur de Recherche, Valeo.ai
M. CORD Matthieu, Professeur, Sorbonne Université
Publications 2018-2020
-
2020
- M. Engilberge : “Deep multimodal embeddings and grounding”, soutenance de thèse, soutenance 12/06/2020, direction de recherche Cord, Matthieu (2020)
-
2019
- M. Engilberge, L. Chevallier, P. Pérez, M. Cord : “SoDeep: a Sorting Deep net to learn ranking loss surrogates”, CVPR 2019 - 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, United States (2019)
-
2018
- M. Engilberge, L. Chevallier, P. Pérez, M. Cord : “Deep semantic-visual embedding with localization”, RFIAP 2018 - Congrès Reconnaissance des Formes, Image, Apprentissage et Perception, Marne-la-Vallée, France (2018)
- M. Engilberge, L. Chevallier, P. Pérez, M. Cord : “Finding beans in burgers: Deep semantic-visual embedding with localization”, CVPR 2018 - 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, United States, pp. 3984-3993, (IEEE) (2018)