ZABLOCKI Eloi

doctorant à Sorbonne Université
Équipe : MLIA
https://lip6.fr/Eloi.Zablocki

Direction de recherche : Patrick GALLINARI, Benjamin PIWOWARSKI, Laure SOULIER

Apprentissage automatique multi-modal: complémentarité des contextes textuels et visuels

L'interaction entre le langage et la vision reste relativement peu explorée malgré un intérêt grandissant. Au delà des différences triviales entre textes et images, ces deux modalités portent des sémantiques distinctes. D'une part, le langage peut exprimer une sémantique de haut niveau sur le monde, mais il est biaisé dans le sens qu’une grande partie de son contenu est implicite (sens commun). D'autre part, les images sont des agrégats de niveaux inférieurs informations, mais elles donnent accès plus directement aux statistiques du monde réel et peuvent être utilisées pour ancrer l'apprentissage de la sémantique d'un objet. Dans cette thèse, nous exploitons les connexions et nous tirons parti de la complémentarité entre langage et vision.
Premièrement, les capacités de compréhension du langage naturel peuvent être améliorées à l'aide de la modalité visuelle, car le langage est naturellement ancré dans le monde visuel. En particulier, représenter la sémantique d'un mot est un problème de longue date pour la communauté du traitement de la langue naturel, et, pour améliorer les approches traditionnelles, il est essentiel de tirer parti d'informations visuelles. Nous montrons que les représentations linguistiques peuvent être enrichies par des informations visuelles et nous nous concentrons particulièrement sur les contextes visuels et l'organisation spatiale des scènes. Nous présentons deux modèles pour apprendre des représentations multimodales sémantiques pour des mots ou des phrases, à l’aide d’images.
A l'inverse, l'intégration du langage à la vision ouvre la possibilité d'élargir les horizons et les tâches de la communauté de la vision par ordinateur. En supposant que le langage contienne des informations visuelles sur les objets et que celles-ci peuvent être capturées dans une représentation sémantique, nous nous concentrons sur la tâche de reconnaissance zero-shot, qui consiste à reconnaître des objets qui n'ont jamais été vus grâce aux connaissances linguistiques acquises auparavant. En particulier, nous montrons que les représentations linguistiques contiennent non seulement des informations visuelles sur l'apparence visuelle des objets, mais également sur leur environnement visuel typique et leurs fréquences d'occurrence visuelle. Nous présentons ainsi un modèle de reconnaissance zero-shot tirant parti du contexte visuel d'un objet et de sa probabilité d'occurrence visuelle, en plus de la région d'intérêt, comme dans les approches traditionnelles.
Enfin, nous présentons des pistes de recherche potentielles pour exploiter davantage les liens entre langage et images et pour mieux comprendre le fossé sémantique entre les deux modalités.

Soutenance : 14/10/2019

Membres du jury :

M Guillaume Gravier, IRISA [Rapporteur]
Mme Marie-Francine Moens, KU Leuven [Rapporteur]
M Antoine Bordes (examinateur), Facebook
M Patrick Gallinari, Sorbonne Université LIP6 / Criteo
M Benjamin Piwowarski, Sorbonne Université LIP6
Mme Laure Soulier, Sorbonne Université LIP6
M Xavier Tannier, Sorbonne Université LIMICS

Date de départ : 31/10/2019

Publications 2017-2019