BORDES Patrick
Direction de recherche : Patrick GALLINARI
Co-encadrement : PIWOWARSKI Benjamin
Apprentissage Multimodal Profond pour un Raisonnement Textuel et Visuel Joint
Au cours de la dernière décennie, l'évolution des techniques d'apprentissage en profondeur, combinée à une augmentation importante des données multimodales a suscité un intérêt croissant dans la communauté de recherche pour la compréhension conjointe du langage et de la vision. Le défi au cœur de l'apprentissage automatique multimodal est la différence sémantique entre le langage et la vision: alors que la vision représente fidèlement la réalité et transmet une sémantique de bas niveau, le langage porte un raisonnement de haut niveau.
D'une part, le langage peut améliorer les performances des modèles de vision. L'hypothèse sous-jacente est que les représentations textuelles contiennent des informations visuelles. Nous appliquons ce principe au Zero-Shot Learning. Dans la première contribution en ZSL, nous étendons une hypothèse commune, qui stipule que les représentations textuelles codent des informations sur l'apparence visuelle des objets, en montrant qu'elles codent également des informations sur leur environnement visuel et leur fréquence réelle. Dans une seconde contribution, nous considérons le cadre transductif en ZSL. Nous proposons une solution aux limites des approches transductives actuelles, qui supposent que l'espace visuel est bien groupé, ce qui n'est pas vrai lorsque le nombre de classes inconnues est élevé.
D'un autre côté, la vision peut élargir les capacités des modèles linguistiques. Nous le démontrons en abordant la génération de questions visuelles (VQG), qui étend la tâche standard de génération de questions en utilisant une image comme entrée complémentaire, en utilisant des représentations visuelles dérivées de la vision par ordinateur.
Soutenance : 26/11/2020
Membres du jury :
Mr Yannis Avrithis (INRIA Rennes-Bretagne Atlantique) [Rapporteur]
Mr Loic Barrault (University of Sheffield) [Rapporteur]
Mr Patrick Gallinari (LIP6, MLIA)
Mr Benjamin Piwowarski (LIP6, MLIA, CNRS)
Mrs Diane Bouchacourt (FAIR)
Mme Catherine Pelachaud (ISIR)
Publications 2017-2020
-
2020
- P. Bordes : “Apprentissage Multimodal Profond pour un Raisonnement Textuel et Visuel Joint”, soutenance de thèse, soutenance 26/11/2020, direction de recherche Gallinari, Patrick, co-encadrement : Piwowarski, Benjamin (2020)
-
2019
- P. Bordes, É. Zablocki, L. Soulier, B. Piwowarski, P. Gallinari : “Incorporating Visual Semantics into Sentence Representations within a Grounded Space”, 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing, Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), Hong Kong, China, pp. 696-707, (Association for Computational Linguistics) (2019)
- É. Zablocki, P. Bordes, B. Piwowarski, L. Soulier, P. Gallinari : “Context-Aware Zero-Shot Learning for Object Recognition”, Thirty-sixth International Conference on Machine Learning (ICML), Long Beach, CA, United States (2019)
- P. Bordes, É. Zablocki, L. Soulier, B. Piwowarski : “Un modèle multimodal d’apprentissage de représentations de phrases qui préserve la sémantique visuelle”, COnférence en Recherche d'Informations et Applications, COnférence en Recherche d'Informations et Applications - CORIA 2019, 16th French Information Retrieval Conference. Lyon, France, May 25-29, 2019. Proceedings, Lyon, France (2019)
-
2017
- É. Zablocki, P. Bordes, L. Soulier, B. Piwowarski, P. Gallinari : “LIP6@CLEF2017: Multi-Modal Spatial Role Labeling using Word Embeddings Working notes”, CLEF 2017 Working Notes, Dublin, Ireland (2017)