CADENE Rémi
Direction de recherche : Matthieu CORD
Co-encadrement : THOME Nicolas
Apprentissage multimodal profond pour le traitement de la vision et du langage
Les technologies du numérique ont joué un rôle déterminant dans la transformation de notre société. Des méthodes statistiques récentes ont été déployées avec succès afin d'automatiser le traitement de la quantité croissante d'images, de vidéos et de textes que nous produisons quotidiennement. En particulier, les réseaux de neurones profonds ont été adapté par les communautés de la vision par ordinateur et du traitement du langage naturel pour leur capacité à interpréter le contenu des images et des textes une fois entraînés sur de grands ensembles de données. Les progrès réalisés dans les deux communautés ont permis de jeter les bases de nouveaux problèmes de recherche à l'intersection entre vision et langage. L'intégration du langage dans la reconnaissance visuelle pourrait avoir un impact important sur la vie humaine grâce à la création d'applications telles que des moteurs de recherche de nouvelle génération ou des smart assistants.
Dans la première partie de cette thèse, nous nous concentrons sur des moteurs de recherche multimodaux images-textes. Nous proposons une stratégie d'apprentissage pour aligner efficacement les deux modalités tout en structurant l'espace de recherche avec de l'information sémantique. Dans la deuxième partie, nous nous concentrons sur des systèmes capables de répondre à toute question sur une image. Nous proposons une architecture multimodale qui fusionne itérativement les modalités visuelles et textuelles en utilisant un modèle bilinéaire factorisé, tout en modélisant les relations par paires entre chaque région de l'image. Dans la dernière partie, nous abordons les problèmes de biais dans la modélisation. Nous proposons une stratégie d'apprentissage réduisant les biais linguistiques généralement présents dans les systèmes de réponse aux questions visuelles.
Soutenance : 08/07/2020
Membres du jury :
Mme. Gabriela Csurka, Naver LABS Europe [rapportrice]
M. Ivan Laptev, INRIA Paris [rapporteur]
M. Patrick Gallinari, Sorbonne Université - LIP6
M. Thomas Serre, Brown University
M. Eduardo Valle, Campinas University - RECOD
M. Nicolas Thome, CNAM - CEDRIC
M. Matthieu Cord, Sorbonne Université - LIP6
Publications 2017-2021
-
2021
- C. Dancette, R. Cadene, D. Teney, M. Cord : “Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in Visual Question Answering”, 2021 International Conference on Computer Vision, Montreal, Canada (2021)
- C. Dancette, R. Cadene, X. Chen, M. Cord : “Learning Reasoning Mechanisms for Unbiased Question-based Counting”, VQA Workshop, CVPR 2021, Nashville, United States (2021)
- C. Dancette, R. Cadene, X. Chen, M. Cord : “Learning Reasoning Mechanisms for Unbiased Question-based Counting”, VQA Workshop,Conference on Computer Vision and Pattern Recognition 2021, Nashville, United States (2021)
-
2020
- R. Cadene : “Deep multimodal learning for vision and language processing”, soutenance de thèse, soutenance 08/07/2020, direction de recherche Cord, Matthieu, co-encadrement : Thome, Nicolas (2020)
-
2019
- R. Cadene, C. Dancette, H. Ben‑younes, M. Cord, D. Parikh : “RUBi: Reducing Unimodal Biases for Visual Question Answering”, Neural Information Processing Systems, vol. 32, Advances in Neural Information Processing Systems, Vancouver, Canada, pp. 841-852, (Curran Associates, Inc.) (2019)
- R. Cadene, H. Ben‑younes, M. Cord, N. Thome : “MUREL: Multimodal Relational Reasoning for Visual Question Answering”, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, United States (2019)
- H. Ben‑younes, R. Cadene, N. Thome, M. Cord : “BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering and Visual Relationship Detection”, AAAI 2019 - 33rd AAAI Conference on Artificial Intelligence, Honolulu, United States (2019)
-
2018
- M. Carvalho, R. Cadene, D. Picard, L. Soulier, N. Thome, M. Cord : “Cross-Modal Retrieval in the Cooking Context”, SIGIR proceedings, Ann Arbor, Michigan, United States, pp. 35-44, (ACM Press) (2018)
- M. Carvalho, R. Cadene, D. Picard, L. Soulier, M. Cord : “Images & Recipes: Retrieval in the cooking context”, International Conference on Data Engineering (ICDE), DECOR workshop, Paris, France (2018)
-
2017
- H. Ben‑younes, R. Cadene, M. Cord, N. Thome : “MUTAN: Multimodal Tucker Fusion for Visual Question Answering”, 2017 IEEE International Conference on Computer Vision (ICCV), 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, pp. 2631-2639, (IEEE) (2017)