MAZARI Ahmed

doctorant à Sorbonne Université
Équipe : MLIA
https://scholar.google.fr/citations?user=KkPlX-EAAAAJ&hl=en

Direction de recherche : Hichem SAHBI

Réseaux de Neurones Convolutifs sur les Graphes et Apprentissage par Noyaux Multiples pour la Reconnaissance d'Actions dans les Vidéos

De nos jours, les contenus vidéos sont omniprésents grâce à Internet et les smartphones, ainsi que les médias sociaux. De nombreuses applications de la vie quotidienne, telles que la vidéo surveillance et la description de contenus vidéos, ainsi que la compréhension de scènes visuelles, nécessitent des technologies sophistiquées permettant d'analyser et interpréter automatiquement de grandes quantités de vidéos. Dans cette thèse, nous nous intéressons à la reconnaissance d'actions dans les vidéos, c.a.d au problème d'attribution de catégories d'actions aux séquences vidéos. Cette tâche est considérée comme une étape clé pour construire la prochaine génération des systèmes visuels. Nous l'abordons avec les méthodes d'intelligence artificielle, sous le paradigme de l'apprentissage automatique et de l'apprentissage profond, notamment les réseaux de neurones convolutifs.
Les réseaux de neurones convolutifs actuels sont de plus en plus profonds, plus gourmands en données et leur succès est tributaire de l'abondance des données d'entraînement étiquetées. Les réseaux de neurones convolutifs s'appuient également sur le pooling qui réduit la dimensionnalité des couches de sortie (et donc atténue leur sensibilité au manque de données étiquetées); cependant, ce processus peut diluer l'information des couches convolutives et affecter le pouvoir discriminant des représentations vidéos obtenues, notamment lorsque les catégories d'actions apprises sont de granularités fines. Dans la première partie de cette thèse, nous introduisons une méthode d'agrégation et de pooling hiérarchique basée sur une pyramide temporelle, qui permet de contrôler la granularité des représentations apprises par rapport à la granularité réelle des catégories d'actions. En plus, les réseaux de neurones convolutifs sont essentiellement conçus pour traiter des données vectorielles (telles que les images fixes) mais leur extension aux données non vectorielles et semi-structurées (à savoir des graphes de taille variable, ayant une forte variation topologique, etc.) reste un défi majeur. Dans la deuxième partie de cette thèse, nous introduisons un réseau de neurones convolutif sur les graphes basé sur une décomposition spectrale des graphes Laplaciens. La méthode proposée consiste à apprendre des Laplaciens de graphes sous forme de combinaisons convexes d'autres Laplaciens élémentaires ou chacun est dédié à une topologie particulière des graphes en entrée. Par la suite, nous introduisons un opérateur de pooling, sur les graphes, qui est invariant par permutation des nœuds. Tous les modèles proposés sont évalués sur des jeux de données standards et les résultats obtenus sont compétitifs avec ceux de l'état de l'art.
Mots clés: Apprentissage de Représentations Vidéos, Apprentissage d'Agrégations Multiples, Pooling Hiérarchique, Construction de Graphes, Pooling et Convolution sur les Graphes, Apprentissage Profond Géométrique

Soutenance : 22/09/2020

Membres du jury :

M. Frédéric Dufaux, Director of Research at the CNRS, CentraleSupelec, Université Paris-Saclay, Thesis Reviewer
M. Hichem Snoussi, Professor at Université de Technologie de Troyes, Thesis Reviewer
Mme. Catherine Achard, Senior Lecturer (HDR) at Sorbonne Université - ISIR, Examiner
M. Michel Crucianu, Professor at CNAM, Paris, Examiner
Mme. Nicole Vincent, Professor at Université de Paris, Examiner
M. Hichem Sahbi, Researcher at CNRS (HDR), Sorbonne Université - LIP6, Thesis Director

Date de départ : 22/09/2020

Publications 2019-2024