SIMON Etienne
Direction de recherche : Vincent GUIGUE
Co-encadrement : PIWOWARSKI Benjamin
Apprentissage de réseaux profonds pour l'indexation conceptuelle de texte
Détecter les relations exprimées dans un texte est un problème fondamental de la compréhension du langage naturel. Il constitue un pont entre deux approches historiquement distinctes de l'intelligence artificielle, celles à base de représentations symboliques et distribuées. Cependant, aborder ce problème sans supervision humaine pose plusieurs problèmes et les modèles non supervisés ont des difficultés à faire écho aux avancées des modèles supervisés. Cette thèse aborde deux lacunes des approches non supervisées : le problème de la régularisation des modèles discriminatifs et le problème d'exploitation des informations relationnelles à partir des structures des jeux de données. La première lacune découle de l'utilisation de réseaux neuronaux profonds. Ces modèles ont tendance à s'effondrer sans supervision. Pour éviter ce problème, nous introduisons deux fonctions de coût sur la distribution des relations pour contraindre le classifieur dans un état entraînable. La deuxième lacune découle du développement des approches au niveau des jeux de données. Nous montrons que les modèles non supervisés peuvent tirer parti d'informations issues de la structure des jeux de données, de manière encore plus décisive que les modèles supervisés. Nous exploitons ces structures en adaptant les méthodes non supervisées existantes pour capturer les informations topologiques à l'aide de réseaux convolutifs pour graphes. De plus, nous montrons que nous pouvons exploiter l'information mutuelle entre les données topologiques et linguistiques pour concevoir un nouveau paradigme d'entraînement pour l'extraction non supervisée de relations.
Soutenance : 05/07/2022
Membres du jury :
Alexandre Allauzen, Professeur des universités, Université Paris-Dauphine PSL, ESPCI [rapporteur]
Benoît Favre, Maître de conférences, Aix-Marseille Université [rapporteur]
Pascale Sébillot, Professeure des universités, IRISA, INSA Rennes
Xavier Tannier, Professeur des universités, Sorbonne Université
Benjamin Piwowarski, Chargé de recherche, CNRS, Sorbonne Université
Vincent Guigue, Maître de conférences, Sorbonne Université
Publications 2019-2022
-
2022
- E. Simon : “Apprentissage de réseaux profonds pour l’indexation conceptuelle de texte”, soutenance de thèse, soutenance 05/07/2022, direction de recherche Guigue, Vincent, co-encadrement : Piwowarski, Benjamin (2022)
-
2019
- É. Simon, V. Guigue, B. Piwowarski : “Unsupervised Information Extraction: Regularizing Discriminative Approaches with Relation Distribution Losses”, Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, pp. 1378-1387, (Association for Computational Linguistics) (2019)
- É. Simon, V. Guigue, B. Piwowarski : “Extraction d’information non supervisée avec des modèles discriminants”, CAp 2019 - 21e Conférence sur l'Apprentissage automatique, Toulouse, France (2019)