GROLLEMUND Vincent

doctorant à Sorbonne Université
Équipe : MoVe
https://lip6.fr/Vincent.Grollemund

Direction de recherche : Jean-François PRADAT-PEYRE

Exploration et modélisation de données peu ou pas structurées

Les modèles d'apprentissage supervisé sont généralement entraînés sur des données aux contraintes limitées. Malheureusement, les données sont souvent rares, incomplètes et biaisées dans de nombreux cas d’applications, et cela entrave la conception de modèles efficaces. De telles données peuvent et doivent néanmoins être exploitées, car elles demeurent des sources précieuses d’information. Elles permettent de découvrir des corrélations pertinentes et de parvenir à des conclusions significatives. Dans cette thèse, nous étudions une approche d'apprentissage non supervisé pour isoler des échantillons minoritaires compris à l’intérieur d’une population plus large. Notre étude intègre deux contextes applicatifs : le pronostic de la Sclérose Latérale Amyotrophique (SLA) et la recommandation aux entreprises de dispositifs publics de financement de l’innovation. Malgré des différences dans leur objectif, ces contextes sont confrontés à des problèmes similaires : une faible disponibilité des données associée à des échantillons non représentatifs et incomplets. Dans les deux cas, l'objectif est de détecter des échantillons d'une population minoritaire : les patients dont le pronostic à un an est défavorable et les sociétés qui ont plus de chances d'obtenir des financements. Les données sont projetées dans un espace bidimensionnel à l'aide de la méthode d’approximation et de projection de variété uniforme (UMAP), une technique de réduction de dimension non linéaire. Les différences de distribution des données sont exploitées de manière à isoler la population minoritaire cible, à l'aide du partitionnement spatial par densité (DBSCAN) et des formes alpha. Les corrélations entre les caractéristiques d'entrée et d’intérêt, que sont la survie à 1 an et l’obtention de financements, deviennent visibles dans l'espace de projection et les échantillons minoritaires sont isolés du reste des données. En dépit des contraintes sur les données, notre approche se révèle pertinente et informative au regard de patients récemment diagnostiqués avec la SLA et d'entreprises qui postulent pour un financement.

Soutenance : 25/06/2021

Membres du jury :

Mme Hélène BLASCO, PU-PH, Université de Tours [rapporteur]
M Patrice BERTAIL, PU, Université de Nanterre [rapporteur]
Mme Emmanuelle ENCRENAZ, MCF-HDR, Sorbonne Université
M François DELBOT, MCF, Sorbonne Université
M Pierre-François PRADAT, PU-PH, Sorbonne Université
M Gaétan LE CHAT, Dr, FRS Consulting
M Jean-François PRADAT-PEYRE, Sorbonne Université

Date de départ : 31/08/2021

Publications 2019-2021