VERGER Mélina

Doctorante à Sorbonne Université (Monitrice, )
Équipe : MOCAH
Date d'arrivée : 01/11/2021
    Sorbonne Université - LIP6
    Boîte courrier 169
    Couloir 26-00, Étage 5, Bureau 525
    4 place Jussieu
    75252 PARIS CEDEX 05

Tel: 01 44 27 84 23, Melina.Verger (at) nulllip6.fr
https://melinaverger.github.io/
https://melinaverger.github.io/

Direction de recherche : Vanda LUENGO

Co-encadrement : BOUCHET François LALLÉ Sébastien

Analyses de l'équité algorithmique pour l'apprentissage automatique en éducation

Cette thèse vise à évaluer et réduire l’iniquité algorithmique des modèles d’apprentissage automatique largement utilisés en éducation. En effet, ces modèles prédictifs, fondés sur des données éducatives et des traces d’apprentissage de plus en plus abondantes, ont pour but d’améliorer l’expérience d’apprentissage humain. Ils permettent, par exemple, de prédire le décrochage scolaire ou de personnaliser l’expérience d’apprentissage en adaptant les contenus éducatifs selon les besoins de chaque apprenant et apprenante. Cependant, il a été démontré à plusieurs reprises que ces modèles peuvent produire des prédictions biaisées et discriminantes, le plus souvent du fait de prédictions systématiquement moins bonnes observées pour les personnes noires comparées aux personnes blanches, et pour les femmes comparées aux hommes. Il est donc devenu crucial d’évaluer l’équité des résultats des modèles prédictifs, vis-à-vis des différents groupes présents dans les données. Les travaux de l’état de l’art se sont concentrés sur la comparaison entre groupes des performances prédictives des modèles considérés. Par exemple, pour un classifieur binaire et pour les groupes hommes/femmes, le taux de bonnes prédictions est calculé pour chaque groupe, et la différence entre ces taux indiquerait une iniquité. Bien que cette approche soit prédominante dans la littérature, elle ne capture l’iniquité qu’en termes de performance prédictive, alors que celle-ci peut se manifester sous d’autres formes et de manière plus nuancée qu’une différence de taux, ce qui doit être approfondi. L'objectif principal de cette thèse est donc d’approfondir la compréhension et l’évaluation de l’iniquité algorithmique, pour ensuite identifier son éventuelle présence dans des contextes sous-étudiés. Ces contextes incluent à la fois des attributs sensibles et des populations d’apprenants et apprenantes peu voire pas considérés. Pour ce faire, nous avons conçu une nouvelle mesure d’équité algorithmique, abrégée MADD, qui s’appuie sur les distributions des résultats des modèles d’apprentissage supervisé. Cette approche via les distributions permet en plus d’exploiter des analyses graphiques pour comprendre l’iniquité quantifiée par la MADD. Nous avons démontré théoriquement et expérimentalement la validité de cette mesure, et avons ainsi découvert que les potentielles iniquités observées dans les données ne sont pas toujours reflétées dans les résultats des modèles, comme par exemple cela a été le cas pour le biais de genre de nos expériences. De plus, nous avons développé une technique de réduction de l’iniquité utilisant la MADD, ainsi que de nouvelles méthodes d’évaluation pour plusieurs attributs sensibles simultanément. En effet, la littérature considère chaque attribut séparément, alors que la théorie de l’intersectionnalité de Crenshaw (1989, 1991) défend l’idée que leurs influences combinées produisent des discriminations uniques et différentes pour certains groupes. Nos résultats expérimentaux montrent que certaines combinaisons augmentent, réduisent, ou maintiennent le niveau d’iniquité observé initialement. Enfin, nous avons mené des analyses d’équité pour de nouveaux attributs sensibles, démographiques ou liés au contexte d’apprentissage, et avec de nouvelles populations d’apprenants et apprenantes, de pays d’Afrique, de Philippines, d’Haïti et de France, grâce à la collecte de données issues d’un MOOC (ou massive open online course) et d’une plateforme en ligne (Canvas LMS). Ces expériences ont révélé des iniquités qui n’ont pas été découvertes auparavant, apportant ainsi un éclairage sur les potentielles iniquités réelles présentes dans ces contextes d’étude. Afin de faciliter les réplications de nos travaux ainsi que l’application de nos méthodes dans d’autres contextes, nous avons créé une librairie Python open source, nommée maddlib. Les données (sauf celles des Philippines) et nos codes documentés sont également disponibles en ligne.

Publications 2022-2024