Annuaire

VERGER Mélina

Doctorante à Sorbonne Université
Équipe : MOCAH
https://melinaverger.github.io/

Direction de recherche : Vanda LUENGO
Co-encadrement : BOUCHET François, LALLÉ Sébastien

Analyses de l'équité algorithmique pour l'apprentissage automatique en éducation

Cette thèse vise à évaluer et réduire l’iniquité algorithmique des modèles d’apprentissage automatique largement utilisés en éducation. En effet, ces modèles prédictifs, fondés sur des données éducatives et des traces d’apprentissage de plus en plus abondantes, ont pour but d’améliorer l’expérience d’apprentissage humain. Ils permettent, par exemple, de prédire le décrochage scolaire ou de personnaliser l’expérience d’apprentissage en adaptant les contenus éducatifs selon les besoins de chaque apprenant et apprenante.

Cependant, il a été démontré à plusieurs reprises que ces modèles peuvent produire des prédictions biaisées et discriminantes, le plus souvent du fait de prédictions systématiquement moins bonnes observées pour les personnes noires comparées aux personnes blanches, et pour les femmes comparées aux hommes. Il est donc devenu crucial d’évaluer l’équité des résultats des modèles prédictifs, vis-à-vis des différents groupes présents dans les données.

Les travaux de l’état de l’art se sont concentrés sur la comparaison entre groupes des performances prédictives des modèles considérés. Par exemple, pour un classifieur binaire et pour les groupes hommes/femmes, le taux de bonnes prédictions est calculé pour chaque groupe, et la différence entre ces taux indiquerait une iniquité. Bien que cette approche soit prédominante dans la littérature, elle ne capture l’iniquité qu’en termes de performance prédictive, alors que celle-ci peut se manifester sous d’autres formes et de manière plus nuancée qu’une différence de taux, ce qui doit être approfondi.

L'objectif principal de cette thèse est donc d’approfondir la compréhension et l’évaluation de l’iniquité algorithmique, pour ensuite identifier son éventuelle présence dans des contextes sous-étudiés. Ces contextes incluent à la fois des attributs sensibles et des populations d’apprenants et apprenantes peu, voire pas considérés.

Pour ce faire, nous avons conçu une nouvelle mesure d’équité algorithmique, abrégée MADD, qui s’appuie sur les distributions des résultats des modèles d’apprentissage supervisé. Cette approche par les distributions permet en plus d’exploiter des analyses graphiques pour comprendre l’iniquité quantifiée par la MADD. Nous avons démontré théoriquement et expérimentalement la validité de cette mesure, et avons ainsi découvert que les potentielles iniquités observées dans les données ne sont pas toujours reflétées dans les résultats des modèles, par exemple cela a été le cas pour le biais de genre de nos expériences.

De plus, nous avons développé une technique de réduction de l’iniquité utilisant la MADD, ainsi que de nouvelles méthodes d’évaluation pour plusieurs attributs sensibles simultanément. En effet, la littérature considère chaque attribut séparément, alors que la théorie de l’intersectionnalité de Crenshaw (1989, 1991) défend l’idée que leurs influences combinées produisent des discriminations uniques et différentes pour certains groupes. Nos résultats expérimentaux montrent que certaines combinaisons augmentent, réduisent, ou maintiennent le niveau d’iniquité observé initialement.

Enfin, nous avons mené des analyses d’équité pour de nouveaux attributs sensibles, démographiques ou liés au contexte d’apprentissage, et avec de nouvelles populations d’apprenants et apprenantes, de pays d’Afrique, de Philippines, d’Haïti et de France, grâce à la collecte de données issues d’un MOOC (Massive Open Pnline Course) et d’une plateforme en ligne (Canvas LMS). Ces expériences ont révélé des iniquités qui n’ont pas été découvertes auparavant, apportant ainsi un éclairage sur les potentielles iniquités réelles présentes dans ces contextes d’étude.

Afin de faciliter les réplications de nos travaux ainsi que l’application de nos méthodes dans d’autres contextes, nous avons créé une librairie Python open source, nommée maddlib. Les données (sauf celles des Philippines) et nos codes documentés sont également disponibles en ligne.

Soutenance : 20/12/2024

Membres du jury :

Nicolas Roussel, DR, Inria Bordeaux [rapporteur]
Agathe Merceron, PR, BHT Berlin, [rapportrice]
Sébastien Destercke, DR, UTC Compiègne
Mykola Pechenizkiy, PR, TU Eindhoven
Mar Pérez-Sanagustín, MCF, Univ. Paul Sabastier Toulouse III, PUC Chile
Vanda Luengo, PR, Sorbonne Université
François Bouchet, MCF, Sorbonne Université
Sébastien Lallé, MCF, Sorbonne Université

Lien de la visio : https://zoom.us/j/97632100054

Date de départ : 31/12/2024

Publications 2022-2024

Toutes Articles de revues Communications Soutenance de thèse

2024
- M. Verger : “Algorithmic fairness analyses of supervised machine learning in education”, soutenance de thèse, soutenance 20/12/2024, direction de recherche Luengo, Vanda, co-encadrement : Bouchet, François, Lallé, Sébastien (2024)
- V. Švábenský, M. Verger, Maria Mercedes T. Rodrigo, Clarence James G. Monterozo, R. Baker, M. Saavedra, S. Lallé, A. Shimada : “Evaluating Algorithmic Bias in Models for Predicting Academic Performance of Filipino Students”, Proceedings of the 17^th International Conference on Educational Data Mining (EDM 2024), Atlanta, GA, United States (2024)
- M. Verger, Ch. Fan, S. Lallé, F. Bouchet, V. Luengo : “A Comprehensive Study on Evaluating and Mitigating Algorithmic Unfairness with the MADD Metric”, Journal of Educational Data Mining, vol. 16 (1), pp. 365–409, (International Educational Data Mining Society) (2024)
- M. Verger, F. Bouchet, S. Lallé, V. Luengo : “Intersectionalinity : deepen algorithmic fairness evaluation. The case study of academic performance prediction using data from online courses”, STICEF (Sciences et Technologies de l'Information et de la Communication pour l'Éducation et la Formation), vol. 31 (1), Numéro spécial EIAH 2023, (ATIEF) (2024)
- S. Lallé, F. Bouchet, M. Verger, V. Luengo : “Fairness of MOOC Completion Predictions Across Demographics and Contextual Variables”, Proceedings of the 25^th International Conference on Artificial Intelligence in Education, vol. 14829, Lecture Notes in Computer Science, Recife, Brazil, pp. 379-393, (Springer Nature Switzerland) (2024)
2023
- M. Verger, Ch. Fan, S. Lallé, F. Bouchet, V. Luengo : “A Fair Post-Processing Method based on the MADD Metric for Predictive Student Models”, 1^st International Tutorial and Workshop on Responsible Knowledge Discovery in Education (RKDE 2023) at ECML PKDD 2023, Turino, Italy (2023)
- M. Verger, S. Lallé, F. Bouchet, V. Luengo : “Is Your Model "MADD"? A Novel Metric to Evaluate Algorithmic Fairness for Predictive Student Models”, Proceedings of the 16^th International Conference on Educational Data Mining, Bengaluru, India, (ISBN: 978-1-7336736-4-8) (2023)
- M. Verger, F. Bouchet, S. Lallé, V. Luengo : “Caractérisation et mesure des discriminations algorithmiques dans la prédiction de la réussite à des cours en ligne”, EIAH2023 : 11^e Conférence sur les Environnements Informatiques pour l'Apprentissage Humain, Brest, France (2023)
2022
- M. Verger : “Investiguer la notion d’équité algorithmique dans les environnements informatiques pour l’apprentissage humain”, Actes des neuvièmes rencontres jeunes chercheur·e·s en EIAH, Lille, France, pp. 44-51 (2022)