- Laboratoire d’informatique

LE GUILLOU Ève

Doctorante à Sorbonne Université
Équipe : APR
    Sorbonne Université - LIP6
    Boîte courrier 169
    Couloir 25-26, Étage 3, Bureau 302
    4 place Jussieu
    75252 PARIS CEDEX 05

01 44 27 88 79
Eve.Le-Guillou (at) nulllip6.fr
https://lip6.fr/Eve.Le-Guillou

Direction de recherche : Julien TIERNY, Pierre FORTIN

Analyse topologique de données, Calcul haute performance, Science des données, Visualisation

L’Analyse Topologique de Données (TDA) vise à encoder de manière concise les caractéristiques structurelles de jeux de données afin de faciliter leur analyse et leur visualisation. Avec l’augmentation constante de la taille de ces données, qui dépassent de plus en plus souvent la capacité mémoire d’un ordinateur, le recours à des systèmes à mémoire distribuée, ou superordinateurs, offrant des ressources bien plus importantes, devient indispensable.Toutefois, adapter un algorithme aux superordinateurs requiert des modifications substantielles pour assurer à la fois l’exactitude des résultats et l’efficacité des calculs. Les algorithmes de TDA posent notamment des défis dans ce contexte, car ils nécessitent un accès global aux données et plusieurs parcours du jeu de données, avec peu de calculs, une combinaison qui passe généralement mal à l’échelle. De plus, les implémentations existantes pour la mémoire distribuée se concentre sur le calcul d’une seule représentation topologique. Le Topology ToolKit (TTK)vise à fournir un cadre unifié pour les algorithmes TDA avec une structure de données réutilisable et efficace.Cependant, il était jusqu’à présent limité au parallélisme à mémoire partagée. Dans cette thèse, nous ajoutons le support pour la mémoire distribuée à TTK grâce à MPI (Message Passing Interface). Dans un premier temps, nous adaptons la structure de données centrale de TTK et ajoutons le support du distribué à plusieurs algorithmes existants. Les tests de performance montrent l’efficacité de chaque algorithme ainsi que de l’infrastructure logicielle globale. De plus, nous appliquons un pipeline d’analyse topologique réel à deux jeux de données massifs afin de prouver la capacité de notre logiciel à traiter des jeux de données de grande taille. Ensuite, nous concentrons nos efforts sur une abstraction beaucoup plus complexe : le diagramme de persistance. Sa robustesse et sa fiabilité en font l’une des représentations topologiques les plus utilisées. Le Discrete Morse Sandwich (DMS) est actuellement l’algorithme le plus efficace pour calculer le diagramme sur un nœud. Notre nouvelle méthode, le Distributed Discrete Morse Sandwich (DDMS), repose sur DMS et introduit des modifications adaptées à chaque étape du calcul, aboutissant à une implémentation hybride MPI+thread. Des tests de performance montrent les gains de notre approche par rapport à la méthode DMS originale ainsi qu’à Dipha, la méthode de référence pour le calcul des diagrammes de persistance en distribué. Notre approche permet le calcul de diagrammes de persistance sur des jeux de données contenant jusqu’à 6 milliards de sommets.


Soutenance : 10/10/2025 - 15h - Bâtiment ESPRIT, avenue Paul Langevin, 59650 Villeneuve-d'Ascq (Salle : Atrium)

Membres du jury :

Tom PETERKA, Argonne National Laboratory [Rapporteur]
David COEURJOLLY, CNRS [Rapporteur]
Julien TIERNY, CNRS
Isabelle BLOCH, Sorbonne Université
Bruno RAFFIN, Inria
Federico IURICICH, Clemson University
Christophe CALVIN, CEA
Pierre FORTIN, Université de Lille

Publications 2024

  • 2024
    • E. Le Guillou, M. Will, P. Guillou, J. Lukasczyk, P. Fortin, Ch. Garth, J. Tierny : “TTK is Getting MPI-Ready”, IEEE Transactions on Visualization and Computer Graphics, pp. 1-18, (Institute of Electrical and Electronics Engineers) (2024)