BAME Ndiouma

doctorant à Sorbonne Université
Équipe : BD
https://lip6.fr/Ndiouma.Bame

Direction de recherche : Bernd AMANN

Co-encadrement : NAACKE Hubert, NDIAYE Samba

Gestion de données complexes pour la modélisation de niche écologique

Le phénomène du Big Data est de plus en plus perçu comme l’un des grands défis informatique de la décennie en cours. De nombreux domaines font face à un déluge de données sans précédent. La quantité des données produites augmente constamment et rend leur traitement de plus en plus difficile à gérer avec les outils actuels. L’accès, l’interrogation et l’analyse de ces nouvelles masses de données sont essentiels pour élargir les connaissances du domaine y afférent et et font parties des défis majeurs du Big Data. Ceci est particulièrement crucial dans des domaines tels que les média sociaux, la génomique, la climatologie, les réseaux énergétiques complexes, l’astronomie, l’écologie et la biodiversité. La gestion de ces masses de données nécessite l’utilisation de nouveaux systèmes de gestion de données disposant de méthodes d’accès performantes et permettant d’exprimer des requêtes avec des langages de haut niveau. Un aspect particulièrement difficile à prendre en compte est le comportement très versatile des utilisateurs. Cela génère des demandes très fluctuantes : la charge est variable en nombre de requêtes, certaines données sont plus populaires que d’autres, la popularité est elle-même fluctuante ; une données n’est populaire que pendant une durée limitée. Or les solutions actuelles n’ont pas été conçues pour s’adapter dynamiquement à ce type de situation. Cette thèse se déroule dans le contexte du GBIF, initiative visant à fédérer et partager les données de biodiversité produites par de nombreux fournisseurs à l’échelle mondiale. Le GBIF propose actuellement des services pour interroger les données et les visualiser. Toutefois, avec un nombre croissant de fournisseurs qui ajoutent de nouvelles données et d’utilisateurs qui expriment de nouveaux besoins d’interrogation, l’accès aux données du GBIF pose un double problème d’expressivité et d’efficacité difficile à résoudre. L’objectif principal de cette thèse, est de concevoir une solution qui offre un accès plus expressif et efficace à une très grande base de données, lorsque le nombre d’utilisateurs devient très grand.
Dans cette thèse, nous proposons une solution générale qui tient compte des spécificités réelles du cas d’usage du GBIF. Les résultats sont les suivants : 1) La conception d’une architecture décentralisée qui mutualise un grand nombre de ressources de stockage et de traitement de données. Partant du constat que les ressources disponibles sont très hétérogènes et réparties à large échelle. L’architecture est conçue pour agréger simplement et dynamiquement des nouvelles ressources, coordonner le stockage et l’interrogation entre les ressources. Elle peut être couplée de manière non intrusive avec des sources de données existantes, tout en permettant de manipuler les données indépendamment des sources. 2) La définition d’une solution de répartition dynamique des données à la demande. Les données sont fragmentées en fonction des requêtes. Les prédicats pour la fragmentation portent sur les dimensions hiérarchiques des données. Le placement des fragments et leur éventuelle réplication s’adapte dynamiquement à la charge des requêtes tout en tenant compte de la taille des ressources de stockage disponibles, à l’aide d’une fonction de coût. 3) Un modèle pour l’exécution répartie des requêtes dans cette architecture. Une requête est traitée en parallèle lorsque les données sont réparties sur plusieurs machines. L’exécution est décentralisée de telle sorte que toute machine peut recevoir les requêtes de plusieurs utilisateurs et gérer leur exécution. 4) Une méthode d’optimisation de requête qui considère plusieurs paramètres susceptibles d’impacter le coût de la requête : la fluctuation et la disparité des charges, la disparité des capacités de calcul et des liens de communication, la localisation des données impliquées, le schéma de fragmentation des données et les prédicats des requêtes. Ayant comme objectif de traiter la plupart des requêtes avec un temps de réponse borné, la solution ajuste dynamiquement le schéma de placement et de réplication des données. Les fragments les plus sollicités sont détectés et sont répliqués afin de répartir les demandes sur plusieurs machines. Le choix de l’emplacement d’un fragment tend à favoriser la localité des requêtes en regroupant les fragments lus par une requête. 5) Une mise en œuvre de la solution proposée et sa validation expérimentale dans le cas réel de d’analyse de la biodiversité avec les données du GBIF et des requêtes d’experts du domaine. Les résultats obtenus, en utilisant un cluster de 200 cœurs, montrent la faisabilité de la solution décentralisée non-intrusive pour le traitement réparti de requêtes complexes. Ils montrent le bénéfice d’adapter dynamiquement le schéma de placement des fragments en fonction de leur popularité et de la charge des sites. Les performances de notre solution sont satisfaisantes : notre approche s’avère efficace pour garantir un temps de réponse borné et un débit acceptable. Les résultats de l'évaluation du passage à l'échelle sont prometteurs : le débit supporté croit presque linéairement avec le nombre de sites qui composent le système.

Soutenance : 19/06/2015

Membres du jury :

Claudia RONCANCIO, Professeur Université de Grenoble [Rapporteur]
Pascal MOLLI, Professeur Université de Nantes [Rapporteurs]
Régine VIGNES-LEBBE, Professeur UPMC
Maude MANOUVRIER, Maître de Conférences Université Paris-Dauphine
Bernd AMANN, Professeur UPMC
Hubert NAACKE, Maître de Conférences UPMC
Samba NDIAYE, Maître de Conférences UCAD (HDR) (Sénégal)
Idrissa SARR, Maître Assistant UCAD (Sénégal)

Date de départ : 19/06/2015

Publications 2012-2023