NGOM Bassirou

PhD student at Sorbonne University
Team : DELYS
https://perso.lip6.fr/Bassirou.Ngom

Supervision : Mesaac MAKPANGOU

Co-supervision : NDIAYE Samba

Freecore : un systĂšme d’indexation de rĂ©sumĂ©s de document sur une Table de Hachage DistribuĂ©e (DHT)

Cette thĂšse Ă©tudie la problĂ©matique de l’indexation et de la recherche dans les tables de hachage distribuĂ©es (Distributed Hash Table --DHT). Elle propose un systĂšme de stockage distribuĂ© des rĂ©sumĂ©s de documents en se basant sur leur contenu. ConcrĂštement, la thĂšse utilise les Filtres de Blooms (FBs) pour reprĂ©senter les rĂ©sumĂ©s de documents et propose une mĂ©thode efficace d’insertion et de rĂ©cupĂ©ration des documents reprĂ©sentĂ©s par des FBs dans un index distribuĂ© sur une DHT. Le stockage basĂ© sur contenu prĂ©sente un double avantage, il permet de regrouper les documents similaires afin de les retrouver plus rapidement et en mĂȘme temps, il permet de retrouver les documents en faisant des recherches par mots-clĂ©s en utilisant un FB. Cependant, la rĂ©solution d’une requĂȘte par mots-clĂ©s reprĂ©sentĂ©e par un filtre de Bloom constitue une opĂ©ration complexe, il faut un mĂ©canisme de localisation des filtres de Bloom de la descendance qui reprĂ©sentent des documents stockĂ©s dans la DHT.
Ainsi, la thĂšse propose dans un deuxiĂšme temps, deux index de filtres de Bloom distribuĂ©s sur des DHTs. Le premier systĂšme d’index proposĂ© combine les principes d’indexation basĂ©e sur contenu et de listes inversĂ©es et rĂ©pond Ă  la problĂ©matique liĂ©e Ă  la grande quantitĂ© de donnĂ©es stockĂ©e au niveau des index basĂ©s sur contenu. En effet, avec l’utilisation des filtres de Bloom de grande longueur, notre solution permet de stocker les documents sur un plus grand nombre de serveurs et de les indexer en utilisant moins d’espace.
Ensuite, la thĂšse propose un deuxiĂšme systĂšme d’index qui supporte efficacement le traitement des requĂȘtes de sur-ensembles (des requĂȘtes par mots-clĂ©s) en utilisant un arbre de prĂ©fixes. Cette derniĂšre solution exploite la distribution des donnĂ©es et propose une fonction de rĂ©partition paramĂ©trable permettant d’indexer les documents avec un arbre binaire Ă©quilibrĂ©. De cette maniĂšre, les documents sont rĂ©partis efficacement sur les serveurs d’indexation. En outre, la thĂšse propose dans la troisiĂšme solution, une mĂ©thode efficace de localisation des documents contenant un ensemble de mots-clĂ©s donnĂ©s. ComparĂ© aux solutions de mĂȘme catĂ©gorie, cette derniĂšre solution permet d’effectuer des recherches de sur-ensembles en un moindre coĂ»t et constitue est une base solide pour la recherche de sur-ensembles sur les systĂšmes d’index construits au-dessus des DHTs.
Enfin, la thĂšse propose le prototype d’un systĂšme pair-Ă -pair pour l’indexation de contenus et la recherche par mots-clĂ©s. Ce prototype, prĂȘt Ă  ĂȘtre dĂ©ployĂ© dans un environnement rĂ©el, est expĂ©rimentĂ© dans l’environnement de simulation peersim qui a permis de mesurer les performances thĂ©oriques des algorithmes dĂ©veloppĂ©s tout au long de la thĂšse.

Defence : 07/13/2018

Jury members :

Lionel Seinturier, professeur université Lille 1 [rapporteur]
Eddy Caron, Mdc HDR, ENS Lyon [rapporteur]
Pierre Sens, professeur Sorbonne Université
Maria POTOP-BUTUCARU, professeur Sorbonne Université
Moussa Lô, professeur université Gaston Berger, Sénégal
Samba Ndiaye, Mdc, université Check ANta Diop, Dakar, Sénégal
Mesaac Makpangou, Chargé de Recherche, HDR, INRIA

Departure date : 07/13/2018

2012-2018 Publications