PEHLIVAN Zeynep

doctorant à Sorbonne Université
Équipe : BD
https://perso.lip6.fr/Zeynep.Pehlivan
https://perso.lip6.fr/Zeynep.Pehlivan

Direction de recherche : Anne DOUCET

Co-encadrement : GANÇARSKI Stéphane, PIWOWARSKI Benjamin

Accès aux archives Web: Interrogation, Navigation et Optimisation

Le Web crée chaque jour une quantité importante de connaissances culturelles et intellectuelles. Ses informations sont de nature éphémère car elles sont constamment remplacées, parfois sans aucune notification. C’est pour cette raison que l’archivage du web est devenue une nécessité culturelle afin de préserver la connaissance pour les prochaines générations. Son succès sera cependant mesuré par ses modes d’accès, comme ceux fournis jusqu’ici par le web. Notre recherche situe dans le contexte de l’accès aux archives web, et étudie les différents problèmes d’accès qui y sont liés. Ces problèmes sont groupés en deux thèmes principaux : Méthodes d’accès et Optimisation des accès. Pour les méthodes d’accès, nous proposons la base d’un langage de requête ayant par objectif de de mieux satisfaire les besoins d’information des utilisateurs. Une nouvelle méthode de navigation est ensuite introduite, qui prend en compte la cohérence des pages. Pour l’optimisation de l’accès, nous proposons un algorithme de détection de changement pour comprendre et quantifier ce qui s’est passé (et a donc changé) entre deux versions d’une même page Web. Nous étudions aussi le comportement des différentes méthodes d’élagage d’index statiques avec des requêtes temporelles. En outre, nous proposons une nouvelle méthode d’élagage index statiques basée sur la diversification et nous montrons son application aux collections temporelles et un gain supstanciel de performance par rapport aux autres approaches.

Soutenance : 11/10/2013

Membres du jury :

Sihem AMER-YAHIA CNRS / LIG [Rapporteur]
Arjen P. DE VRIES Université Delft [Rapporteur]
François BANCILHON DataPublica
Matthieu CORD UPMC Paris 6
David GROSS-AMBLARD Université de Rennes 1
Pierre SENELLART Télécom ParisTech
Anne DOUCET UPMC Paris 6
Stéphane GANÇARSKI UPMC Paris 6
Benjamin PIWOWARSKI, CNRS / LIP6

Date de départ : 30/06/2014

Publications 2010-2013