PEHLIVAN Zeynep
Direction de recherche : Anne DOUCET
Co-encadrement : GANÇARSKI Stéphane, PIWOWARSKI Benjamin
Accès aux archives Web: Interrogation, Navigation et Optimisation
Le Web crée chaque jour une quantité importante de connaissances culturelles et intellectuelles. Ses informations sont de nature éphémère car elles sont constamment remplacées, parfois sans aucune notification. C’est pour cette raison que l’archivage du web est devenue une nécessité culturelle afin de préserver la connaissance pour les prochaines générations. Son succès sera cependant mesuré par ses modes d’accès, comme ceux fournis jusqu’ici par le web. Notre recherche situe dans le contexte de l’accès aux archives web, et étudie les différents problèmes d’accès qui y sont liés. Ces problèmes sont groupés en deux thèmes principaux : Méthodes d’accès et Optimisation des accès. Pour les méthodes d’accès, nous proposons la base d’un langage de requête ayant par objectif de de mieux satisfaire les besoins d’information des utilisateurs. Une nouvelle méthode de navigation est ensuite introduite, qui prend en compte la cohérence des pages. Pour l’optimisation de l’accès, nous proposons un algorithme de détection de changement pour comprendre et quantifier ce qui s’est passé (et a donc changé) entre deux versions d’une même page Web. Nous étudions aussi le comportement des différentes méthodes d’élagage d’index statiques avec des requêtes temporelles. En outre, nous proposons une nouvelle méthode d’élagage index statiques basée sur la diversification et nous montrons son application aux collections temporelles et un gain supstanciel de performance par rapport aux autres approaches.
Soutenance : 11/10/2013
Membres du jury :
Sihem AMER-YAHIA CNRS / LIG [Rapporteur]
Arjen P. DE VRIES Université Delft [Rapporteur]
François BANCILHON DataPublica
Matthieu CORD UPMC Paris 6
David GROSS-AMBLARD Université de Rennes 1
Pierre SENELLART Télécom ParisTech
Anne DOUCET UPMC Paris 6
Stéphane GANÇARSKI UPMC Paris 6
Benjamin PIWOWARSKI, CNRS / LIP6
Publications 2010-2013
-
2013
- Z. Pehlivan : “Access to web archives: Querying, Navigating and Optimizing”, soutenance de thèse, soutenance 11/10/2013, direction de recherche Doucet, Anne, co-encadrement : Gançarski, Stéphane, Piwowarski, Benjamin (2013)
- Z. Pehlivan, B. Piwowarski, S. Gançarski : “Diversification Based Static Index Pruning - Application to Temporal Collections”, (2013)
- Z. Pehlivan, B. Piwowarski, S. Gançarski : “A comparison of static index pruning methods with temporal queries”, SIGIR 2013 Workshop on Time-aware Information Access, TAIA2013, Dublin, Ireland, pp. 26-29 (2013)
-
2011
- M. Ben Saad, Z. Pehlivan, S. Gançarski : “Coherence-oriented Crawling and Navigation for Web Archives using Patterns”, 27es journées Bases de Données Avancées, BDA'11, Rabat, Morocco (2011)
- M. Ben Saad, Z. Pehlivan, S. Gançarski : “Coherence-oriented Crawling and Navigation for Web Archives using Patterns”, International Conference on Theory and Practice of Digital Libraries, TPDL 2011, vol. 6966, Lecture Notes in Computer Science, Berlin, Germany, pp. 421-433, (Springer) (2011)
- Z. Pehlivan, S. Gançarski, A. Doucet : “Changing Vision for Access to Web Archives”, Temporal Web Analytics Workshop (in conjunction with WWW 2011), vol. 707, CEUR-WS, Hyderabad, India, pp. 41-48, (CEUR) (2011)
-
2010
- Z. Pehlivan, M. Ben Saad, S. Gançarski : “Vi-DIFF: Understanding Web Pages Changes”, DEXA 2010, 21st International Conference on Database and Expert Systems Applications, vol. 6261, Lecture Notes in Computer Science, Bilbao, Spain, pp. 1-15, (Springer) (2010)