BEN SAAD Myriam
Direction de recherche : Stéphane GANÇARSKI
Qualité des archives Web: modélisation et optimisation
Aujourd'hui, le Web est devenu le moyen le plus important pour véhiculer des informations qui peuvent avoir une grande valeur culturelle, scientifique, économique, etc. Archiver son contenu ou du moins une partie est devenu crucial afin de préserver certaines informations utiles pour les générations futures de chercheurs, écrivains, historiens, etc. Cependant, les archivistes doivent faire face à un grand défi qui consiste à préserver la qualité des données collectées pour garantir la plus grande fidélité du Web. C'est dans cette perspective d'améliorer la qualité des archives que nos travaux de thèse s'inscrivent. Nous nous intéressons aux deux mesures de qualité: la complétude temporelle et la cohérence temporelle qui sont très pertinentes pour évaluer les archives Web. Nous proposons une nouvelle approche d'archivage qui exploite le rendu visuel des pages pour y détecter les changements de la même manière que les utilisateurs les perçoivent. Nous proposons ensuite une méthode pour évaluer l'importance des changements visuels ainsi détectés. Par la suite, nous modélisons l'importance des changements sous forme de patterns, par le modèle PPaC (Pattern of Pages Changes). Contrairement aux modèles déjà existants basés sur un taux moyen de changements, PPaC permet de mieux prédire les moments les plus opportuns durant lesquels des modifications importantes sont censées survenir dans les pages. En se basant sur PPaC, nous proposons différentes stratégies de crawling qui visent à améliorer la complétude et/ou la cohérence temporelle. Nos différentes stratégies ont été implémentées puis expérimentées aussi bien sur des pages simulées que sur de vraies pages Web. Les résultats obtenus démontrent que le modèle PPaC basé sur l'importance des changements est un instrument utile pour améliorer considérablement la qualité des archives.
Soutenance : 18/11/2011
Membres du jury :
Serge Abiteboul Directeur de recherche à INRIA-Saclay [Rapporteur]
Vassilis Christophides Professeur à FORTH-ICS [Rapporteur]
Elisabeth Murisasco Professeur à l'USTV
Bernd Amann Professeur à l'UPMC
Julien Masanès Directeur d'Internet Memory Foundation
Jérôme Mainka Directeur de recherche à Antidot
Stéphane Gançarski Maitre de conférences (HDR) à l'UPMC
Publications 2010-2012
-
2012
- M. Ben Saad, S. Gançarski : “Archiving theWeb using Changes Patterns : a Case Study”, International Journal on Digital Libraries, vol. 13 (1), pp. 33-49, (Springer Verlag) (2012)
-
2011
- M. Ben Saad : “Qualité des archives Web: modélisation et optimisation”, soutenance de thèse, soutenance 18/11/2011, direction de recherche Gançarski, Stéphane (2011)
- M. Ben Saad, Z. Pehlivan, S. Gançarski : “Coherence-oriented Crawling and Navigation for Web Archives using Patterns”, 27es journées Bases de Données Avancées, BDA'11, Rabat, Morocco (2011)
- M. Ben Saad, Z. Pehlivan, S. Gançarski : “Coherence-oriented Crawling and Navigation for Web Archives using Patterns”, International Conference on Theory and Practice of Digital Libraries, TPDL 2011, vol. 6966, Lecture Notes in Computer Science, Berlin, Germany, pp. 421-433, (Springer) (2011)
- M. Ben Saad, S. Gançarski : “Improving the Quality of Web Archives through the Importance of Changes”, chapter in Database and Expert Systems Applications, vol. 6860, Lecture Notes in Computer Science, pp. 394-409, (Springer Berlin / Heidelberg), (ISBN: 978-3-642-23087-5) (2011)
-
2010
- Z. Pehlivan, M. Ben Saad, S. Gançarski : “Vi-DIFF: Understanding Web Pages Changes”, DEXA 2010, 21st International Conference on Database and Expert Systems Applications, vol. 6261, Lecture Notes in Computer Science, Bilbao, Spain, pp. 1-15, (Springer) (2010)
- M. Ben Saad, S. Gançarski : “Using visual pages analysis for optimizing web archiving”, In EDBT/ICDT 2010 Ph.D. Workshop, Lausanne, Switzerland, pp. 43, (ACM) (2010)