SANOJA Andres
Direction de recherche : Stéphane GANÇARSKI
Segmentation des Pages Web, Évaluation et Applications
Les pages web sont devenues plus complexes que jamais, principalement parce qu’elles ne sont pas conçues manuellement mais générées par des systèmes de gestion de contenu (CMS en anglais).
De ce fait, il devient difficile de les analyser, c'est-à-dire d’identifier et classifier automatiquement les différents éléments qui les composent. La segmentation de pages web est une des solutions à ce problème. Elle consiste à décomposer une page web en segments, visuellement et sémantiquement cohérents, appelés blocs.
La qualité d’une segmentation est mesurée par sa correction (ou précision) et sa généricité, c'est-à-dire sa capacité à traiter des pages web de différents types. Notre recherche se concentre sur l’amélioration des techniques existantes de segmentation et sur une mesure fiable et équitable de la qualité des segmenteurs, afin de pouvoir comparer ces derniers.
Nous proposons un modèle conceptuel de notre approche pour la segmentation ainsi que Block-o-Matic (BoM), notre segmenteur de pages web qui tient compte de la précision et de la généricité. Nous proposons également un modèle d’évaluation qui prend en compte le contenu ainsi que la géométrie des blocs pour mesurer la correction d’un algorithme de segmentation, par rapport à une vérité de terrain conçue par un humain. Ce modèle est générique, il permet de tester n’importe lequel des algorithmes de segmentation et d’observer ses performances sur différents types de page. Nous l’avons testé sur quatre segmenteurs (dont BOM) et quatre types de pages (blog, enterprise, forum, picture et wiki). Les résultats montrent que BOM surpasse ses concurrents en général. Ils montrent aussi que la performance relative d’un segmenteur dépend du type de page segmentée.
Enfin, nous présentons deux applications développées au dessus de BOM. Pagelyzer utilise BOM pour comparer deux versions de pages web et décider si elles sont similaires ou pas. C’est la principale contribution de notre équipe au projet européen Scape (FP7-IP). Nous avons aussi développé un outil de migration de pages HTML4 vers le nouveau format HTML5.
Soutenance : 22/01/2015
Membres du jury :
MURISASCO Elisabeth (Professeure, Université de Toulon) [Rapporteur]
RUKOZ Marta (Professeure, Université de Paris Ouest Nanterre) [Rapporteur]
BOUGAMIN Luc (Directeur de Recherches, Inria Rocquencourt)
SENELLART Pierre (Professeur, Télécom ParisTech)
CORD Matthieu (Professeur, UPMC)
GANÇARSKI Stéphane (Maître de Conférences HDR, UPMC)
Publications 2012-2016
-
2016
- A. Sanoja, S. Gançarski : “Block-based Migration from HTML4 Standard to HTML5 Standard in the Context of Web Archives”, SCTC16, Caracas, Venezuela, Bolivarian Republic of (2016)
-
2015
- A. Sanoja : “Segmentation des Pages Web, Évaluation et Applications”, soutenance de thèse, soutenance 22/01/2015, direction de recherche Gançarski, Stéphane (2015)
- A. Sanoja, S. Gançarski : “Web page segmentation evaluation”, 30th Annual ACM Symposium on Applied Computing, Salamanca, Spain (2015)
-
2014
- A. Sanoja, S. Gançarski : “Block-o-Matic: A web page segmentation framework”, Multimedia Computing and Systems (ICMCS), 2014 International Conference on, Marrakesh, Morocco, pp. 595-600, (IEEE) (2014)
-
2013
- A. Sanoja, S. Gançarski : “Block-o-Matic: a Web Page Segmentation Tool and its Evaluation”, 29e journées "Base de données avancées", BDA'13, Nantes, France (2013)
-
2012
- A. Sanoja, S. Gançarski : “Yet Another Hybrid Segmentation Tool”, iPRES 2012 – 9 th International Conference on Preservation of Digital Objects, Toronto, Canada (2012)