SPENGLER Alexander

doctorant à Sorbonne Université
Équipe : MALIRE
https://lip6.fr/Alex.Spengler

Direction de recherche : Patrick GALLINARI

Co-encadrement : SCHÖLKOPF Bernhard, SZUMMER Martin

Analyse probabiliste du contenu de pages Web. Représentation des sémantiques de contenu dans le paradigme Bayésien

Une identification automatique des contenus pertinents de pages Web, comme les titres, paragraphes, publicités, images de produits où commentaires des utilisateurs, facilite une large variété d'applications réelles, de la transcription du texte en parole pour les malvoyants aux moteurs de recherche structurés. Finalement, une telle identification nécessite toujours une segmentation du contenu ainsi qu'une classification des segments résultants donné par des catégories sémantiques dépendant de l'application concrète. Nous proposons donc d'aborder l'analyse du contenu de pages Web dans un cadre de classification interdépendante, établissant la cohérence sémantique à travers des fonctions caractéristiques d'interaction qui décrivent la configuration de plusieurs régions de contenu sémantiquement indivisible. Un des obstacles majeurs à l'accès pertinent au contenu de pages Web est que leur organisation sémantique est souvent inappropriée. En conséquence, il est généralement impossible de caractériser une région de contenu intéressante avec certitude. Dans cette thèse, nous proposons de traiter les incertitudes dans une analyse du contenu de pages Web avec un cadre probabiliste cohérent : le paradigme Bayésien. Nous tentons d'éclairer les conditions pour lesquelles un modèle probabiliste peut être justifié en déduisant sa forme de représentation à partir d'hypothèses sur des quantités observables qui sont basées sur les concepts d'échangeabilité, d'indépendance conditionnelle et de suffisance. En particulier, nous examinons différentes dépendances Markoviennes entre des catégories de contenu d'une même page Web et discutons comment on peut prendre en compte la structure qui existe entre des pages et des sites. Nous présentons également une analyse informelle des caractéristiques, élucidant l'information disponible dans le contenu, la structure et le style d'une page Web. Une telle analyse est essentielle à la fois pour une modélisation probabiliste formelle et pour une bonne performance prédictive. En outre, nous introduisons une nouvelle base de données publique, appelée News600. Elle contient 604 pages Web réelles de 206 sites, avec plus de 30 catégories sémantiques annotées de manière précise. Enfin, nous menons une série d'expériences sur ce corpus, en comparant des approches différentes pour classifier le contenu de nouvelles pages Web. Elle démontre que même des modèles relativement simples dans notre cadre atteignent des résultats significativement meilleurs que l'état de l'art actuel.

Soutenance : 12/12/2011

Membres du jury :

Boris Chidlovskii, Chercheur au Xerox Research Centre Europe [Rapporteur]
Isabelle Tellier, Professeur à l'Université Sorbonne Nouvelle [Rapporteur]
Mathieu Cord, Professeur à l'Université Pierre et Marie Curie
Gregory Grefenstette, Directeur Scientifique chez Exalead
Patrick Gallinari, Professeur à l'Université Pierre et Marie Curie

Date de départ : 30/09/2012

Publications 2009-2013