SPENGLER Alexander
Direction de recherche : Patrick GALLINARI
Co-encadrement : SCHÖLKOPF Bernhard, SZUMMER Martin
Analyse probabiliste du contenu de pages Web. Représentation des sémantiques de contenu dans le paradigme Bayésien
Une identification automatique des contenus pertinents de pages Web, comme les titres, paragraphes, publicités, images de produits où commentaires des utilisateurs, facilite une large variété d'applications réelles, de la transcription du texte en parole pour les malvoyants aux moteurs de recherche structurés. Finalement, une telle identification nécessite toujours une segmentation du contenu ainsi qu'une classification des segments résultants donné par des catégories sémantiques dépendant de l'application concrète. Nous proposons donc d'aborder l'analyse du contenu de pages Web dans un cadre de classification interdépendante, établissant la cohérence sémantique à travers des fonctions caractéristiques d'interaction qui décrivent la configuration de plusieurs régions de contenu sémantiquement indivisible. Un des obstacles majeurs à l'accès pertinent au contenu de pages Web est que leur organisation sémantique est souvent inappropriée. En conséquence, il est généralement impossible de caractériser une région de contenu intéressante avec certitude. Dans cette thèse, nous proposons de traiter les incertitudes dans une analyse du contenu de pages Web avec un cadre probabiliste cohérent : le paradigme Bayésien. Nous tentons d'éclairer les conditions pour lesquelles un modèle probabiliste peut être justifié en déduisant sa forme de représentation à partir d'hypothèses sur des quantités observables qui sont basées sur les concepts d'échangeabilité, d'indépendance conditionnelle et de suffisance. En particulier, nous examinons différentes dépendances Markoviennes entre des catégories de contenu d'une même page Web et discutons comment on peut prendre en compte la structure qui existe entre des pages et des sites. Nous présentons également une analyse informelle des caractéristiques, élucidant l'information disponible dans le contenu, la structure et le style d'une page Web. Une telle analyse est essentielle à la fois pour une modélisation probabiliste formelle et pour une bonne performance prédictive. En outre, nous introduisons une nouvelle base de données publique, appelée News600. Elle contient 604 pages Web réelles de 206 sites, avec plus de 30 catégories sémantiques annotées de manière précise. Enfin, nous menons une série d'expériences sur ce corpus, en comparant des approches différentes pour classifier le contenu de nouvelles pages Web. Elle démontre que même des modèles relativement simples dans notre cadre atteignent des résultats significativement meilleurs que l'état de l'art actuel.
Soutenance : 12/12/2011
Membres du jury :
Boris Chidlovskii, Chercheur au Xerox Research Centre Europe [Rapporteur]
Isabelle Tellier, Professeur à l'Université Sorbonne Nouvelle [Rapporteur]
Mathieu Cord, Professeur à l'Université Pierre et Marie Curie
Gregory Grefenstette, Directeur Scientifique chez Exalead
Patrick Gallinari, Professeur à l'Université Pierre et Marie Curie
Publications 2009-2013
-
2013
- S. Rubrichi, S. Quaglini, A. Spengler, P. Russo, P. Gallinari : “A system for the extraction and representation of summary of product characteristics content”, Artificial Intelligence in Medicine, vol. 57 (2), pp. 145-154, (Elsevier) (2013)
-
2011
- A. Spengler : “Analyse probabiliste du contenu de pages Web. Représentation des sémantiques de contenu dans le paradigme Bayésien”, soutenance de thèse, soutenance 12/12/2011, direction de recherche Gallinari, Patrick, co-encadrement : Schölkopf, Bernhard, Szummer, Martin (2011)
- S. Rubrichi, S. Quaglini, Alexander A. Spengler, P. Gallinari : “Extracting Information from Summary of Product Characteristics for Improving Drugs Prescription Safety”, 13th Conference on Artificial Intelligence in Medicine (AIME 2011), vol. 6747, Lecture Notes in Computer Science, Bled, Slovenia, pp. 327-337, (Springer) (2011)
- S. Rubrichi, Alexander A. Spengler, P. Gallinari, S. Quaglini : “Preventing Adverse Drug Events by Extracting Information from Drug Fact Sheets”, Proceedings of the Fourth International Symposium for Semantic Mining in Biomedicine, vol. 714, Cambridge, United Kingdom, pp. 6, (CEUR-WS.org) (2011)
-
2010
- Alexander A. Spengler, P. Gallinari : “Document Structure Meets Page Layout: Loopy Random Fields for Web News Content Extraction”, 10th ACM Symposium on Document Engineering (DocEng 2010), Manchester, United Kingdom, pp. 151-160, (ACM) (2010)
-
2009
- A. Spengler, P. Gallinari : “Learning to Extract Content from News Webpages”, International Conference on Advanced Information Networking and Applications Workshops, 2009 (WAINA '09), Bradford, United Kingdom, pp. 709-714, (IEEE) (2009)