WISNIEWSKI Guillaume
Supervision : Patrick GALLINARI
Apprentissage dans les espaces structurés. Application à l'étiquetage de séquences et à la transformation automatique de documents
De nombreux problèmes d'apprentissage consiste à prédire des séquences, des arbres ou des graphes. Contrairement aux problèmes de classification usuels, ces sorties sont structurées et se décomposent en un ensemble d'éléments étiquetés interdépendants. L'apprentissage structuré est domaine de l'apprentissage statistique proposé récément pour développer des méthodes d'apprentissage capables de découvrir et d'exploiter ces dépendances entre étiquettes pour améliorer les performances en prédiction. L'étude des différents cadres et méthodes d'apprentissage structuré constitue la première partie de cette thèse. Nous y décrivons notamment l'application de ces méthodes sur une tâche d'étiquetage de séquences et sur une tâche de prédiction d'arbres. Cette dernière tâche est directement motivée par la problématique générale d'automatisation de la transformation de documents structurés qui est, aujourd'hui, au coeur de plusieurs problématiques d'accès à l'information. Dans une deuxième partie de ce travail, nous nous sommes intéressé à deux limites des modèles existants qui rendent ceux-ci inapplicables à de nombreux problèmes pratiques~: leur complexité élevée et leur expressivité limitée qui ne leur permet de ne considérer que des dépendances locales. Nous proposons d'aborder ce problème sous l'angle de la sélection de caractéristiques et décrivons une méthode d'étiquetage de séquences représentant les dépendances par des contraintes, ce qui lui permet d'extraire efficacement les dépendances non locales et de les utiliser en inférence tout en conservant une complexité faible.
Defence : 11/29/2007
Jury members :
Younès Bennani Professeur à l'Université de Paris Nord (Paris 13)
Patrick Gallinari Professeur à l'Université Pierre et Marie Curie (Paris 6)
Éric Gaussier Professeur à l'Université Joseph Fourrier (Grenoble 1)
Marc Sebban Professeur à l'Université Jean-Monnet, Saint-Étienne
Marc Tommasi Maître de Conférences, HDR à l'Université de Lille 3 [Rapporteur]
François Yvon Professeur à l'Université Paris Sud (Paris 11) [Rapporteur]
2004-2007 Publications
-
2007
- G. Wisniewski : “Apprentissage dans les espaces structurĂ©s. Application Ă l’étiquetage de sĂ©quences et Ă la transformation automatique de documents”, thesis, phd defence 11/29/2007, supervision Gallinari, Patrick (2007)
- G. Wisniewski, F. Maes, L. Denoyer, P. Gallinari : “Probabilistic Model for Structured Document Mapping”, 5th International Conference on Machine Learning and Data Mining for Pattern Recognition (MLDM'07'), vol. 4571, Lecture Notes in Computer Science, Leizig, Germany, pp. 854-867, (Springer) (2007)
- G. Wisniewski, P. Gallinari : “From Layout to Semantic: A Reranking Model for Mapping Web Documents to Mediated XML Representations”, RIAO International Conference on Large-Scale Semantic Access to Content, Pittsburgh, United States, pp. 433-448, (LE CENTRE DE HAUTES ETUDES INTERNATIONALES D'INFORMATIQUE DOCUMENTAIRE) (2007)
- G. Wisniewski, P. Gallinari : “RĂ©-ordonnancement pour l’apprentissage de transformations de documents HTML”, Extraction et Gestion des Connaissances (EGC), vol. RNTI-E-9, RNTI, Namur, Belgium, pp. 727-738 (2007)
- G. Wisniewski, F. Maes, L. Denoyer, P. Gallinari : “Modèle probabiliste pour l’extraction de structures dans les documents Web”, Document numĂ©rique - Revue des sciences et technologies de l'information. SĂ©rie Document numĂ©rique, vol. 10 (1), pp. 89-107, (Hermès) (2007)
-
2006
- G. Wisniewski, L. Denoyer, F. Maes, P. Gallinari : “Modèle probabiliste pour l’extraction de structures dans les documents semi-structurĂ©s: Application aux documents Web”, 3eme Conference en Recherche d'Information et Applications (CORIA'06), Lyon, France, pp. 169-180 (2006)
-
2005
- P. Gallinari, G. Wisniewski, F. Maes, L. Denoyer : “Stochastic models for document restructuration”, ECML'05 Workshop on Relationnal Machine Learning, Porto, Portugal (2005)
- L. Denoyer, G. Wisniewski, P. Gallinari : “Classification automatique de structures arborescentes Ă l’aide du noyau de Fisher: Application aux documents XML”, 6e Congrès europĂ©en de science des systèmes, vol. 5, Res-Systemica, Paris, France, (AFSCET) (2005)
- G. Wisniewski, L. Denoyer, P. Gallinari : “Classification automatique de documents structurĂ©s. Application au corpus d’arbres Ă©tiquetĂ©s de type XML”, CORIA 2005 - 2e ConfĂ©rence en Recherche d'Informations et Applications, Grenoble, France, pp. 167-184 (2005)
- G. Wisniewski, L. Denoyer, P. Gallinari : “Restructuration automatique de documents dans les corpus semi structurĂ©s hĂ©tĂ©rogènes”, Extraction et Gestion de Connaissances (EGC'05), vol. RNTI-E-3, Paris, France, pp. 227-238, (RNTI) (2005)
-
2004
- L. Denoyer, G. Wisniewski, P. Gallinari : “Document structure matching for heterogeneous corpora”, SIGIR 2004 workshop on XML and Information Retrieval, Sheffield, United Kingdom (2004)