VU Huyen-Trang
Direction de recherche : Patrick GALLINARI
Apprentissage d'ordonnancements pour la constitution de corpus d'évaluation et pour l'agrégation de listes en recherche d'information
Notre travail de recherche se positionne dans le contexte de l'évaluation de la performance des systèmes de recherche d'information (SRI), et concerne plus précisément le problème crucial du passage à l'échelle du corpus d'évaluation. L'acquisition des jugements de pertinence nécessite des efforts humains fastidieux. Il faut alors d'une part sélectionner les documents à juger, et d'autre part choisir des protocoles d'évaluation qui facilitent le travail de l'expert humain, avec la contrainte de conserver une évaluation fiable. Dans une première partie, nous nous sommes placés dans le cadre d'une nouvelle problématique de la RI, qui est la recherche d'information dans les documents XML. Les évaluations des SRI pour des documents XML ont été effectuées dans un cadre différent du cadre traditionnel. Nos analyses s'avèrent qu'une évaluation suivant le cadre traditionnel était aussi fiable que des évaluations plus complexes proposées pour la RI XML. Dans une deuxième partie, nous nous sommes intéressés à contrôler le nombre de documents à juger. Nous avons proposé une nouvelle méthode pour la constitution de corpus d'évaluation. Elle consiste à sélectionner les documents à juger en utilisant des techniques de l'apprentissage d'ordonnancements. Nous avons montré que la méthode proposée permet de constituer des corpus de meilleure qualité à moindre coût que les méthodes de l'état de l'art. La troisième partie de notre travail concerne l'évaluation de la robustesse des algorithmes de méta-recherche supervisée. Nous avons mis en évidence différents facteurs influençant la performance de ces algorithmes, et montré que les algorithmes de méta-recherche supervisée étaient d'une grande stabilité.
Soutenance : 27/10/2008
Membres du jury :
Matthieu Cord, Professeur à l'Université Pierre et Marie Curie, Paris (Examinateur)
Mohand Boughanem, Professeur à l'Université Paul Sabatier, Toulouse ( Examinateur)
Patrick Gallinari, Professeur à l'Université Pierre et Marie Curie, Paris (Directeur de thèse)
Georges Quénot, Chargé de Recherche CNRS, LIG Grenoble (Rapporteur)
Jacques Savoy, Professeur à l'Université de Neuchâtel, Suisse (Rapporteur)
François Yvon, Professeur à l'Université Paris Sud (Paris 11), (Examinateur)
Publications 2003-2008
-
2008
- H.‑T. Vu : “Apprentissage d’ordonnancements pour la constitution de corpus d’évaluation et pour l’agrégation de listes en recherche d’information”, soutenance de thèse, soutenance 27/10/2008, direction de recherche Gallinari, Patrick (2008)
- H.‑T. Vu, P. Gallinari : “Analyse de la robustesse des algorithmes de méta-recherche discriminante”, Conference en Recherche d'information et Applications, CORIA'08, Trégastel, France, pp. 87-102 (2008)
-
2006
- H.‑T. Vu, P. Gallinari : “A Machine Learning based Approach to Evaluating Retrieval Systems”, Proc. Human Language Technology Conference - HLT-NAACL'06, New-York, United States, pp. 399-406, (Association for Computational Linguistics) (2006)
- H.‑T. Vu, P. Gallinari : “Apprentissage Statistique pour la Constitution de Corpus d’évaluation”, 3eme Conference en Recherche d'Information et Applications (CORIA'06), Lyon, France, pp. 85-96 (2006)
-
2005
- H.‑T. Vu, P. Gallinari : “On effectiveness measures and relevance functions in ranking INEX systems”, Asia Information Retrieval Symposium (AIRS'05), Jeju, Korea, Republic of, pp. 312-327 (2005)
- H.‑T. Vu, P. Gallinari : “Using RankBoost to Compare Retrieval systems”, CIKM 2005 - 14th ACM international conference on Information and knowledge management, Bremen, Germany, pp. 309-310, (ACM) (2005)
-
2004
- H.‑T. Vu, B. Piwowarski, P. Gallinari : “Filtering in XML Retrieval: a Prospective Analysis”, SIGIR 2004 workshop on XML and Information Retrieval, Sheffield, United Kingdom (2004)
-
2003
- H.‑T. Vu, L. Denoyer, P. Gallinari : “Un modèle statistique pour la classification de documents structurés”, Journées francophones d'Extraction et de Gestion des Connaissances (EGC 2003), Lyon, France (2003)