HORINCAR Roxana
Direction de recherche : Bernd AMANN
Co-encadrement : ARTIÈRES Thierry
Stratégies de Rafraîchissement et Estimation en Ligne de Changements pour le Contenu Web Dynamique
Avec l'expansion importante d'appareils connectés à l'Internet et l'essor du Web 2.0, le contenu web se diversifie et devient de plus en plus dynamique. Afin de faciliter la diffusion de flux d'informations évolutives et souvent temporaires (news, messages, annonces), des nombreuses applications web publient les items d'informations les plus récentes dans des documents RSS ou Atom qui sont ensuite collectés et transformés par des agrégateurs RSS comme Google Reader ou Yahoo! News. Nos recherches se placent dans le contexte d'agrégation de documents RSS dynamiques et se focalisent sur l'optimisation du rafraîchissement et de l'estimation en ligne du changement de contenu RSS hautement dynamique. Nous introduisons et formalisons deux mesures qualitatives spécifiques à l'agrégation de flux RSS qui reflètent la complétude et la fraîcheur moyenne du flux d'information agrégé. Nous proposons une stratégie de rafraîchissement du "meilleur effort" qui maximise la qualité de l'agrégation par rapport aux autres approches existantes avec un nombre moyen de rafraîchissements identique. Nous présentons une analyse des caractéristiques générales de l'activité de publication des flux RSS réels en se focalisant surtout sur la dimension temporelle. Nous étudions différents modèles et méthodes d'estimation de changements d'activité et leur intégration dans les stratégies de rafraîchissement. Les méthodes présentées ont été implémentés et testés sur des données synthétiques et des flux RSS réels.
Soutenance : 20/09/2012
Membres du jury :
M. LAMARRE Philippe (INSA Lyon) [Rapporteur]
M. GROSS-AMBLARD David (Université de Rennes 1) [Rapporteur]
Mme. BERTI-EQUILLE Laure (IRD, Aix-Marseille Université)
M. CORD Matthieu (UPMC Paris 6)
M. AMANN Bernd (UPMC Paris 6)
M. ARTIERES Thierry (UPMC Paris 6)
Publications 2009-2015
-
2015
- R. Horincar, B. Amann, Th. Artières : “Online refresh strategies for content based feed aggregation”, World Wide Web, vol. 18 (4), pp. 913-947, (Springer Verlag) (2015)
-
2012
- R. Horincar : “Stratégies de Rafraîchissement et Estimation en Ligne de Changements pour le Contenu Web Dynamique”, soutenance de thèse, soutenance 20/09/2012, direction de recherche Amann, Bernd, co-encadrement : Artières, Thierry (2012)
- R. Horincar, B. Amann, Th. Artières : “Online Change Estimation Models for Dynamic Web Resources”, 12th International Conference on Web Engineering (ICWE), vol. 7387, Lecture Notes in Computer Science, Berlin, Germany, pp. 395-410 (2012)
-
2011
- R. Horincar, B. Amann, Th. Artières : “Online Refresh Strategies for RSS Feed Crawlers”, BDA, Rabat, Morocco (2011)
-
2010
- R. Horincar, B. Amann, Th. Artières : “Best-Effort Refresh Strategies for Content-Based RSS Feed Aggregation”, Proceedings of the 11th international conference on Web information systems engineering (WISE 2010), Hong Kong, China, pp. 262-270, (Springer) (2010)
-
2009
- C. Constantin, J. Creus, C. Du Mouza, R. Horincar, N. Travers : “D2.1 State-of-the art of XML data stream models, Livrable 2.1 ANR RoSeS”, (2009)