Annuaire

CREUS Jordi

Post-doctorant
Équipe : BD
http://www-ia.lip6.fr/~creusj

Direction de recherche : Bernd AMANN
Co-encadrement : VODISLAV Dan

ROSES : Un moteur de requêtes continues pour l’aggrégation de flux RSS à large échelle

Les flux RSS et Atom sont souvent des inconnus du grand public, néanmoins ils sont présents partout sur le web. Aujourd’hui, tous les sites d’actualités publient des milliers de fils RSS/Atom, normalement organisés par des thématiques (politique, économie, sports, société...). Chaque blog possède son propre fil RSS, en outre, des sites de micro-blogage comme Twitter ou même les réseaux sociaux comme Facebook fournissent un fil RSS pour chaque utilisateur ou trending topic. Cette immense quantité de sources de données continues sont principalement utilisées par des agrégateurs de fils, soit en ligne (Google Reader), soit en local (Firefox, Thunderbird), mais également par des applications mash-up (comme Yahoo! pipes, Netvibes ou Google News). Nous pourrions voir l’ensemble des fils RSS et Atom comme un grand flux de données textuelles structurées, dont le potentiel est toutefois peu exploité encore. Dans cette thèse, nous présentons ROSES –Really Open Simple and Efficient Syndication–, un modèle de données et un langage de requêtes continues pour des flux RSS/Atom. ROSES permet aux utilisateurs de créer des nouveaux flux personnalisés à partir des flux existants sur le web à travers d’un simple, mais complet, langage de requêtes déclaratif et algèbre. ROSES c’est aussi un système capable de gérer et traiter des milliers de requêtes d’agrégation ROSES en parallèle, un des principaux objectifs du moteur de requêtes étant le passage à l’échelle par rapport au nombre de requêtes. En particulier, il implémente une nouvelle approche d’optimisation multirequête basée sur la factorisation des filtres similaires. Nous proposons deux algorithmes de factorisation: (i) STA, une adaptation d’un algorithme d’approximation pour calculer des arbres de Steiner minimaux [CCC+98a], et (ii) VCA, un algorithme glouton qui améliore le coût CPU d’optimisation du précédant. Nous avons validé notre approche d’optimisation avec un important nombre de tests sur des données réelles.

Mots clés : RSS, Atom, Système de Gestion de Flux de Données, PubSub, traitement de requêtes continues, optimisation multi-requête, factorisation de filtres partagés, arbre de Steiner

Soutenance : 07/12/2012

Membres du jury :

Mme Ioana MANOLESCU, Directeur de Recherche à l'Inria, [Rapporteur]
M. Jean-Marc PETIT, Professeur des Universités à l’INSA Lyon, [Rapporteur]
Mme Anne DOUCET, Professeur des Universités à l’UPMC
Mme Béatrice FINANCE, Maître de Conférences à l’UVSQ (HDR)
M. Bernd AMANN, Professeur des Universités à l’UPMC
M. Dan VODISLAV, Professeur des Universités à l’UCP

Date de départ : 28/02/2013

Publications 2009-2012

2012
- J. Creus : “ROSES : Un moteur de requêtes continues pour l’aggrégation de flux RSS à large échelle”, thèse, soutenance 07/12/2012, direction de recherche Amann, Bernd, co-encadrement : Vodislav, Dan (2012)
- J. Creus, B. Amann, V. Christophides, N. Travers, D. Vodislav : “RoSeS, un moteur de requêtes continues pour la syndication RSS à large échelle”, Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information, vol. 17 (5), pp. 57-85, (Lavoisier) (2012)
2011
- J. Creus, B. Amann, V. Christophides, N. Travers, D. Vodislav : “Optimizing large collections of continuous content-based RSS aggregation queries”, 27^es journées Bases de Données Avancées (BDA 2011), Rabat, Morocco, pp. 1-21 (2011)
- J. Creus, B. Amann, N. Travers, D. Vodislav : “RoSeS: a continuous query processor for large-scale RSS filtering and aggregation”, CIKM '11 - 20^th ACM international conference on Information and knowledge management, Glasgow, United Kingdom, pp. 2549-2552, (ACM) (2011)
- J. Creus, B. Amann, N. Travers, D. Vodislav : “RoSeS: A Continuous Content-Based Query Engine for RSS Feeds”, DEXA - Database and Expert Systems Applications, vol. 6861, Lecture Notes in Computer Science, Toulouse, France, pp. 203-218, (Springer) (2011)
2010
- G. Hochard, Z. Lacroix, B. Amann, J. Creus : “A Semantic Map of RSS Feeds to support Discovery”, 3^rd International Workshop on REsource Discovery, vol. 6799, Lecture Notes in Computer Science, Paris, France, pp. 122-133, (Springer) (2010)
- J. Creus, B. Amann, N. Travers, D. Vodislav : “RoSeS : Un agrégateur de flux avancé”, BDA'10 - Bases de Données Avancées, Toulouse, France, pp. 1-6 (2010)
2009
- C. Constantin, J. Creus, C. Du Mouza, R. Horincar, N. Travers : “D2.1 State-of-the art of XML data stream models, Livrable 2.1 ANR RoSeS”, (2009)
- D. Vodislav, B. Amann, J. Creus, N. Travers : “Modèle et Algèbre ROSES. Livrable D2.2 ANR RoSeS”, (2009)