LE PAPE Cécile
Supervision : Patrick VALDURIEZ
Co-supervision : GANÇARSKI Stéphane
Controle de qualité des données répliquées dans un cluster
Récemment, les grappes de bases de données se sont largement développées. Les données sont répliquées sur les nœuds de la grappe, ce qui améliore la disponibilité des données et les performances des accès aux données, notamment grâce à l'équilibrage de charge. La difficulté de la réplication est de maintenir la qualité des données. Or de nombreuses applications tolèrent de lire des données qui ne sont pas nécessairement de qualité parfaite, c'est-à-dire pour lesquelles les copies peuvent temporairement diverger. Par exemple, une requête qui effectue le calcul du bilan annuel des ventes peut tolérer de ne pas connaître les ventes du jour. Dans cette thèse, nous cherchons à améliorer les performances des applications base de données en contrôlant la qualité des données accédées par l'application et stockées sur les nœuds et en effectuant un équilibrage de charge qui intègre la qualité des données disponibles sur la grappe. Nous proposons une solution intergicielle qui rend transparente la présence de la grappe à la fois pour l'application dont le code reste inchangé et aussi pour le SGBD qui ne nécessite pas de modification interne. Les applications spécifient un contrat de qualité que le système honore en contrôlant la propagation des mises à jour sur les nœuds. Différentes stratégies de propagation sont analysées en fonction du workload de l'application. L'évaluation de la qualité des données est effectuée par des techniques non intrusives qui utilisent d'une part des métadonnées statiques et d'autre part des informations dynamiques obtenues soient en utilisant les informations disponibles de façon standard, soit des informations supplémentaires obtenues en ajoutant un mécanisme de journalisation dans les SGBD. Pour valider notre approche, nous avons mené une série de tests de performances qui montrent que le relâchement de la qualité permet d'améliorer les performances des requêtes. De plus, une partie de ces travaux se situent dans le cadre du projet RNTL Leg@net.
Defence : 12/01/2005
Jury members :
Philippe Pucheral, professeur de l'université de Versailles, rapporteur.
Marc Shapiro, directeur de recherche, rapporteur.
Michel Scholl, professeur au CNAM, examinateur.
Pierre Sens, professeur à l'université Pierre et Marie Curie, examinateur.
Anne Doucet, professeur à l'université Pierre et Marie Curie, invitée.
Patrick Valduriez, directeur de recherche à l'INRIA, directeur de thèse.
Stéphane Gançarski, maître de conférences à l'université Pierre et Marie Curie.
2003-2012 Publications
-
2012
- A. Debrie, P. Eberhart, P.‑L. Roman, C. Le Pape, O. Marin : “Towards a Geocentric Mobile Syndication System”, 2012 IEEE International Conference on Green Computing and Communications (GreenCom), Besançon, France (2012)
-
2007
- S. Gançarski, C. Le Pape, A. Lopes Gançarski : “Freshness Control of XML Documents for Query Load Balancing”, XANTEC, Regensburg, Germany, pp. 35-39, (IEEE) (2007)
-
2006
- C. Le Pape, S. Gançarski : “Replica Refresh Strategies in a Database Cluster”, VECPAR'06 Workshop on High-Performance Data Management in Grid Environments (selected papers), vol. 4395, Lecture Notes in Computer Science, Rio de Janeiro, Brazil, pp. 679-691, (Springer) (2006)
-
2005
- C. Le Pape : “Controle de qualité des données répliquées dans un cluster”, thesis, phd defence 12/01/2005, supervision Valduriez, Patrick, co-supervision : Gançarski, Stéphane (2005)
- S. Gançarski, C. Le Pape, H. Naacke : “Fine-grained Refresh Strategies for Managing Replication in Database Clusters”, VLDB 2005 - Workshop on Design, Implementation, and Deployment of Database Replication, Trondheim, Norway, pp. 1-7 (2005)
- C. Le Pape, S. Gançarski, P. Valduriez : “Replica Refresh Strategies in a Database Cluster”, Conférence Bases de données avancées (BDA 2005), Saint-Malo, France, pp. 83-98, (Université de Rennes 1) (2005)
- C. Le Pape, S. Gançarski, P. Valduriez : “Data Quality Management in a Database Cluster with Lazy Replication”, Journal of Digital Information Management, vol. 3 (2), pp. 82-87, (Digital Information Research Foundation) (2005)
-
2004
- C. Le Pape, S. Gançarski, P. Valduriez : “Refresco: Improving Query Performance Through Freshness Control in a Database Cluster”, Bases de Données Avancées, Montpellier, France, pp. 153-173 (2004)
- C. Le Pape, S. Gançarski, P. Valduriez : “Refresco: Improving Query Performance Through Freshness Control in a Database Cluster”, International Conference on Cooperative Information Systems (CoopIS), vol. 3290, Lecture Notes in Computer Science, Agia Napa, Cyprus, pp. 174-193, (Springer) (2004)
- C. Le Pape, S. Gançarski, P. Valduriez : “Fraîcheur et validité de données répliquées dans des environnements transactionnels”, Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information, vol. 9 (5-6), pp. 163-183, (Lavoisier) (2004)
-
2003
- C. Le Pape, S. Gançarski, P. Valduriez : “Relaxing Freshness to Improve Load Balancing in a Cluster of Autonomous Replicated Databases”, Distributed data and structures 5: records of the 5th international meeting, Thessaloniki, Greece, Thessaloniki, Greece, pp. 45-60, (Carleton Scientific) (2003)
- C. Le Pape, S. Gançarski, P. Valduriez : “Trading Freshness for Performance in a Cluster of Replicated Databases”, Int. Conf. on Cooperative Information Systems (CoopIS), LNCS, Catania, Italy, pp. 14-15, (Springer) (2003)