LE PAPE Cécile

doctorant à Sorbonne Université
Équipe : BD
https://lip6.fr/Cecile.LePape

Direction de recherche : Patrick VALDURIEZ

Co-encadrement : GANÇARSKI Stéphane

Controle de qualité des données répliquées dans un cluster

Récemment, les grappes de bases de données se sont largement développées. Les données sont répliquées sur les nœuds de la grappe, ce qui améliore la disponibilité des données et les performances des accès aux données, notamment grâce à l'équilibrage de charge. La difficulté de la réplication est de maintenir la qualité des données. Or de nombreuses applications tolèrent de lire des données qui ne sont pas nécessairement de qualité parfaite, c'est-à-dire pour lesquelles les copies peuvent temporairement diverger. Par exemple, une requête qui effectue le calcul du bilan annuel des ventes peut tolérer de ne pas connaître les ventes du jour. Dans cette thèse, nous cherchons à améliorer les performances des applications base de données en contrôlant la qualité des données accédées par l'application et stockées sur les nœuds et en effectuant un équilibrage de charge qui intègre la qualité des données disponibles sur la grappe. Nous proposons une solution intergicielle qui rend transparente la présence de la grappe à la fois pour l'application dont le code reste inchangé et aussi pour le SGBD qui ne nécessite pas de modification interne. Les applications spécifient un contrat de qualité que le système honore en contrôlant la propagation des mises à jour sur les nœuds. Différentes stratégies de propagation sont analysées en fonction du workload de l'application. L'évaluation de la qualité des données est effectuée par des techniques non intrusives qui utilisent d'une part des métadonnées statiques et d'autre part des informations dynamiques obtenues soient en utilisant les informations disponibles de façon standard, soit des informations supplémentaires obtenues en ajoutant un mécanisme de journalisation dans les SGBD. Pour valider notre approche, nous avons mené une série de tests de performances qui montrent que le relâchement de la qualité permet d'améliorer les performances des requêtes. De plus, une partie de ces travaux se situent dans le cadre du projet RNTL Leg@net.

Soutenance : 01/12/2005

Membres du jury :

Philippe Pucheral, professeur de l'université de Versailles, rapporteur.
Marc Shapiro, directeur de recherche, rapporteur.
Michel Scholl, professeur au CNAM, examinateur.
Pierre Sens, professeur à l'université Pierre et Marie Curie, examinateur.
Anne Doucet, professeur à l'université Pierre et Marie Curie, invitée.
Patrick Valduriez, directeur de recherche à l'INRIA, directeur de thèse.
Stéphane Gançarski, maître de conférences à l'université Pierre et Marie Curie.

Date de départ : 31/08/2006

Publications 2003-2012