JEANNIN-AKODJENOU Marc-Ismaël
Direction de recherche : Patrick GALLINARI
Co-encadrement : SALAMATIAN Kavé
Clustering et Volume des Données
Le clustering est une tâche fondamentale de la fouille de données. Ces dernières années, le volume des données (à la fois le nombre d'objets et le nombre de caractéristiques, de "dimensions", les décrivant) croît sans arrêt. Les méthodes de clustering doivent s'adapter à cette évolution qui a des impacts à la fois qualitatifs (la pertinence des résultats) et opérationnels (la complexité du traitement). Nous étudions dans cette thèse comment se sont adaptées les méthodes de clustering le long de ces deux axes. Après une analyse des méthodes existantes à travers ce prisme, nous en arrivons au constat que les méthodes qui se concentrent sur la réduction de la complexité opérationnelle ne sont généralement pas efficace en haute dimension, et réciproquement. Nous développons ensuite une démarche abstraite proche de celle des méthodes à base de grille : le clustering est effectué indirectement à travers un résumé des données. Le résumé est constitué d'indices de proximité entre les points et doit se construire avec une complexité respectant des contraintes opérationnelles strictes. Nous proposons ensuite une méthode basée sur cette démarche : le résumé est construit à partir de projections linéaires des données. Les indices de proximité ainsi accumulés sont agrégés pour obtenir le clustering. La méthode a une complexité opérationnelle satisfaisante et a de bonnes performances en haute dimension.
Soutenance : 28/09/2009
Membres du jury :
Pierre.Gancarski
Christophe Ambroise
Georges HEBRAIL
Matthieu.Cord
Patrick Gallinari
Kave Salamatian
Publications 2006-2009
-
2009
- M.‑I. Jeannin‑Akodjenou : “Clustering et Volume des Données”, soutenance de thèse, soutenance 28/09/2009, direction de recherche Gallinari, Patrick, co-encadrement : Salamatian, Kavé (2009)
- A. Medem Kuatse, M.‑I. Akodjenou, R. Teixeira : “Troubleminer: Mining network trouble tickets”, In Proc. of the 1st IFIP/IEEE international workshop on Management of the Future Internet (Manfi2009), New York, United States, pp. 113-119, (IEEE) (2009)
-
2008
- M.‑I. Akodjenou, K. Salamatian, P. Gallinari : “Clustering en haute dimension par accumulation de clusterings locaux”, Extraction et Gestion des Connaissances EGC'2008, vol. RNTI-E-11, RNTI - Revue des Nouvelles Technologies de l'information, Sophia-Antipolis, France, pp. 253-264, (Cepadues editions) (2008)
-
2006
- L. Bernaille, R. Teixeira, I. Akodjenou, A. Soule, K. Salamatian : “Traffic classification on the fly”, Computer Communication Review, vol. 36 (2), pp. 23-26, (Association for Computing Machinery) (2006)