FOURNIER-S’NIEHOTTA Raphaël
Supervision : Matthieu LATAPY
Détection et analyse d'une thématique rare dans de grands ensembles de requêtes : l'activité pédophile dans le P2P
L'objectif de cette thèse est d'utiliser de grands ensembles de requêtes collectés sur des systèmes P2P pour étudier l'activité pédophile au sein de ces réseaux. En effet, malgré l'importance de ce problème pour la société, il existe peu de connaissances fiables en la matière.
Nous procédons dans un premier temps à la mise au point d'un outil capable de détecter les requêtes qui ciblent des contenus à caractère pédopornographique, en assez faible quantité dans l'ensemble des requêtes. Après avoir identifié quatre catégories de requêtes pédophiles, nous établissons les listes de mots-clefs et tests lexicaux requis pour les distinguer. Nous faisons ensuite classer des requêtes à un ensemble d'experts, afin d'évaluer les performances de notre outil. Celui-ci disposant d'une précision élevée et d'un bon rappel, nous l'utilisons pour estimer de façon fiable la fraction de requêtes pédophiles, proche de 0,25%.
Nous abordons ensuite la quantification des utilisateurs entrant ces requêtes. Dans un tel contexte, où l'on ne dispose que de l'adresse IP et éventuellement d'un port de communication, identifier des utilisateurs est difficile. Nous proposons plusieurs méthodes pour ne pas mélanger les requêtes d'utilisateurs différents. La fraction d'utilisateurs pédophiles est proche de 0,22%.
Nous analysons ensuite la dynamique temporelle de l'activité pédophile. La fraction de requêtes pédophiles a significativement augmenté entre 2009 et 2012.
Nous examinons également l'intégration sociale des utilisateurs pédophiles et constatons qu'ils privilégient la fin de la nuit pour effectuer ce type de requêtes, ce en quoi ils diffèrent des autres utilisateurs, notamment ceux soumettant des requêtes pornographiques.
Enfin, nous confrontons les résultats obtenus sur le réseau eDonkey avec ceux du réseau KAD, après avoir défini une méthodologie permettant d'obtenir des données comparables. Nous supposons initialement que le niveau d'anonymat offert par KAD, complètement décentralisé, permet aux utilisateurs de participer à davantage d'échanges pédopornographiques. Nous constatons au contraire que l'activité pédophile est plus importante sur eDonkey et estimons que la fraction de requêtes pédophiles sur KAD est proche de 0.1%.
Defence : 12/21/2012
Jury members :
Walid Dabbous, Directeur de Recherche, INRIA [Rapporteur]
Anne-Marie Kermarrec, Directrice de Recherche, INRIA [Rapporteur]
Emmanuel Viennet, Professeur, L2TI-Université Paris-XIII [Rapporteur]
Serge Abiteboul, Directeur de Recherche, INRIA
Olivier Festor, Directeur de Recherche, INRIA
Alix Munier Kordon, Professeur, UPMC
Gilles Robine, Officier de Police, Ministère de l'Intérieur
Matthieu Latapy, Directeur de Recherche CNRS, LIP6
2011-2021 Publications
-
2021
- P. Ramaciotti Morales, R. Lamarche‑Perrin, R. Fournier‑S'niehotta, R. Poulain, L. Tabourier, F. Tarissan : “Measuring diversity in heterogeneous information networks”, Theoretical Computer Science, vol. 859, pp. 80-115, (Elsevier) (2021)
-
2020
- P. Ramaciotti Morales, L. Tabourier, R. Fournier‑S'niehotta : “Testing the Impact of Semantics and Structure on Recommendation Accuracy and Diversity”, ASONAM 2020. IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining, La Hague (virtual), Netherlands (2020)
-
2018
- T. Viard, R. Fournier‑S 'niehotta, C. Magnien, M. Latapy : “Discovering Patterns of Interest in IP Traffic Using Cliques in Bipartite Link Streams”, Springer Proceedings in Complexity, Complex Networks IX Proceedings of the 9th Conference on Complex Networks CompleNet 2018, Boston, United States, pp. 233-241 (2018)
-
2016
- N. Gaumont, T. Viard, R. Fournier‑S'niehotta, Q. Wang, M. Latapy : “Analysis of the Temporal and Structural Features of Threads in a Mailing-List”, Complex Networks VIIProceedings of the 7th Workshop on Complex Networks CompleNet 2016, vol. 644, Studies in Computational Intelligence, Dijon, France, pp. 107-118, (Springer) (2016)
-
2015
- R. Fournier, M. Latapy : “Temporal Patterns of Pedophile Activity in a P2P Network: First Insights about User Profiles from Big Data”, International Journal of Internet Science, vol. 10 (1), pp. 8-19 (2015)
-
2014
- R. Fournier, Th. Cholez, M. Latapy, I. Chrisment, C. Magnien, O. Festor, I. Daniloff : “Comparing Pedophile Activity in Different P2P Systems”, Social Sciences, vol. 3 (3), Special Issue on Contemporary Developments in Child Protection, pp. 314-325, (MDPI) (2014)
- R. Fournier, M. Danisch : “Mining bipartite graphs to improve semantic pedophile activity detection”, Proceedings of the 8th IEEE International Conference on Research Challenges in Information Science 2014 (RCIS2014), Marrakech, Morocco (2014)
-
2013
- M. Latapy, C. Magnien, R. Fournier : “Quantifying paedophile activity in a large P2P system”, Information Processing and Management, vol. 49 (1), pp. 248-263, (Elsevier) (2013)
-
2012
- R. Fournier‑S’niehotta : “Détection et analyse d’une thématique rare dans de grands ensembles de requêtes : l’activité pédophile dans le P2P”, thesis, phd defence 12/21/2012, supervision Latapy, Matthieu (2012)
-
2011
- M. Latapy, C. Magnien, R. Fournier : “Quantifying Paedophile Queries in a Large P2P System”, IEEE International Conference on Computer Communications INFOCOM (Mini-Conference), Shanghai, China, pp. 401-405, (IEEE) (2011)