LOEFFEL Pierre-Xavier

doctorant à Sorbonne Université
Équipe : LFI
https://lip6.fr/Pierre-Xavier.Loeffel

Direction de recherche : Christophe MARSALA

Co-encadrement : DETYNIECKI Marcin

Algorithmes de machine learning adaptatifs pour flux de données sujets à des changements de concept

Dans cette thèse, nous considérons le problème de la classification supervisée sur un flux de données sujets à des changements de concepts. Apprendre à partir de ces flux de données représente un challenge immense. En effet, un algorithme d’apprentissage doit être capable d’apprendre à partir d’une série d’observations et doit pouvoir obtenir des bonnes performances de prédiction sous les contraintes d’un temps de calcul et d’une mémoire ordinateur limités. Un autre challenge est le fait que la distribution de probabilité cachée (le concept) qui génère les observations, puisse changer avec le temps (changement de concept). Un algorithme d’apprentissage doit donc avoir la flexibilité de pouvoir s’adapter à ces changements de distributions.
Afin de surmonter ces difficultés, nous pensons qu’un algorithme d’apprentissage doit combiner plusieurs caractéristiques. Il doit apprendre en ligne, ne pas faire d’hypothèses sur le concept ou sur la nature des changements de concepts et doit être autorisé à s’abstenir de prédire lorsque c’est nécessaire. Les algorithmes en ligne sont un choix évident pour traiter les flux de données. De par leur structure, ils sont capables de continuellement affiner le modèle appris à l’aide des dernières observations reçues.
La structure instance based a des propriétés qui la rende particulièrement adaptée pour traiter le problème des flux de données sujet à des changements de concept. En effet, ces algorithmes font très peu d’hypothèses sur la nature du concept qu’ils essaient d’apprendre ce qui leur donne une flexibilité qui les rend capable d’apprendre un vaste éventail de concepts.
Une autre force est que stocker certaines des observations passées dans la mémoire peux amener de précieuses meta-informations qui pourront être utilisées par la suite par l’algorithme. Pour finir, cette structure permet de baser la mise à jour du modèle sur des preuves concrètes d’obsolescence et de fait, permet de s’adapter aux changements de concept sans avoir besoin de les détecter explicitement.
Enfin, dans cette thèse, nous mettons en valeur l’importance de permettre à un algorithme d’apprentissage de s’abstenir de prédire lorsque c’est nécessaire. En effet, les changements de concepts peuvent être la source de beaucoup d’incertitudes et, parfois, l’algorithme peux ne pas avoir suffisamment d’informations pour donner une prédiction fiable. Dans ces cas-là, plutôt que d’essayer de donner une prédiction à n’importe quel prix, nous pensons qu’une meilleure stratégie consiste à déconnecter automatiquement l’algorithme en lui permettant de s’abstenir de prédire.

Soutenance : 04/12/2017

Membres du jury :

M. Joao Gama, [Rapporteur]
Mme. Ludmila Kuncheva, [Rapporteur]
M. Bernd Amann
M. Albert Bifet
M. Antoine Cornuéjol
M. Vincent Lemaire
M. Marcin Detyniecki
M. Christophe Marsala

Date de départ : 06/12/2017

Publications 2015-2017