HUGUES Louis

doctorant à Sorbonne Université
Équipe : SMA
https://lip6.fr/Louis.Hugues

Direction de recherche : Alexis DROGOUL

Apprentissage de comportements pour un robot autonome

La transmission de compétences à un robot autonome pose le problème d'associer une valeurs aux actions possibles. Ma principale hypothèse a consisté à penser que cet apprentissage devait se produire principalement lors d'interactions entre le robot et son concepteur (devenu tuteur) dans l'environnement de destination. D'abord en montrant des exemples des comportements souhaités, puis en interagissant en temps réel avec le robot il est, en effet, possible de transmettre un comportement sans le définir explicitement et sans avoir besoin d'un modèle du monde. Un tel processus d'apprentissage empirique suppose :

  1. une représentation permettant de capter la relation perception/actions telle qu'elle se produit dans le monde réel.
  2. un processus d'apprentissage interactif permettant à l'utilisateur de façonner le comportement, pour que celui-ci corresponde à ses intentions.
Ce sont ces deux axes que j'ai développés au cours de ma thèse. Encore peu de travaux abordent le problème de l'acquisition de comportement sous l'angle de l'apprentissage empirique. S'ils le font c'est le plus souvent en utilisant des perceptions prédéfinies et simplifiées telles que des formes fixes, des couleurs précises, des composants perceptuels ad-hoc. Ils éliminent de ce fait la difficulté centrale de l'adaptation des robots à leur environnement. A l'inverse dans mon approche, j'ai proposé une représentation des comportements conçue pour capturer de manière distribuée et statistique la relation perceptions-actions spécifique d'un comportement sans avoir recourt à des connaissances préalables modélisant les éléments perçus. Dans ce cadre l'un de mes objectifs était de trouver une représentation minimale reposant sur l'utilisation de percepts élémentaires et un mécanisme d'apprentissage utilisable en temps réel par un humain. L'apprentissage a été envisagé en deux phases successives: l'amorçage du comportement en apprenant à partir de peu d'exemples et l'adaptation en ligne du comportement par l'intermédiaire d'opérateurs interactifs permettant au tuteur d'amender les comportements en situation.
Le modèle proposé a été validé sur un prototype développé sur un robot réel. Il a été montré qu'il est possible d'enseigner rapidement au robot des comportements situés très difficiles, voire impossibles, à programmer et de plus inaccessibles à des méthodes d'apprentissages numériques 'classiques'. L'intérêt des deux phases d'amorçage d'adaptations y a clairement été montré. A l'occasion de ce travail les principales techniques mises en œuvres ont porté sur la structure distribuée du comportement, la vision, l'apprentissage numérique de type probabiliste, l'architecture temps réel et l'interface homme machine. (C++, Linux, Java). Ces travaux ont donnés lieu à des publications dans des conférences internationales de très bon niveau (ECAI,IROS).

Soutenance : 19/12/2002

Membres du jury :

Jean Sallantin [rapporteur]
Philippe Gaussier [rapporteur]
Patrick Gallinari
Rachid Alami
Jean Daniel Zucker
Alexis Drogoul

Date de départ : 30/09/2004

Publications 2002