PAMPONET MACHADO Aydano
Supervision : Jean-Daniel ZUCKER
Le transfert adaptatif en apprentissage par renforcement Application à la simulation de schéma de jeux tactiques
L'un des principaux objectifs de l'apprentissage par renforcement est de développer des algorithmes capables de générer des politiques de bonne qualité en un temps le plus réduit possible. Les progrès dans ce domaine sont tels que les performances de certains algorithmes récents approchent des limites théoriques. Malheureusement, la plupart des taches d'apprentissage issues du monde réel sont de grande dimension, et l’apprentissage prend dès lors un temps considérable. Pour accélérer l'apprentissage, l'une des voies possibles consiste à guider le processus d'exploration à l'aide de connaissances du domaine. Lorsque ces connaissances prennent la forme d'une politique apprise précédemment sur une tâche reliée à la tache courante, on parle de transfert de politique. La plupart des algorithmes de transfert de politique existants sont basés sur une hypothèse implicite : ils supposent que la politique disponible est d'une bonne qualité sur la tache courante. Clairement, lorsque cette hypothèse n'est pas respectée, les performances de ces algorithmes se dégradent bien en dessous des performances des méthodes d'apprentissage par renforcement standards. Le but de cette thèse est de lever cette hypothèse, en proposant des algorithmes de transfert de politique capables de s'adapter à la qualité de la politique disponible. Plus précisément, nous introduisons un paramètre nommé le taux de transfert, qui contrôle à quel point l'algorithme se fiera à la politique disponible. De plus, nous proposons d'optimiser ce taux afin de faire le meilleur usage de cette politique. Ainsi, les algorithmes que nous proposons dans cette thèse offrent une certaine robustesse face à la politique disponible, ce qui n'était pas le cas des approches précédentes. Ces algorithmes sont évalués sur deux domaines différents : un problème jouet (le gridworld), et une application d'aide à l'entraineur de football. Cette dernière application propose à un entraineur de saisir des schémas tactiques à l'aide d'une interface graphique, et lui permet ensuite de visualiser des agents-joueurs en train de réaliser ces mêmes schémas. Pour satisfaire dans des délais raisonnables la requête de l'entraineur, l'apprentissage par renforcement seul ne suffit pas, et nos algorithmes de transfert ont été appliqués sur ce domaine avec succès.
Defence : 06/24/2009
Jury members :
GARCIA Frédérick Directeur de Recherches à l’Institut National de la Recherche Agronomique (Rapporteur)
PREUX Philippe Professeur à l’Université de Lille 3 (Rapporteur)
CHEVALEYRE Yann Maître de Conférences à l’Université Paris-Dauphine
EL FALLAH SEGHROUCHNI Amal Professeur à l’Université Pierre et Marie Curie
RAMALHO Geber Professeur à l’Universidade Federal de Pernambuco
RIOULT François Maître de Conférences à l’Université de Caen Basse-Normandie
RIPOLL Hubert Professeur à l’Université de la Méditerranée
ZUCKER Jean-Daniel Directeur de Recherches à l’Institut de Recherche pour le Développement
2002-2009 Publications
-
2009
- A. Pamponet Machado : “Le transfert adaptatif en apprentissage par renforcement Application à la simulation de schéma de jeux tactiques”, thesis, phd defence 06/24/2009, supervision Zucker, Jean-Daniel (2009)
-
2002
- A. Pamponet Machado, A. De Luna Almeida, G. Ramalho, J.‑D. Zucker, A. Drogoul : “Multi-Agent Movement Coordination in Patrolling”, First Workshop on Agents in Computer Games, at The 3rd International Conference on Computers and Games (CG'02), Edmonton, Canada (2002)
- A. Pamponet Machado, G. Ramalho, J.‑D. Zucker, A. Drogoul : “Multi-Agent Patrolling: an Empirical Analysis of Alternative Architectures”, MABS 2002 - 3rd International Workshop on Multi-Agent Systems and Agent-Based Simulation, vol. 2581, Lecture Notes in Computer Science, Bologna, Italy, pp. 155-170, (Springer) (2002)