MADEIRA Charles

doctorant à Sorbonne Université
Équipe : ACASA
https://lip6.fr/Charles.Madeira

Direction de recherche : Jean-Gabriel GANASCIA

Co-encadrement : CORRUBLE Vincent

Agents adaptatifs dans les jeux de stratégie modernes : une approche fondée sur l'apprentissage par renforcement

L'un des principaux intérêts de l'intelligence artificielle pour le domaine des jeux consiste en la conception d'adversaires artificiels proposant un réel défi aux joueurs humains. Dans ce contexte, certaines techniques telles que celles proposées par l'apprentissage automatique ont déjà obtenu d'excellents résultats ces dernières années lorsqu'elles ont été appliquées aux jeux dits "classiques". Cependant, devant des simulations du monde réel telles que les "jeux de stratégie modernes", qui peuvent être vues comme des extensions des jeux classiques, les techniques les plus actuelles de l'intelligence artificielle ne peuvent pas être efficacement appliquées en raison d'une très grande complexité. Ces jeux modernes demandent aux joueurs de contrôler la prise de décisions d'un grand nombre d'unités placées sur un environnement très sophistiqué. Cela les conduit à traiter des problèmes de prise de décisions pour lesquels plusieurs questions sont simultanément posées (la prise de décisions dans l'incertain, la gestion de ressources, le raisonnement spatial et temporel, la modélisation de l'adversaire, la coordination entre les unités, etc.), dont chacune peut représenter un problème de recherche difficile en soi.
Cette thèse étudie les défis posés par l'application de l'apprentissage par renforcement aux jeux de stratégie modernes et propose l'approche STRADA. L'approche STRADA combine de nouvelles idées avec des techniques actuelles de plusieurs domaines de l'apprentissage automatique. Elle propose une nouvelle approche intégrée d'apprentissage pour la conception automatique de stratégies comportementales efficaces dans ce type d'environnement. Elle explore, en particulier, (1) la réduction de la complexité du problème grâce à la décomposition de la prise de décisions et à l'abstraction des espaces d'états et d'actions ; et (2) l'accélération du processus d'apprentissage des agents grâce à la généralisation de la fonction d'évaluation et à l'amorçage du processus d'acquisition de l'expérience. Des solutions pour ces problèmes sont intégrées dans un système d'apprentissage efficace, dont les performances sont démontrées sur la tâche d'apprendre des stratégies comportementales dans le cadre d'un wargame commercial. Le système résultant surpasse le niveau de performances du système de prise de décisions commercial et atteint un niveau proche de celui de l'auteur de cette thèse.

Soutenance : 25/04/2007

Membres du jury :

BOUZY Bruno Université René Descartes [Rapporteur]
LITTMAN Michael Rutgers University [Rapporteur]
CORRUBLE Vincent Université Pierre et Marie Curie
DONNART Jea-Yves Thales
GANASCIA Jean-Gabriel
RAMALHO Gerber Universidade federal de Pernambuco
SIGAUD Olivier Université Pierre et Marie Curie

Date de départ : 31/08/2008

Publications 2002-2011