HOËT Shirley
Direction de recherche : Nicolas SABOURET
Apprentissage de la communication dans un système multi-agents ouvert, asynchrone et faiblement couplé
Dans un système multi-agents, la communication directe permet aux agents, via l'envoi de messages structurés, d'échanger des informations, de déléguer des tâches ou de négocier. Dans les travaux actuels, il est généralement supposé que l'agent connaît la nature (contenu et destinataire) des messages qu'il doit envoyer ainsi que le moment où les envoyer. Mais si l'on se place dans les systèmes multi-agents ouverts (où les agents peuvent entrer et sortir) et faiblement couplés (les agents sont conçus de manière séparée et ne peuvent donc pas connaître a priori les capacités de leurs pairs), cette hypothèse n'est plus valide : les agents ne se « connaissant » pas, ils ne peuvent déterminer à l'avance quels messages s'envoyer. L’objectif de cette thèse est par conséquent de définir des mécanismes pour permettre aux agents d'apprendre à communiquer avec les autres agents, en fonction de leurs objectifs et des changements perçus dans le système.
Dans un premier temps, nous présentons un algorithme d'exploration couplé à un protocole multi-agent permettant à un agent de construire le contenu de ses messages et d'associer ces derniers aux états dans lesquels il peut les envoyer. Ce mécanisme repose sur le caractère introspectif de nos agents qui ont la capacité de raisonner sur leurs états et leurs actions.
Dans un deuxième temps, nous présentons un mécanisme d'apprentissage par renforcement permettant à un agent de déterminer quand il doit ou non communiquer et dans ce cas quel message il doit envoyer. Notre algorithme repose sur l'utilisation d'une mémoire permettant à l'agent de mémoriser ses croyances et ses actes de communication envoyés dans le passé ainsi que sur la définition d'une nouvelle action {wait} qui permet à l'agent d'attendre quand il ne doit pas communiquer.
Dans un troisième temps, nous présentons un nouveau modèle de mémoire pour l'apprentissage de la communication. En effet, suite à l'évaluation de notre algorithme d'apprentissage, nous avons mis en évidence des problèmes que nous imputons à l'utilisation d'une mémoire qui n'est pas spécifique à la communication et qui de ce fait nuit à notre mécanisme d'apprentissage en créant un ensemble d'états, sur lequel l'algorithme agit, trop important. Notre modèle de mémoire est basé sur une mémorisation des dates et des réponses des messages qui ont été exécutés avec succès. Cela permet de limiter la taille de l'espace d'état sur certains problèmes et de mieux faire converger l'algorithme d'apprentissage.
Enfin, nous proposons un mécanisme permettant d'extraire le modèle des actes de communication, c'est-à-dire les préconditions que doit vérifier la situation de l'agent pour que celui-ci choisisse d'envoyer un message et les effets attendus de ce message sur le système. Notre proposition repose sur la politique apprise par l'agent en utilisant notre algorithme d'apprentissage. À partir de cette politique, nous montrons comment il est possible d'une part d'apprendre les effets des messages en utilisant les capacités d'introspection de nos agents. Puis à partir de l'apprentissage de ces effets, nous proposons d'utiliser un outil de classification pour déterminer des préconditions généralisées.
En conclusion, ce travail de thèse a mis en avant la nécessité pour les agents d'apprendre à communiquer et a proposé mécanisme basé sur l'apprentissage par renforcement et l'utilisation d'une mémoire pour la construction d'un modèle de messages.
Soutenance : 17/12/2012
Membres du jury :
M. Abdel-Illah Mouaddib, Professeur à l'Université de Caen [Rapporteur]
M. Alain Dutech , Chargé de recherche INRIA [Rapporteur]
M. Vincent Chevrier, Maitre de conférence Université de Nancy
M. Patrick Reignier, Professeur à l'Université Grenoble
M. Olivier Sigaud, Professeur à l'Université Pierre et Marie Curie
M. Nicolas Sabouret, Professeur à l'Université Paris-sud
Publications 2009-2013
-
2013
- Sh. Hoët, N. Sabouret : “Un modèle de mémoire pour l’apprentissage de communication dans un SMA”, Journées Francophones sur les Systèmes Multi-Agents (JFSMA 2013), Lille, France (2013)
-
2012
- Sh. Hoët : “Apprentissage de la communication dans un système multi-agents ouvert, asynchrone et faiblement couplé”, soutenance de thèse, soutenance 17/12/2012, direction de recherche Sabouret, Nicolas (2012)
-
2011
- Sh. Hoët, N. Sabouret : “Reinforcement Learning of Communication in a Multi-Agent Context”, IEEE/WIC/ACM International Conference on Intelligent Agent Technology, Lyon, France, pp. 240-243, (IEEE) (2011)
-
2010
- Sh. Hoët, N. Sabouret : “Simplification de la mémoire des agents en utilisant des FMDP”, 18th Journées Francophones sur les Systèmes Multi-Agents, Mahdia, Tunisia, pp. 13-22 (2010)
- Sh. Hoët, N. Sabouret : “Apprentissage par renforcement d’actes de communication dans un contexte multi-agent”, Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, vol. 24 (2), pp. 159-188, (Lavoisier) (2010)
-
2009
- Sh. Hoët, N. Sabouret : “Utiliser des protocoles d’interaction et de la mémoire pour l’apprentissage par renforcement d’actes de communication”, Modèles formels de l'interaction, Lannion, France, pp. 159-170 (2009)
- Sh. Hoët, N. Sabouret : “Apprentissage par renforcement d’actes de communication dans un contexte multi-agent”, Rencontre des Jeunes Chercheurs en Intelligence Artificielle, Hammamet, Tunisia, pp. 107-123 (2009)