Prev Section 9.3: Application : Dynamique d’évolution dans le Dilemme du prisonnierUp Chapitre 9: Evolution des stratégies et coordinationChapitre 10: Motivations individuelles et coordination collective Next
9.4 Règles de comportement et dynamique des populations de stratégies
Intéressons-nous maintenant plus directement au processus dynamique concernant l’évolution des stratégies dans la population. Comme nous l’avons déjà observé, les processus évolutionnaires comportent deux mécanismes de base : la mutation et la sélection. La stabilité évolutionnaire souligne le rôle des mutations dans la mesure où l’on étudie la stabilité des solutions du jeu face aux mutations dans la population des stratégies.
Les résultats que nous venons d’étudier concernent la dynamique globale de la population des stratégies quand on ne présuppose pas une rationalité forte des joueurs ou une connaissance approfondie du jeu. Mais, en nous intéressant à la dynamique agrégée, nous avons traité ces comportements de manière implicite, sans préciser leur contenu. Nous allons maintenant revenir sur la manière dont les individus composant la population peuvent modifier leur stratégie, en fonction de différents types de comportements adaptatifs avec rationalité limitée.
Plusieurs résultats récents des jeux évolutionnaires montrent effectivement que la dynamique d’évolution vers l’équilibre de Nash au niveau agrégé peut correspondre à des comportements adaptatifs basés sur un apprentissage au niveau des individus. L’apprentissage par renforcement↓ (reinforcement learning) ou par ↓imitation font partie de ce type de comportements.
Les modèles basés sur l’apprentissage adaptatif considèrent que chaque individu utilise une stratégie qui est confrontée aux stratégies des autres individus dans la population et, de temps en temps, en fonction ou non de la performance de sa stratégie, l’individu révise/mute sa stratégie. Ce processus dynamique possède alors deux dimensions importantes :
le taux de révision (la fréquence de révision) des stratégies par chaque individu et
la probabilité des stratégies d’être adoptées par un individu chaque fois qu’il révise sa stratégie.
Ces deux éléments résultent en général de manière endogène (et souvent aléatoire) des comportements spécifiés pour les agents et de l’évolution de l’état de la population et des performances des stratégies (quand l’individu révise en suivant un principe de satisficing à la Simon, par exemple, quand les performances obtenues avec la stratégie actuelle ne sont plus satisfaisantes).
L’apprentissage par renforcement correspond, par exemple, à la révision, après chaque étape des rencontres, des probabilités d’adoption des stratégies en fonction de la propre performance de la stratégie de l’agent, les stratégies avec des performances élevées ayant par conséquent une probabilité plus élevée d’être adoptée en cas de révision.
L’apprentissage par imitation↓ peut prendre différentes formes, la plus simple étant l’imitation de la stratégie d’un individu quelconque dans la population, cet individu étant tiré aléatoirement, selon une loi uniforme par exemple. On pourrait aussi imaginer que la fréquence des révisions soit croissante avec le retard de performance de la stratégie de l’agent par rapport à la performance moyenne de la population (une forme de satisficing à nouveau). On pourrait tout aussi considérer que l’agent choisit de manière aléatoire un individu à imiter dans la population mais qu’il ne l’imite que si la performance moyenne de l’autre agent (probablement observée avec une marge d’erreur) est supérieure à celle de sa propre stratégie.
La dynamique de population découlant de ces types de comportements adaptatifs peut être relativement similaire à une dynamique de convergence vers l’équilibre de Nash, avec le support dans la population des stratégies correspondantes s’élargissant tout au long de cette dynamique [92]. Cela nous conduit à voir l’équilibre de Nash avec d’autres yeux car la rationalité sur laquelle il semble se baser n’a pas nécessairement besoin d’être aussi forte que nous l’avons initialement supposée. Même des comportements avec une rationalité limitée peuvent conduire à long terme et dans un contexte de répétitions (sans lequel l’apprentissage n’est de toute façon pas possible) à des résultats proches de l’équilibre de Nash. La coordination et la convergence vers l’équilibre et donc vers une stabilité dans la dynamique semblent tout à fait possibles dans ce cadre, sous des comportements adaptatifs. Le chapitre suivant va plus directement aborder la question de la coordination des comportements.
Prev Section 9.3: Application : Dynamique d’évolution dans le Dilemme du prisonnierUp Chapitre 9: Evolution des stratégies et coordinationChapitre 10: Motivations individuelles et coordination collective Next