Chapitre 9: Evolution des stratégies et coordination Up Chapitre 9: Evolution des stratégies et coordination Section 9.2: Le concept de stabilité évolutionnaire 

9.1 Stratégies, mutations, sélection

La théorie de l’évolution s’intéresse à l’évolution des espèces et donc des populations correspondantes. Comme nous l’avons vu dans le chapitre 6↑, cette évolution résulte des mutations dans les génomes des individus formant l’espèce et de la sélection des caractéristiques correspondant à ces génomes (les phénotypes) par la pression du milieu dans la reproduction. Quand aucune nouvelle mutation ne peut détrôner un ensemble de caractéristiques (et donc le génome correspondant), cela conduit à une stabilité dans le processus d’évolution. C’est l’idée de base de la stabilité évolutionnaire que nous allons considérer dans la section suivante.
La question qui se pose à ce stade est la suivante : étant donné que l’évolution est celle des populations, comment pouvons-nous en tirer des leçons concernant celle des stratégies des joueurs et leur stabilité? Rappelons-nous que l’équilibre de Nash est aussi basé sur un concept de stabilité : la stabilité face aux déviations unilatérales.
Pour pouvoir utiliser le concept d’évolution, nous devons alors nous intéresser à celle de la population de stratégies, les joueurs n’étant que le support fictif de cette population. Dans les jeux symétriques (quand les joueurs ont le même ensemble de stratégies et les gains sont symétriques), cette transposition est même assez simple à concevoir : il suffit de considérer les rencontres successives de couples de stratégies aléatoirement tirées de la population des stratégies.
Clyde
Bonnie
Tab. 9.1 Dilemme du prisonnier. nier, dénoncer
Considérons un jeu bien connu, le Dilemme du prisonnier (voir Tab. 9.1↑). Vous en connaissez l’histoire surement. Deux bandits, Bonny et Clyde se font attraper après leur dernier braquage de banque, sans témoins oculaires, mais avec de gros soupçons de la part du Shérif du comté. Le juge ne pourra néanmoins les condamner à une peine lourde que si le Shérif arrive à obtenir leur confession. Pour y arriver, il les enferme dans deux cellules séparées, sans aucun moyen de communication et les prisonniers sont alors confrontés au choix entre dénoncer leur complice (D) en lui mettant tout sur le dos (et donc en apportant par leur témoignage la preuve de sa culpabilité) ou nier (N) de savoir quoi que cela soit de ce braquage. Dans le premier cas, le prisonnier qui dénonce est relâché, tandis que l’autre écope de la peine maximale et la perspective d’être relâché constitue dans ce cas une forte incitation pour chacun de dénoncer l’autre. Mais s’il y cèdent tous les deux, leur culpabilité est pleinement prouvée et ils sont condamnés tous les deux à une peine lourde. Le tableau 9.1↑ résume la situation des prisonniers en donnant l’utilité qu’obtiennent Bonny et Clyde dans chaque cas, en fonction des années de prison qui découlent des stratégies choisies par eux. Nous connaissons le seul équilibre de Nash de ce jeu et il correspond à la situation (bien sous-optimale pour eux) où chacun dénonce l’autre et il est condamné à une peine lourde : la solution .
Comment pourrions-nous étudier les solutions de ce jeu dans une vision évolutionnaire? Les deux joueurs ont le même ensemble de stratégies : . Nous pouvons donc imaginer une population de supports de stratégies, , chacun initialement doté de ou de de manière aléatoire. Appelons individus ces supports pour simplifier la présentation (on aurait pu tout aussi bien imaginer un bac rempli de boules de deux couleurs). A chaque période, deux de ces individus sont aléatoirement tirés de la population et ils jouent au Dilemme du prisonnier, tel que nous le connaissons. En fonction des stratégies qu’ils portent, ils obtiennent alors les gains donnés par la matrice de ce jeu. Après avoir observé leur performance (le degré d’adaptation à leur environnement – fitness en biologie) avec les stratégies qu’ils ont actuellement, ils choisissent une nouvelle stratégie et ils sont remis dans la population. On recommence alors avec deux nouveaux individus encore tirés au hasard. La probabilité de survie de chaque stratégie dans la population dépendra alors des performances de cette stratégie, puisque les règles simples que les individus utilisent pour modifier leur stratégie, notamment grâce à des expériences aléatoires (mutations), doivent favoriser les stratégies qui ont une performance meilleure.
Ces règles simples, associées à la procédure de rencontre que nous considérons, correspondent à un processus dynamique stochastique, en ce qui concerne la distribution des stratégies et dans la population. Nous pouvons alors nous demander si cette dynamique conduit à une distribution stable des stratégies dans la population. Si oui, laquelle?

 Chapitre 9: Evolution des stratégies et coordination Up Chapitre 9: Evolution des stratégies et coordination Section 9.2: Le concept de stabilité évolutionnaire 
Sommaire
(c) Murat Yildizoglu, 2021-