協力の進化のまとめその2 「直接互恵性」

協力の進化のまとめその2でございます．

振り返りと導入
状況設定と目標
良い戦略を考えてみる ~AllC vs AllD~
GRIMという戦略
最強となったTFT
TFTの弱点
まとめ
参考

振り返りと導入

前に書いた記事↓の続きを書いていこうと思います．

drumscos0120.hatenablog.com

前回記事では，ただただ人同士の接触を考えると社会の中に裏切りが蔓延してしまうというのを囚人のジレンマを使って説明しました．

そしてその上で，協力者を生き残らせるには一体どうすれば良いだろう？というのが一つの大きな疑問になっていると述べました．

さて，今回からは，どうすれば社会の中で協力が生き残ることができるようになるのか．その方法としてこれまでに考え出されてきたメカニズムを1つずつ紹介していきたいと思っています．

そして今回取り上げるのは「直接互恵性」というメカニズムです．これを一言で言うなら，「お互いに何度も会うなら，今回協力すれば相手も協力してくれるかもなあ」という期待を両者に組み込むことだと思っています．

では説明をしていきます．

状況設定と目標

直接互恵性がどんな仮定，条件の元で考えられているかを最初に整理します．

1 vs 1で囚人のジレンマゲームをする
1回だけじゃなくて繰り返しゲームを行う
プレイヤーは繰り返しゲームを行う中で，毎ターンどういう風に協力・裏切りを選択するかという戦略を持つ
について少し補足すると，囚人のジレンマなのでゲームの利得表は以下のような感じで， $T>R>P>S$ と $2R > T+S$ という条件を持ちます．

A\B	協力	裏切り
協力	( $R, R$ )	( $S, T$ )
裏切り	( $T, S$ )	( $P, P$ )

そして，2については回数 $m$ が決まっている場合と，ゲームを続ける確率 $w$ に基づいた回数の期待値 $\bar{m}=1/(1-w)$ で考える場合がありますが，今回は後者を使うことにします．つまりは，プレイヤーたちがいつ繰り返しゲームが終了するか分かっていない状態です．

こう言った状況設定の上で，3にある協力・裏切り選択に関する戦略の中で最も良いものを探し，それを使ったら協力が生き残ったりしないかなーというのが直接互恵主義の考え方です．

良い戦略を考えてみる ~AllC vs AllD~

ここでプレイヤーがとる協力・裏切りの選択に関する戦略としてAllCとAllDというのをまず紹介します．

なお，CというのはCooperation，すなわち協力の意味で，逆にDはDefection，すなわち裏切りを指します．今後もCとかDとかを単体で見かけたら大概こういう意味です．

さて，AllCというのは実に簡単な戦略で，相手が何をしようが構わずどのターンでも協力しようとします．

AllDは逆で，どのターンでも裏切ります．

それではプレイヤー同士がこれらの戦略を選択肢として持っている状況を考えてみましよう．

片方がAllCでもう片方がAllDだったとき，AllDが圧倒的に得をするのは $T>S$ の関係上明らかです．

そうなってくるとAllCの人はきっと自分の戦略について不満を抱くでしょう．変えられるものならAllDに変えたいと思うはずです．なぜなら自分がAllDに変えてお互いに $P$ を得るとしても $P>S$ という関係がある以上，AllCのままでいるよりはマシだからです．

では最初から両方ともAllCだった場合は，両プレイヤーはどのように考えるでしょうか？

残念ながらここでも両プレイヤーはAllCに見切りをつけます．これは前回説明したオーソドックスな囚人のジレンマと同じ理屈ですね．

まとめると，プレイヤーがAllCとAllDという戦略を持っていたとすると，AllCを選ぶことはない，すなわち協力の生き残りは依然ありえないということです．

これは困った．別の戦略にいいものはないでしょうか？

GRIMという戦略

GRIMという戦略があります．これは，最初のターンは協力して，相手がもし裏切ったら自分も裏切りに切り替え，以後裏切り続けるというものです．裏切り絶対許さないマンですね．

この戦略は，最初から両プレイヤーが選択している場合，AllDの誘惑に負けないことがあります．その条件は繰り返し回数 $\bar{m}$ が適切に大きい場合です（考え方は省きますが，具体的には $\bar{m}=(T-P)/(R-P)$ のとき）．

つまり，最初から2人ともGRIMを採用していて，かつ繰り返し回数が多い場合はお互いに協力し続けるため協力の生き残りが発生するのです！ヤッター！！

最強となったTFT

しかし，そのGRIMよりも強い戦略があります．それがTFTです．

これはしっぺ返し戦略とも呼ばれるもので，GRIMと同じく最初のターンは協力し，相手が裏切ると自分も裏切りに変えますが，逆に相手が協力しだすと自分もまた協力に戻ることができます．簡単にいうと相手の行動を真似する戦略です．

非常に単純ですがこの戦略はなかなか強いことが知られています．

その代表的な話として，アクセルロッドが行ったゲーム戦略のコンペが有名です．

彼はどの戦略が強いのか調べるために，様々な分野の研究者から戦略を募集し，コンピュータ上で総当たり戦をして最も強いものを調べました．

その結果，優勝したのがそのTFTだったのです．

試しにTFTとAllDを比べると，GRIMの時と同様にAllDの誘惑に負けないことがわかります．

さらにGRIMと比べた場合でも，相手が協力に時々変えるような戦略であったときに協力に戻ることができるため，GRIMより強いと考えられます（実はこの理屈がちゃんと納得いってない）．

もちろん，TFTを両プレイヤーが選んだら協力が生き残れることはいうまでもありません．

TFTの弱点

さて，直接互恵性を考えるとTFTを使えば協力の進化が起こることがあると確認できたわけですが，実はTFTにも弱点が存在します．

それは状況設定に拡張を加えて，戦略を決めていたとしても，ときどきヒューマンエラーが起きて意図していた行動を起こせない（協力しようとしたけど手が滑って裏切ってしまうなど）としたときに顕在化します．

両人がTFTを選択していて，片方がエラーして裏切ってしまったときを考えると，互いに協力と裏切りを交互に繰り返してしまう状況が考えられます．

これでは協力が安定したとは言えませんよね．すなわちTFTはエラーに対する頑健さが不足しているのです．

まとめ

そういうわけで，今回は直接互恵性というメカニズムを考え，状況設定をし，最適な戦略とは何かを考えました．

その結果，TFTが優秀とわかり，それを選択した場合は協力が安定するとわかったわけですが，同時に弱点も見えました．

つまり，直接互恵性だけでは随分限られた条件下でしか協力の安定を論じれないかもしれないわけです．

他に何かいいメカニズムを組み込むことはできないのだろうか？

というわけで次の記事では2番目のメカニズムとして「間接互恵性」を紹介します．

では．

参考

Martin A. Nowak（原著），竹内康博ら（訳），進化のダイナミクス，共立出版，2008
David G. Rand，Martin A. Nowak，Human cooperation，Trends in Cognitive Sciences，August 2013，Vol. 17，No. 8

もじゃもじゃな人の雑記

当方は高専生でしたが今は腐れ大学生．今後は日記および備忘録として動きます．