非常に寛容だが売られたケンカは買うという最強の戦略「ナッシュ均衡」-ジョン・ナッシュ

ナッシュ均衡とはゲーム理論の用語で、ゲームに参加しているどのプレイヤーも、他の選択肢を取ることで期待値が向上しない、つまり「均衡」している状態を指す。なお、ゲーム理論とは、社会や自然における複数主体が関わる意思決定の問題や行動の、相互依存的状況を数学的な数理モデルを用いて研究する学問である。

囚人のジレンマ

ナッシュ均衡を説明するための思考実験において、最もよく知られているものとして「囚人のジレンマ」がある。もともとは1950年に、プリンストン大学の数学者であるアルバート・タッカーが、講演時に用いた一種の思考実験である。余談となるが、タッカーは「ナッシュ均衡」という言葉の生みの親であるジョン・ナッシュの指導教官であった。

「囚人のジレンマ」の詳細について記載する。二人組の犯罪者が捕まり、別々の部屋で取り調べを受けている。取調官は二人の犯罪者に対し、次のように迫る。「両者ともに、黙秘を続ければ証拠不十分で刑期は1年」「両者ともに自白すれば刑期は5年」「片方が黙秘を続けているとき、もう片方が自白すれば捜査協力の礼として無罪放免、相方は刑期10年だ」

個の利得最大化が全体での利得最大化とはいかない

二人の囚人はこのように考える。まず、「あいつが黙秘して自分が自白すれば無罪放免、しかしあいつは刑期10年になる。自分も黙秘した場合は、両者ともに刑期1年」。この場合、自白したほうがいい。「あいつが自白して、自分も自白すれば両者ともに刑期5年。自分が黙秘すれば刑期10年で、あいつは無罪放免」。こちらの場合も、やはり自白したほうがいい。

つまり、相手が自白しようと黙秘しようと、自分にとってはどちらの場合であっても自白が合理的だと考え、結果的に二人ともが揃って自白し、どちらも刑期5年となる。このことが示唆しているのは、利得を最大化するための合理的な選択は、必ずしも全体での利得最大化とはいかない、というもので、専門的には非ゼロ和ゲームという。

繰り返し囚人のジレンマ

先述した「囚人のジレンマ」は、ただ一度の意思決定で参加者の利得が決定されるゲームだが、実際の人間社会はそう単純ではなく、黙秘か自白、あるいは協調か裏切りかの選択を幾度となく繰り返すことになる。この「幾度となく繰り返す」という面を反映させ、社会における人間の意思決定について、より深い示唆を与えてくれるのが「繰り返し囚人のジレンマ」だ。

このゲームでは、参加者はそれぞれ「協調」と「裏切り」のカードを所有する。合図と共にカードを出し、二人とも「裏切り」の場合は両者ともに1万円の賞金を得る。二人とも「協調」の場合は両者ともに3万円を得る。一方が「裏切り」、他方が「協調」した場合は、裏切った側が5万円を得、協調した側は何も得られない。さて、より多くの賞金を得るには?

このゲームは、選択肢がたった2つというシンプルな内容からは信じられないほどの大論争を巻き起こし、最終的にミシガン大学の政治学者であるロバート・アクセルロッドは、この「繰り返し囚人のジレンマ」をコンピュータ同士に戦わせ、どのようなプログラムが最も高い賞金を得るかをコンテストにすることにした。

シンプル イズ ベスト ストロング

コンテストには、政治学、経済学、心理学、社会学といった分野から14名の専門家がその知識を余すことなく組み込んだプログラムを引っ提げて参加し、アクセルロッドはこれに追加する形で無作為に「協調」と「裏切り」を出力するランダム・プログラムを加え、総計15のプログラムによる総当たり戦を行わせた。

1試合につき200回の「繰り返し囚人のジレンマ」ゲームを実施し、計5試合を行って平均獲得賞金を比較するということにした。その結果を見て、関係者は大変に驚いた。優勝したのは、参加者が構築したすべてのプログラムでもっともシンプルな、たった三行で構築されたプログラムだったからだ。

トロント大学の心理学者であるアナトール・ラポパートが構築したこのプログラムは、初回は「協調」を出し、二回目は相手が前回出したものと同じものを出し、以下それをひたすら繰り返す、というものであった。開催者であるアクセルロッドが整理した、このプログラムの強さのポイントが大変興味深いため、記載しておく。

強さのポイントは3つの要素

第一に、このプログラムは自分からは裏切らない。まず強調する。そして相手が協調し続ける限り自分も強調し続ける「いいヤツ」であり続ける。その上で、第二に、相手が裏切れば自分も即座に裏切り返す。協調してばかりであれば、相手が裏切った際に損失が膨らむが、そのときは即座にペナルティを相手に与える。「いいヤツ」だが、売られたケンカは買う。

そして第三に、裏切った相手が再び協調に戻れば、自分も強調に戻るという「寛容さ」を持っている。終わったことは水に流して握手といこう。最後に、相手側からすると「こちらが裏切らない限りいいヤツだけど、裏切ったときは即座に裏切られる」ことが明白で、非常に単純でわかりやすい。イコール、予測しやすいという特徴がある。

予測しやすいということは、ゲームにおいては破りやすいということになりかねない。しかし、この非常に単純な戦略は、やはり非常に強固である、ということを改めて記載しておく。このコンテンストから数年後、統計解析を駆使し打ち手を出力する高度なプログラムを含む遥かに多くの競争相手が参加する第二回コンテストが開催された。

そのコンテストにおいても、ラパポートのプログラムは再度の優勝を果たした。前回と同様、たった三行で構築された単純でわかりやすいプログラムが、だ。この結果として、ラパポートの構築したプログラムは、非常に広範な戦略に対し有効な戦略となることが認められた。

まとめとして、アクセルロッドはこれらの研究やゲーム理論を実際の生活に適用してみるとどのように活用できるか、例えば「この戦略は長い付き合いが想定されるケースでは有効であるが、そうでない場合はその限りではない」といった示唆についても言及している。

ジョン・ナッシュ

ジョン・フォーブス・ナッシュ・ジュニア(John Forbes Nash Jr., 1928年6月13日 – 2015年5月23日)は、アメリカの数学者で、特にゲーム理論の発展に大きく貢献した人物として知られています。彼の業績は、経済学、政治学、進化生物学など多岐にわたる分野で応用され、彼自身もノーベル経済学賞(1994年)を受賞しました。ナッシュの人生は、映画『ビューティフル・マインド』で描かれたように、天才数学者としての栄光と、統合失調症との闘いの二面性で知られています。

ナッシュ均衡(Nash Equilibrium)

  • ナッシュ均衡は、ジョン・ナッシュがゲーム理論で提唱した最も有名な概念です。これは、複数のプレイヤーが参加するゲームにおいて、全員が自分の戦略を変えずにいられる状態を指します。
  • 簡単に言えば、ナッシュ均衡では、各プレイヤーが自分にとって最も有利な戦略を選んでいるため、他のプレイヤーも戦略を変更する動機がない状況です。
  • 例として、囚人のジレンマがよく挙げられます。この状況では、各囚人が互いに協力するよりも裏切る方が利益になるため、結果的に両者が裏切りを選ぶのがナッシュ均衡です。

非協力ゲーム理論の基礎

  • ナッシュは、1950年に博士論文「Non-Cooperative Games」を発表し、非協力的な状況におけるプレイヤーの意思決定を数学的にモデル化しました。
  • これは、従来の協力ゲーム理論(プレイヤー同士が協力して利益を最大化する)を補完するものとして、ゲーム理論の適用範囲を大幅に拡大しました。

埋め込み定理(Nash Embedding Theorem)

  • ナッシュは、微分幾何学でも重要な貢献をしています。彼の「埋め込み定理」は、任意のリーマン多様体がユークリッド空間内に適切に埋め込むことができることを証明しました。
  • この成果は数学の純理論における重要な進展であり、物理学や工学でも応用されています。

ナッシュのパラドックス

交通流理論で知られる「ナッシュのパラドックス」は、各プレイヤーが自分の利益を最適化すると、全体の効率が低下する可能性を指摘したものです。これは「ブラエスのパラドックス」としても知られ、インフラ設計や都市計画での戦略的意思決定に影響を与えています。

コメント