« | Main | »

四十八分之四十四:prisoner’s dilemma

postcard from Waterloo Station, London, June 2012

读大名鼎鼎的《the selfish gene》的时候,没想到里面也用了一个章节来讲囚徒困境(prisoner’s dilemma)问题。这个问题也是我在接触了智能体模型(Agent-based model)后在相关文献中最常出现的引用之一。其实这也是社会学或者说博弈论的一个经典案例,案例简单来说就是你和你的共犯被抓,警察将你们分开审讯,作为疑犯你和你的共犯可以采取两种措施,一种是死不承认,一个是坦白从宽。由于每个人都有两个选择,排列组合之后就有了四种结果。都不承认的是两人都受到轻微惩罚,而互相揭穿的结果是两者都接受中等程度惩罚,而一方背叛而另一方不供认的结果是被背叛的收到最重的惩罚而背叛者不受到惩罚(以下是wiki上面的来源)。

The prisoner’s dilemma is a canonical example of a game analyzed in game theory that shows why two individuals might not cooperate, even if it appears that it is in their best interest to do so. It was originally framed by Merrill Flood and Melvin Dresher working at RAND in 1950. Albert W. Tucker formalized the game with prison sentence payoffs and gave it the “prisoner’s dilemma” name (Poundstone, 1992). A classic example of the prisoner’s dilemma (PD) is presented as follows:

Two men are arrested, but the police do not possess enough information for a conviction. Following the separation of the two men, the police offer both a similar deal—if one testifies against his partner (defects/betrays), and the other remains silent (cooperates/assists), the betrayer goes free and the one that remains silent receives the full one-year sentence. If both remain silent, both are sentenced to only one month in jail for a minor charge. If each ‘rats out’ the other, each receives a three-month sentence. Each prisoner must choose either to betray or remain silent; the decision of each is kept quiet. What should they do?

而这个问题的核心是研究对象(在这个情况下是疑犯)应该采取什么措施。而在书中,得出了一个有趣的结论——nice guys finish first,也就是说遇到这种情况,友善的策略(strategy)的结果是最好。在这个实验中,设计者请了很多人来设计不同的策略,不断重复这个实验,看最后谁的结果最好(惩罚最轻,或者收益最大),夺冠的策略是Tit for tat(an English saying meaning “equivalent retaliation”)。这个策略就是全面模仿对方的策略,只要对方沉默,我也沉默,只要对方背叛,我下一轮也背叛。换成中文有点跟屁虫的味道,同时又有点大好人的感觉,再加一点睚眦必报(很奇怪这种策略要翻译成中文都是比较负面的词汇)。而相对而言,比较邪恶的拥有主动背叛的策略都得不到善果。

而我遇到的智能体模型,大多是用它来处理资源的分配问题,因为主权不明确的公共资源,由于它的外部性(externality)作用(比如空气),不同的决策者会对它不同的对待方式。比如环保主义者,住户,政府,投资者和产业者。在这个情况下不再是善有善终的结果了。我觉得很大的问题是,不同于前面提到的策略,另一种决策过程(decision making process)在现实生活中起作用。利益相关者(stakeholder)不再单一采取一种静态的策略,而是在学习和适应(learning and adaptation)的过程中不过改变自己的策略,每一个决策是根据自己以前策略的结果和广义上“邻居”的策略信息综合得出的,所以结果更莫测一点。

这一切看起来很学术,但是换一个话题一下就很容易明白,那就是恋爱。爱情中的人总会遇到这种进退维谷的时候,有些时候你会选择原谅,有些时候你会选择报复。总体来看,长长久久的爱情大抵都是互相懂得原谅的,而主动报复对方的一半时最迅速结束自己的姻缘的。但是大多数人不是一见钟情,一生一世,而是在不断遇到新人的过程,你自己的恋爱策略也慢慢变化着,最后能不能达到平衡状态也要看天时地利人和。所以博弈论下面的爱情关系教会至少两件事情,一者是要大度,二者是要学会成长,豆瓣上面那些恋爱的故事就是一个个实证案例(empirical cases)。

P.S. 书里面提出了文化基因meme,但是不知道为什么现在人们对这个词的发音都是类似“密密”,明明文章里面提到其实这个词的发音应该是模仿基因(gene)的单音节(monosyllable),而应该跟Cream押韵(It should be pronounced to rhyme with ‘cream'”),不知道为什么这种发音发生了变化。

Posted on July 14th, 2012 by Registered Commenterhedgehog in Academic | 学海无涯, Life Style | 似水年华 | CommentsPost a comment

Reader Comments (4)

我真心觉得我们的研究好像有很多的共通之处……

hedgehog Reply:

其实我只是感兴趣读了一下,其实我还是做土地利用,公共资源只是出于好奇心读的~~

坐照 Reply:

原来如此,我现在的东西主要就是用game theory做公共资源管理的,以后有机会我们得搞个合作研究啥的

hedgehog Reply:

一定一定

July 14th, 2012 | Registered Commenter坐照