纯粹的魔力半山任务那个任务怎么做

点击联系发帖人 时间：2016-05-28 09:41

远古魔力任务怎么交

异界邂逅二次元女神第652章化不可能为可能的人 - 小说阅读网
第652章化不可能为可能的人
字:大中小
&&&&原来混乱的战场，这一刻忽然诡异的静止了下来。
&&&&那些半魔人全都顿在了那里，就连那数之不尽的魔人，此时也嘶吼着停了下来，眼神中竟是露出了一丝畏惧……
&&&&天空之上探测魔法的光芒闪耀，魔法另一端那些关注着这个战场的世界各地的人们，眼睛全都瞪得老大，呆呆的张大了嘴。
&&&&就连处在阵法外头，正在对战的七阶强者们都愕然的停下了对战。
&&&&“这是……”
&&&&他们全都发怔，因为他们都察觉到了阵法中发生的异变。
&&&&剑姬艾丝那金色的眼瞳里倒映出了一道慢慢腾空的身影。
&&&&带着面具的安哲慢慢升空，但却有无比狂暴的魔能波动从他身上中涌出。
&&&&第一次当着全世界的目光，他完全的释放出了体内的魔能海洋。
&&&&浓郁的魔力在此刻从他体内奔腾而出，自然的托浮起了他的身体，让他静止在了空中，而他体内奔涌的魔力，竟是让得这处地界，仿佛化成了一片汪洋大海！
&&&&异象：魔力之海……
&&&&量变到了极强的程度，魔能就能化出异象，在安哲彻底的释放出体内魔能后，他看起来仿佛虚立在一片无边无际的海洋上空，
&&&&仿佛可以让山崩地裂的魔力汹涌着，虽然并没有对置身其中的人与物造成任何的伤害，但仿若无边无际的魔力海洋，让得所有见到这一幕的人，眼神中都露出了震撼。
&&&&“这是、那个……神秘人？？”
&&&&有人惊讶的出声，他在看到安哲身影的一瞬间，就觉得这人有些眼熟，但这个人已经太久没有出现在他们的视线里了，久而久之人们都快将他忘记了。
&&&&据说他是魔都学府的一名六阶能力者，曾帮助圣人扭转过战局，后来就不曾露面过了。
&&&&但现在、、
&&&&看着那仿若天神般虚浮于天空的身影，不知有多少人露出了不可思议的神情。
&&&&异象啊！
&&&&单纯由魔力化出的异向啊！在此之前，已经近百年没有异象出现过了，更不说还是最为纯粹的魔力异象……
&&&&远在魔都之中的亚伯特，还有在学府的凛冬千山等人，则是错愕的出声。
&&&&“安哲殿下！？”
&&&&他怎么会在那里！？
&&&&亚伯特眼神中带着错愕，但又很快想了起来，记得安哲殿下是去帝都参加历练考核了，这一次、显然是正好在考核过程中，正好给遇上这事情了……
&&&&学府之中凛冬千山不由得头疼的扶着额头，显然也想通了安哲出现在那里的原因。
&&&&将这位存在也卷进去了啊！
&&&&就算不说他的身份，他的身上、还有着零时迷子呢……
&&&&安哲已经管不了这么多了，反正他有着神秘人的身份做掩护，现在曝光了自己的魔力海洋也没什么关系。
&&&&他之所以这样，是因为他要兑换的能力。
&&&&目光锁定在了寻找到的能力选项上，他眼神凝起。
&&&&搜索主角：葵o托利
&&&&主角能力：全能力任意对象传播术式！
&&&&能力兑换！
&&&&五百万人气值瞬息间划去，安哲身后的魔力海洋异象瞬间咆哮了起来。
&&&&能力效果是……使用者的全能力转播与分配。
&&&&现在的安哲，能把他所拥有的一切分配给所有人！
&&&&安哲身上的衣物开始了无风自动，滚滚的蓝色虚焰从他身上燃起，仿佛要烧穿天际。
&&&&那是最为纯粹的魔力，安哲唯一拥有的，便是这无边无际的魔力海洋！
&&&&“那么……我的力量，请拿去用吧……”
&&&&安哲那轻声的低喃，却清晰的传出了人们的耳中，他身体中的魔力在激荡，化出了一根根虚幻的线，精准的与阵中众多的能力者连接在了一起。
&&&&这一刻魔力海洋开始了涌动，无尽的魔力通过这条线涌入到了这些人的体内。
&&&&随着魔力的涌入，这些能力者感觉到自己体内耗尽的魔力被迅速的充满，原来越来越弱的战力，在这股魔力的支援下，再次恢复了巅峰。
&&&&他们的身上，同样燃起了魔力的蓝色虚焰，就像是滚滚的魔力在不断的燃烧一般……
&&&&所有观看到这一幕的人全都惊住了……
&&&&“他、、把他的魔力，分配给了每一个人……”
&&&&“这是什么能力啊……为什么魔力会没有了排斥性？”
&&&&无数人心里充满了疑惑，但很快就有人激动的大叫。
&&&&“这些根本不重要好吗！这个神秘人拥有着如此庞大的魔力储备，又能将其分配给他人，也就是说……”
&&&&“和他一起战斗的人，能获得无尽的魔力补充，可以无限制的、持续不断的使用魔法……”
&&&&在学府之中，凛冬千山忽然露出了一丝微笑。
&&&&真有你的啊，安哲殿下。意外将你卷入了那处战场，没想到帮了大忙了。
&&&&那个能力，能力者这边的高层都不想去深究，因为就算别人有着那样的能力，也没有安哲那般庞大到举世皆惊的魔力储备。
&&&&能做到现在这样的程度的，只有可能是安哲一人而已！
&&&&就是不知道，他的魔力储备能支撑多久……
&&&&似是能明白众人的顾虑，安哲虚浮于空中，露在面具外的嘴角露出了淡淡的笑容。
&&&&“呐，放心好了……你们的绝望、不甘、愤怒……我通通都感受到了。”
&&&&他这样说着，那虚幻的魔力海洋在这一刻巨浪滔天。
&&&&“那么现在，我来驱走你们的绝望，我来替你们承担不甘，让我看看你们亲手造就出的希望！”
&&&&轰隆隆……
&&&&庞大的魔力海洋似是真实出现在了世间，与远处死寂的死海不同，它仿佛有生命般，在不断发出怒吼！
&&&&海浪翻涌，比先前充溢了数倍的魔力，涌向了这些能力者，一瞬间让这些人眼中精光大放！
&&&&“杀！”
&&&&有人激动的放声大喝，在那无尽的魔力灌入下，他的魔法都比平时强大了数倍！
&&&&半魔人神色一变，哪怕是在沸血秘术的加持下，他们都感觉到了浓浓的危险。
&&&&他们是在燃烧自己的气血，来换来超强的爆发，可这些能力者，却能时时刻刻得到补充！
&&&&这一切、都是那个突然出现的神秘人！
&&&&而不知隐在何处的阿修，更是在安哲一出现的时候，就露出了滔天的杀机！
&&&&又是他！！
&&&&（补番推荐、境界线上的地平线、、唔，和智神一样的祼奔男主……）douban.com, all rights reserved 北京豆网科技有限公司博弈论的诡计-（转发）
学习博弈论的目的,不是为了赢得更好的结局,而在于享受博弈分析的过程.
博弈论就在你身边
阿普顿是普林斯大学的高材生，毕业后被安排在爱迪生身边工作，他对
依靠自学而没有文凭的爱迪生很不以为然。
一次，爱迪生要阿普顿算出梨形玻璃泡的容积，阿普顿点点头，心想：
这么简单的事一会几就行了。只见他拿来梨形玻璃泡，用尺上下量了几遍，
再按照武样在纸上画好革田，列出了一道算式，算来算去，算得满头大汗仍
没算出来。一连换了几十个公式，还是没结果，阿普顿惠得满脸通红，狼狈
爱迪生在实验室等了很久，觉得奇怪，便走到阿普顿的工作问，看到几
张白纸上密密麻麻的算式．便笑荚说：“您这样计算太浪费时间了。”
只见爱迪生将一杯水倒连玻璃泡内，交给阿普顿说：“再找个量筒来就知
道答案了。”阿普顿茅塞顿开，终于对爱迪生敬服．最后成为爱迪生事业上的
有时候。科学并不一定意味着烦琐的计算与剥量，而是一种有浓厚艺术
气息的思维方式。前者固然可以得出正确的结论，但是后者同样可以用一种
出入意表的方式曲径通幽。这种方式，与我们在生活中运用博弈科学有异曲
同工之妙。大量的教学模型吓不倒我们，因为我们可以对它们置之不理。
有一个脑筋息转弯问题是这样的：
在什么情况下零大干二，二大干五，五又大干零’
答案是：在玩“石头．剪刀．布”游戏的时候。
博弈．就是用这种游戏思维来突破看似无法改变的局面，解决现实的严
肃问题的策略。在博弈中，每个参与者都在特定条件下争取其最大利益，强
者来必胜券在握，弱者也未必永无出头之日。因为在博弈中，特别是多十参
与者的博彝中，结果不仅取决干参与者的实力与策略，而且还取决于其他参
与者的制约和策略。
事实上，博弈过程本来就不过是一种日常现象。我们在日常生活中经常
薷要先分析他人的意田从而做出合理的行为选择，而所谓博弈就是行为者在
一定环境条件和规则下，选择一定的行为或策略加以实施并取得相应结果的
博弈论用途很广。但正如上文所讲，博彝论原是数学运筹中的一个支系，
其研究运用了种种的数学工具，一般读者如何能掌握呢?
这里存在着一个矛盾。一方面，正如马克思所说：一种科学只有在成功
地运用了数学时，才算是达到了真正完善的地步；另一方面，数学似乎成了
博弈论和我们普通人的生活之间的一条难以逾越的鸿沟。
面对这条鸿沟，很多人的反应要么是耸耸肩膀走开，少数人台企图通过
学习教学柬菠过。但是这两种反应都忽略了一个很浅显的道理：一个不会编
程的人麒样可以成为电脑应用高手，没有高深的数学知识，我们同样可蹦通
过博弈论的学习成为生活中的策略高手。就像孙膑没有学过高等数学，但是
这并不影响他通过运用策略来帮助田忌赢得赛马。
博弈论首先是我们思索现实世界的一套逻辑，其次才是把这套逻辑严密
化的数学形式。博彝论的目的在于巧妙的策略，而不是解法。我们学习博弈
论的目的．不是为了享受博彝分析的过程，而在于赢得更好的结局。说到底，
博彝论毕竟只是一个分析问题的工具，用这个工具来简化问题，使问题的分
析清晰明了也就够了。
另一方面，博弈的思想既然来自现实生活，它就既可以高度抽象化地用
教学工具来表述，也可以用日常事例来说明，并运用到生活中去。本书作者
所做的一切努力，正是试图通过日常生活中常见的例子，来介绍博弈论的基
本思想及运用，并且寻求用这种智慧来指导生活决策的方法。
阅读本书，我们除了了解到令人震撼的社会真实轨迹之外．还可以学到
最合适的待人处世方法。
你还记得上次找上司要求提薪未果，自己也不知道是为什么吗?可惜．
博奔论就在你身边
那时你还没有学习一点博弈的策略知识．这些知识本来可以帮助体提工资，
而且提的幅度比体预料的还多。
体还记得上次因为迁就女友而倍感垂曲吗’如果应用博弈论的知识，保
证你能够和她相处得更为融涪。
你不知应该如何对付一个总是借钱不还的朋友吗?或者如何与生意对手
讨价还价吗?
约瑟夫·福特曹经说：上帝和整个宇宙敢于玩，但是这些骰子是被动了
手脚的。这话一点不错，我们的主要目的．是要了解它是怎样被动的手脚，
我们又应如何利用博弈论的“诡计”，最大限度地在这个被动过手脚的环境中
实现自己的目标。
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
第1章走近博弈论：一场游戏一场梦
战争是怎样发生的，l
博弈的构成要素，4
相互依存与均衡，6
负和、零和与正和／9
博弈论的局限性，l】
第2章囚徒困境：自愿坐牢的嫌疑人
克椿勃们的小花招，13
不背叛就会被淘汰，17
把对方陷入困境中，18
倒霉是因为太聪明／20
对执法者也有启示，22
第3章重复博弈：一夜情与地老天荒
没有未来必然背叛，24
如何破解迟到困局，26
带剑的契约才有效／27
用道德来保证均衡，29
假装不知道有尽头，32
博彝论的碰}舻
第4章& 一报还一报：出来混迟早要还的
以牙还牙，雌眼还眼，35
地者天荒的胜利者，39
向合作进化的棘轮，4l
在一在二不在三，43
以直报怨的人生哲学，46
输掉战役赢战争，48
第5章人质困境：多个人的囚徒困境
赫鲁晓夫在哪里，52
束手无策的人群，55
两种理性的矛盾，57
威力巨大的武器，60
是竞争也是劫持，6l
与对手联合起来，63
第6章酒吧博弈：混沌系统中的策略
酒吧里会有多少人，66
一加一未必等于二，69
混沌世界里的临界点／72
谁颠覆了社区的平衡，74
策略的多米诺骨脾，77
“少数者”的红衣服，79
让开那架独木桥，82
第7章& 枪手博弈：先发优势与后发制人
谁能最后活下来，84
同时出招的策略，88
相继出招的蓑略，90
陆逊为什么回兵，92
进攻方向的选择，94
王身事外的智慧，98
第8章猎鹿博弈：走上集体优化之路
从胡雪岩破产谈起，】0l
“看不见的手”失灵，105
从合作走向共赢／107
猎人的帕累托效率，109
猎鹿中的公平问题，112
公共资源的悲剧，113
第9章智猪博弈：多劳并不多得
小猪躺着大猪跑，】16
比比皆是的智猪，119
猪圜里的跟随策略，122
后发制人的策略，124
什么时候应谊出手，125
汽车在哪扇门后面，127
冒险襞略趟早越好，130
对管理者的启示，134
第’0章& 警察与小偷博弈：猜猜猜与换换换
从防小偷地图谈起，】37
当电话打到一半时，140
乱拳打死老师傅，142
不可预测的算计，144
纯粹的随机策略，147
槽糕策略的背后，149
博奔论的l岔舻
第11章斗鸡博弈：狭路相逢的策略
二虎相争盐有一伤，151
鹬蚌相争的困局，152
攻击的“仪式化”，155
把时手变成朋友，157
学会见好就收，158
让老板加薪的博弈，160
第12章协和谬误：欲罢不能的团局
不能承受的代价，162
认赔服输的智慧，164
不要去看碗背面／167
要考虑机会成本，】69
有勇气咬断后腿，172
生活如一袋豌豆，174
放弃愚蠢的坚持，175
强迫自己击成功，177
第13章& 蜈蚣博弈：从终点出发的思维
强盗们如何分脏，180
人生的倒后推理，184
从墓志铭想人生，186
蜈蚣博彝的悖论，189
第14章& 分蛋糕博弈：革命就是讨价还价
创造生活的艺术，193
蛋糕在不断融化／195
煮了吃还是蒸了吃，198
坚定不移的力量，200
单数与双数的优势，20i
减少你的等待成本，203
保护讨价还价能力，205
货比三家的艺术，207
外部机会的算计，208
偷梁换柱来还价，210
进二退一的囊略，212
第15章& 鹰鸽博弈：进化中的路径依赖
办公室里的高纸板，215
栅栏上的路径依赖，217
胜出的未必是好的，219
孙权敖与超速均衡，223
香蕉可以从两头吃／225
成名发财都要趁早／228
第16章& 脏脸博弈：共同知识的车轱辘
他们为什么会脸红，230
别人的信封更谤人，232
1天与100天的博弃，236
共同知识的作用，238
第17章& 信息不对称：买的不如卖的精
劣币驱遥良币效应，240
只许佳人独自知，243
不确定性带来风险，245
信息决定博弈结果，247
信息披露的策略，249
应谊传递什么信号／250
清官为什么被淘汰，253
博奔论的瘫}舻
第18章信息传递：好酒也怕巷子深
无法发起的总攻，256
信息传递的模型／257
标王背后的博弃／260
信息传递有成本，263
第19章信息甄别：分离均衡的筛于
粮中的分离均衡，265
票价为何如此低，268
所罗门王的智慧，271
老虎的信息甄别，273
第20章策略欺骗：假作真时真亦假
善用自己的弱点／276
被人耍弄的杨修，278
j1拿别人当笨蛋，28l
不要暴露了自己，283
茕略欺骗的步骤，285
第21章& 承诺与威胁：胡萝I、加大棒的艺术
不战而胜的策略，288
威胁与许诺要适度，291
无条件的回应规则，293
保护好自己的武器，296
西点军校的规矩，298
蓑略意义的可信度，300
陆象先的边缘政策，：301
小步慢行的策略，303
走近博弈论：一场游戏一场梦
何不游戏人间
专它盘麓事，拳A
何不游戏人间
看尽思思想怨
喔…何不游戏人间
管它风风波波多少年
——《游戏人闻》歌词
战争是怎样发生的
8岁的男孩问父亲：“爸爸，战争是怎样发生的7”男孩的父亲回答：“很
简单。比如说第一次世界大战的爆发，是因为德国入侵比利时-…-”在一旁
的妻子立即打断他的话：“你讲得不对。第一次世界大战的起因是有人在萨拉
热窝被刺杀了。”丈夫听了一脸不悦．冲妻子不耐烦地说道：“是你回答这个
问题，还是我回答，”妻子听了也是满脸的不高兴，她转身跑出起居室．砰
的一声将门关上。紧接着，从厨房传来碗碟猛摔在地上的声音，过了一会儿，
整个屋子陷入死一般的沉寂。男弦眼眶里含着泪水．轻声说：“爸爸，你不用
说了，我知道战争是怎样发生的了。”
夫妻二人以一种两败俱伤的方式，使自己的孩子明白了战争的发生和夫
妻两个人吵架之间的内在关联：让国家之间一步步走向世界大战的机制，同
样也正是同一屋檐下夫妻失和的原因。
也就是说，无论国与国之间，还是人与人之间的合作和冲突，其中所蕴
含的博弈原理是大同小异的。诺贝尔经济学奖得主奥曼在权威的《帕尔格雷
夫大辞典》中，对“博弈论”词条的解释十分精辟和凝练。他认为，博弈论
描述性的名称应是“互动的决策论”。因为人们之间的决策与行为会形成互为
影响的关系，一个主体在决策时必须考虑到对方的反应。
对具有博奔性质的决策问题的研究可以追溯到18世纪甚至更早。20世纪
20年代，法国数学家布莱尔用最佳策略法研究弈棋和其他具体的决策问题，
并从数学角度做了尝试性的分析。
1944年约翰·纽曼和摩根斯坦合著的《博弈论与经济行为》一书出版，
这标志着现代博弈理论的初步形成。纽曼和摩根斯坦认为。博弈论是运用数
学方法研究有利益冲突的双方在竞争性活动中制定最优化的胜利策略的理
论，博弈策略即根据游戏规则制定的处理竞争、冲突或危机的最佳方案。
第二次世界大战期间，博弈论的思想方法、研究手段被运用到军事领域，
显示了它的重要作用。
20世纪70年代以来，博奔论在经济学中得到了广泛的运用，成为经济学
思想史上与“边际分析”和“凯恩斯革命”并列的重大“革命”，为人类带来
了一种全新的方法论和思维。
1994年，美国著名的数学天才约翰·纳什(JotIn Nash)．由于在非合作
博奔的均衡分析理论方面做出了开创性贡献，对博弈论和经济学产生重大影
响，获得当年诺贝尔经济学奖。
除了经济学领域．博弈论在国际关系研究中也得到了广泛的应用。20世
纪50年代以后，学界在运筹学的博弈概念基础上综合运用心理学、统计学、
社会学和策略学等原理，逐步形成国际关系学的博弈论。这既是研究国际冲
突的繁略理论，也是处理国际关系的实际手段，能够为行为者在面临危机和
冲突时设计出各种合理选择和理性决策。
时下，对博弈论的研究是如此的广泛，以至于有些人说．最新的经济学
和国际关系理论，都已经被博奔论重写了。
博弈的构成要素
博弈的目的是利益，利益形成博弈的基础。经济学的最基本的假设就是
经济人或理性人的目的就在于使收益最大化。参与博弈者正是为了自身收益
的最大化而互相竞争。也就是说，参与博弈的备方形成相互竞争、相互对抗
的关系，以争得利益的多少来决定胜负，一定的外部条件又决定了竞争和对
抗的具体形式，这就形成了博弈。
从经济学角度来看，如果有一种资源为人们所筲要，而这种资源又具有稀
缺性或者说总量是有限豹，就会发生竞争；竞争需要有一个具体形式把大家拉
在一起，一旦找到了这种形式，竞争各方之间就会开始一场博弈。
我们通过下面这个例子，来深人浅出地解释一场博奔的各个要素。
夫妻俩下班回到家，吃罂晚饭看电视。电视预报显示．一个频道会播放
丈夫喜爱的足球赛，而另一个频道会播放妻子喜爱的音乐节目。但是家里只
有一台电视机。这样．围绕着到底看什么节目，一场博弈就展开了。
在这场博弈中，完整地包含着形成一个博弈的以下4个要索。
(1)2个或2个以上的参与者(player)。在博弈中存在一个必需的条件，
即不是一个人在一个毫无干扰的环境中做决策。比如，在上面的案例中，如
果只有丈夫或者妻子一个人在家，就不存在博奔。从经济学的角度来看，如
果是一个人做决策而不受到他人干扰的话．那就是一个传统的最优化问题，
也就是在一个既定的局面或情况下如何决策的问题。
博弈者的身边充斥着其他具有主观能动性的决策者，他们的选择与其他
博奔者的选择相互作用、相互影响。这种互动关系自然会对博弈各方的思维
和行动产生重要的影响，有时甚至直接影响博弈结果。
(2)博弈要有参与各方争夺的资源或收益(mouTce咖ayo刖。资源指的
不仅仅是自然资源，如矿山、石油、土地、水资源等，还包括了各种社会资
源，如人脉、信誉、学历、职位等。人们之所以参与博奔是受到利益的吸引，
预期将来所获得利益的大小直接影响到博弈的吸引力和参与者的关注程度。
经济学的效用理论可以用来解释这个问题．凡是自己主观需要的就是资源；
走近博弈论：一场游戏一场梦
相反，主观不需要的对自己就不能构成资源。
这就是“情人眼里出西施”的道理。再比如人们经常说的“孩子是自己
的好．老婆是别人好”，也是这个道理。自己的孩子在自己眼里可以抵过世间
万物，但是对别人来说就不是这么珍重；而老婆呢，即使是众人公认的绝代
佳人，日子一长也会产生审美疲劳，其价值对自己来说便不断下降，这正是
效用递减规律的作用。
在上面的案例中，资源或收益并不是电视机的所有权，而是在菜一时段
的使用权。事实上在那些对于足球和音乐都没有偏好的人们眼里，哪一个节
目都不会成为其资薅。
(3)参与者有自己能够选择的策略(strategy)。所谓策略，就是《孙子
兵法》中所说“计利以昕，乃为之势，以佐其外”，指的是直接、实用地针对
某一个具体问题所采取的应对方式。通俗地说，策路就是计策．是博弈参与
者所选择的手段方法。博弈论中的策略，是先对局势和整体状况进行分析，
确定局势特征，找出其中关键因素，为达到最重要的目标进行手段选择。
由此可见，博弈论中的策略是牵一发而动全身的，直接对整个局势造成重大
(4)参与者拥有一定量的信息(infort"natron)。博弈就是个人或组织在一
定的环境条件与既定的规则下，同时或先后，一次或是多次选择策略并实施，
从而得到某种结果的过程。
简单说来，博弈论就是研究人们如何进行决策、以及这种决策如何达到
均衡的科学。每个博弈者在决定采取何种行动时．不但要根据自身的利益和
目的行事，还必须考虑到他的决策行为可能对其他人造成的影响．以及其他
人的反应行为可能带来的后果，通过选择最佳行动计划，来寻求收益或效用
的最大化。
本节所选的“夫妻博弈”模型大致会出现三种情况：一是两人争执不下．
于是干脆关掉电视，谁都别看；二是你看足球。我到其他地方听音乐。或你
听音乐，我到其他地方看足球；三是其中一方说服另一方，两人同看足球或
同听音乐。
夫妻二人通常不会因为电视节目的分歧而分开活动的。这是研究该问题
的潜在前提但是．对于看什么节目．双方叉各有偏好，因此我们可以假定：
如果丈夫和妻子分开活动．男女双方的效用为0；如果双方一起去看球赛．则
丈夫的般用为5．而妻子的效用为l：如果双方一起听音乐．则丈夫的效用为
l，妻子的效j}{为5：
根据上述假定．夫妻双方不同选择的所有结果及其效用组合如表l一1所示c
夫妻博弈效用矩阵
就是这样一个矩阵，可以一目了然地把我们介绍的几种因素包含在里面
矩阵是博弈论中用来描述两个或多个参与人的策略和效用的最常用工具-又
被称为“收益矩阵”或“得益矩阵”。
相互依存与均衡
汉代刘向的《新序》中有这样一个故事j春秋末期．晋国的执政者赵襄
子喝酒．五日五夜没有停杯，仍然没有醉倒赵襄子十分自豪地对侍候在身
边的人说：“我真是国中最出色的人呀!喝酒五天仍不觉难受一国内应该没有
人能够比得上我了”弄臣优莫恭恭敬敬地回答说：“你还可以接着喝!纣王
一连喝了七日七夜．现在您才是五日五夜”赵襄子听了以后．有些紧张地放
下酒杯问道：“如此说来．我要灭亡了吗9”优莫答道：”还不至于灭亡”赵
襄子问：··我跟纣王只差两天了，不灭亡还等什么?”优莫回答道：“夏桀和
商纣的灭1l=．是因为分别遇上了对手商汤和周武王．现在天下各国的君主全
是夏桀一类的人物，而您和商纣王类似、夏桀和商纣同时存在一个时代t彼
此都没有被消灭的危险、不过，长此以往．事情就难说了!”
其实不仅是昏君与明主之间．所有博弈参与者的策略都有相互依存的关
系、每一个博弈者从博弈中所得结果的好坏不仅取决于自身的策略选择．同
走近搏弈论：一场游戏一场梦
时也取决于其他参加者的策略选择。有时甚至一个坏的策略也会带来并不坏
的结果，原因是对方选择了更坏的利他而不利己的莆略。
日．年度“超级女声”大赛在掌声和欢呼声中谢幕，尚雯
捷凭借5 196975的票数登上冠军宝座。有人发出疑问：与2004年的冠军安又
琪相比，她没有出众的外表；与2005年的冠军李宇春相比．她没有倾倒观众
的舞台魅力；与2006年亚军谭维维相比，她没有“无可挑剔”的唱功。那她
凭什么夺冠呢’
实际上．这个疑问本身就反映了疑问者对于博弈论的不了解。这个冠军
本来就不是尚雯婕一个人得到的，而是在主办方湖南电视台和天娱传媒、参
赛的女生们、电视观众、媒体、各女生的“粉丝”(fans)等方方面面共同博
弈的结果。
每一次超级女声的比赛．电视上几个女生在台上比赛唱歌跳舞。而实际
上真正的博弈在屏幕之外。以主办方来说，就不断根据观众的反应而修改策
略，从开始的评委打分到专业评委、大众评审团、短信共同决定．再到最后
完全靠短信决胜负，这种修改可以看做对形势发展的妥协，也可以解释为追
求商业利益最大化的对策。有人认为整个过程中还出现了非合作博弈与合作
博奔的可能：某些得分较低的女生的“粉丝”．联手对付得分高的选手；得分
最高的选手联合肯定无望出线的选手以巩固地位．防止次高选手反超。
这就是一种相互依存的博弈，而相互依存的策略就构成一种均衡。
均衡可以说是博弈论中最重要的思想之一，但是却并不复杂。我们可以
用描述法来加以定义：在博弈达到均衡时．局中的每一个博弈者都不可能因
为单方面改变自己的策略而增加收益，于是各方为了自己利益的最大化而选
择了某种晟优策略．并与其他对手达成了某种暂时的平衡。在外界环境没有
变化的情况下，倘若有关各方坚持原有的利益最大化原则并理性面对现实．
那么这种平衡状况就能够长期保持稳定。
在所有的均衡中，纳什均衡又是一个基础性的概念。简单地说．所谓纳
什均衡就是所有人的选择综合在一块，不一定所有选择都能实现最大化原则，
但能使所有人都达到最大化的均衡状态。诺贝尔经济学奖获得者萨缨尔森有
一句调侃的话：你可以将一只鹦鹉训练成经济学家，因为它所需要学习的只
丫√&&& 博彝论的
有两个词——供给与需求。博弈论专家坎多瑞引申说：要成为现代经济学家，
这只鹦鹉必须再多学一个词．这个词就是“纳什均衡”。
在现实生括中，有相当多的博弈，我们无法使用严格优势策略均衡或重
复剔除的优势策略均衡的方法找出均衡解。比如在房地产开发中．假定市场
需求有限，只能满足某种规模的开发量．A、B两个开发商都想开发这一规模
的房地产，而且，每个房地产商必须一次性开发这一规模的房地产才能获利。
在这种情况下，无论是对开发商A还是对开发商B，都不存在一种策略优于另
一种策略，也不存在严格劣策略(所谓严格劣策略是指在博弈中．不论其他
人采取什么策略，某一参与人可能采取的策略中对自己严格不利的策略)。如
果A选择开发，则B的最优策略是不开发；如果A选择不开发，则B的最优
策略是开发。反之亦然。研究这类博弈的均衡解，需要引入纳什均衡。
在纳什均衡中，每个博弈参与人都确信，在给定其他参与人的策略的情
况下，己方选择了最优策略以回应对手的策略。纳什均衡是完全信息静态博
弈解的一般概念．构成纳什均衡的策略一定是重复剔除严格劣策略过程中不
能被剔除的策略。
纳什均衡是著名博弈论专家纳什对博奔论的重要贡献之一。纳什在1951
年的两篇重要论文中，从一般意义上给定了非合作博弈及其均衡解。并证明
了解的存在性。正是纳什的这一贡献奠定了非合作博弈论的理论基础，他所
定义的均衡也被称之为“纳什均衡”。
纳什均衡是一种最常见的均衡。在纳什均衡点上，每个参与者的策略是
最好的．此时没有人愿意先改变或主动改变自己的策略。也就是说，此时如
果他改变策略，他的收益将会降低，每一个理性的参与者都不会有单独改变
策略的冲动。
与重复剔除的占优策略均衡一样，纳什均衡不仅要求所有的博弈参与人
都是理性的，而且要求每个参与人都了解所有其他参与人也都是理性的。
在占优策略均衡中，不论所有其他参与人选择什么策略，一个参与人的
占优策略都是他的最优策略。显然．这一策略一定是所有其他参与人选择某
一特定策略时该参与人的占优策略。因此，占优策略均衡一定是纳什均衡。
在重复剔除的占优策略均衡中。最后剩下的唯一策略组合，一定是在重复剔
走近博弈论：一场游戏一场梦
除严格劣策略过程中无法被剔除的策略组合。因此，重复剔除的占优策略均
衡也一定是纳什均衡。
需要注意的是，博弈的结果并不都能成为均衡。博弈的均衡是稳定的，
因此可以预测。
负和、零和与正和
在拉封丹寓言中有这样一则，讲的是狐狸与狼之间的博弈。
一天晚上．狐狸踱步来到了水井旁，低头俯身看到井底水面上月亮的影
子，它认为那是一块大奶酪。这只饿得发昏的狐狸跨进一只吊桶下到了井底．
把与之相连的另一只吊桶升到了井面。下得井来，它才明白这“奶酪”是吃
不得的，自己已铸成大错，处境十分不利，长期下去就只有等死了。如果没
有另一个饥饿的替死鬼来打这月亮的主意，以同样的方式。落得同样悲惨的
下场．而把它从服下窘迫的境地换出来，它怎能指望再活着回到地面上去呢?
两天两夜过去了．没有一只动物光顾水井．时间一分一秒地不断流逝，
银色的上弦月出现了。沮丧的狐狸正无计可施时，刚好一只口渴的狼途经此
地，狐狸不禁喜上眉梢，它对狼打招呼道：“喂，伙计，我免费招待你一顿美
餐你看怎么样'”看到狼被吸引住了，狐狸于是指着井底的月亮对狼说：“你
看到这个了吗7这可是块十分好吃的干酪，这是家畜森林之神福纳用奶牛伊
蛾的奶做出来的。假如神王朱庇特病了，只要尝到这美味可口的食物都会胃
口顿开。我已吃掉了这奶酪的那一半，剩下这一半也够你吃一顿的了。就请
委屈你钻到我特意为你准备好的桶里下到井里来吧。”狐狸尽量把故事编得天
衣无缝，这只狼果然中了它的奸计。狼下到井里，它的重量使狐狸升到了井
口，这只被困两天的狐狸终于得救了。
这个故事中狐狸和狼所进行的博弈，我们称为零和博弈。零和博弈是一
种完全对抗、强烈竞争的对局。在零和博弈的结局中．参与者的收益总和是
零(或某个常数)，一个参与者的所得恰是另一参与者的所失。狐狸和狼一只
在上面，一只在下面，下面的这一只想上去，就得想办法让上面的一只下来。
但是通过博弈调换位置以后，仍然是一只在上面．一只在下面。
矗南．M譬邕‘喾譬
著名经济学家茅于轼曾经说：“在市场经济以前，人类自利是妨碍别人的，
是损人利己的。”他举了个例子说，过去的帝王与将相就是这样一种博奔，他
可以剥削你，抄你的家；休可以造他的反，夺他的天下。一方得利．一方受
损，那是零和博弈。事实上也正是因为这种零和博弈反复上演，才使中国历
史的每…页都充满r阴谋与血腥，并且使“无毒不狠非丈夫”的文化观念深
入到每一个中国人的意识中。
然而到了今天，除了权力斗争和军事冲突之外，现实生活中一般很少出
现类似寓言中的狐狸与狼这种“有你没我”的局面。因为在市场经济下，你
要想得到好处，就要跟别人合作，这样才可以得到双赢的结果，不但你得到
好处，你的对手也得到好处。所以市场经济安排最奥妙的地方，就在于它是
双方同意的，任何一个买卖都要经过双方同意，买方也赚钱．卖方也赚钱，
财富就创造出来了：这就是与零和博弈相对应的非零和博弈。
所谓非零和博弈，是既有对抗又有合作的博弈．各参与者的目标不完全
对立，对局表现为各种各样的情况。自时候参与者只按本身的利害关系单方
面做出决策．有时为了共同利益而合作。其结局收益总和是可变的，参与者
可以同时有所得或有所失。
比如在拉封丹的寓言中，如果狐狸看到狼在井口，心想我在井里受罪，
你也别想舒服，他不是欺骗狼坐在桶里下来．而是让狼跳下来，那么最终结
局将是狼和狐狸都身陷井中不能自拔。这种两败俱伤的非零和博弈．我们称
之为负和博弈。
反之，如果狼明白狐狸掉到了井里．动了憾隐之心，搬来一块石头放到
上面的桶中，完全可以利用石头的重量把狐狸拉上来。或者，如果狐狸担心
狼没有这种乐于助人的精神，通过欺骗到达井口以后．再用石头把狼再拉上
来。这两种方式的结局是两个参与者都到了井上面．那么双方进行的就是一
种正和博弈。
实际上，这种正和游戏的思维不仅是一种经济上的智慧，而且可以运用
到生活中的方方面面．用来解决很多看似无法调和的矛盾和你死我活的僵局。
那些看似零和或者是负和的问题，如果转换一下视角，从更广阔的角度来看，
也不是没有解决办法，而且往往也并不一定要牺牲某一方的利益。
走近博弈论：一场游戏一场梦
一个冬天的上午，几位读者正在一个社区的图书室看书。这时，一位读
者站起来说：“这屋子里空气实在是太闷了，最好打开窗户透透气。”说着，
他就走到窗户旁边，准备推开窗户。但是他的举动遭到了正好坐在窗户旁边
的一位读者的反对。那位读者说：“大冬天的，外面的风太冲了．一开窗户准
冻感冒了。”于是，一位坚持要开，一位坚决不让开，两个人发生了争执。图
书室的管理员闻声走了过来，问明原因，笑着劝这两位脸红脖子粗的读者各
自坐下，然后快步走刊走廊。把走廊里的窗户打开了一扇。一个看似无法通
融解决的矛盾迎刃而解。
如果我们每个人都通过博弈智慧的学习和运用．在生活中实现更多的正
和博弈，这个世界也就多了很多和谐，少了很多不必要的争斗。
博弈论的局限性
有两父子正在赶路，突然从一户人家跑出来一条大黑狗，冲着他们“汪
汪”狂吠。儿子吓了一大跳，急忙躲到了父亲的身后。父亲告诉他说：“你放
心．它不会咬你的。难道你没有听说过‘吠犬不咬人’那句话吗?”儿子听
了这番话，仍然紧紧地抓住父亲的衣角，用颤抖的声音说：“我倒是听说过这
句话，但是我不能肯定这条狗有没有听说过。”
这番对话之所以可笑，是因为儿子“以己度狗”，把“吠犬不咬人”当做
人狗双方据以确定策略的依据。这种推论自然是错误的。
但是在这个笑话的背后．我们却可以发现儿子的话中包含着对著名的哥
德尔不完备定理的认识：任何一个理论体系必定是不完全的，任何理论都包
含了既不能证明为真也不能证明为假的命题。对这个世界的最好描述可能
只有其本身，但是正如罗宾逊夫人的妙语所说：“比例尺是一比一的地图是没
博弈论也是如此．比如博奔论的基本假设之一就是：人是理性的。所谓
理性的人是指行动者具有推理能力，在具体策略选择时的目的是使自己的利
益最大化。而现实生活中，人们在做决策时往往是有限理性的。
因为人类的精力和时间永远是有限的，人不可能具备完全理性，不可能
掌握所有知识和信息。人不可能搜寻到所需的全部信息．另一方面信息的搜
寻也是需要成本的，必须为此付出大最的时间、精力和财力等。意图搜寻到
所有信息，企图做出收益最优的决策行为。有时反而是最不理性的举动。
尽管如此，人们仍然可以用博弈论与信息经济学的思想方法来分析解决
实际问题。诺坦尔经济学奖获得者保罗t萨缪尔逊说：“要想在现代社会做一
个有文化的人，你必须对博弈论有一个大致了解。”然而，目前国内对于博弈
论的介绍，要么是堆砌庞杂的数学算法与令人炫目的数学模型，使之变成束
之高阁、不能亲近的高深学问；要么是企图“以其昏昏，使人昭昭”，使用混
乱模糊的理解把博弈论随意滥用在任何可能的领域与分析中。
事实上，要求博弈论能够完全刻画真实的世界．注定是徒劳无功的。正
如诺贝尔经济学奖得主菜因哈德·泽尔滕教授所说：“博弈论并不是疗法，也
不是处方，它不能帮我们在赌博中获胜．不能帮我们通过投机来致富，也不
能帮我们在下棋或打牌中赢对手。它不告诉你该付多少钱买东西，这是计算
机或者字典的任务。”
尽管如此．人类至今还没有找到一种比博弈论更好的思考工具，可以对
现实的客观世界进行如此近似的描述。就像并不完美的力学是自然科学的哲
学和数学一样，博弈论是社会科学的力学和数学。没有牛顿力学我们连最简
单的物理现象都无法理解：同样的道理．没有博弈论我仍也无法解释分析很
多现实的社会现象。
为了协调缺陷与现实之间的矛盾，也许我们要听一下博弈论大师鲁宾斯
坦的教导：“一个博弈模型是我们关于现实的观念的近似，而不是现实的客观
描述的近似。”
囚徒困境：自愿坐牢的嫌疑人
看着你离去后空荡的房间
我的泪水又有谁看见
不是我不懂温柔和留恋
是谁让你如此的背叛
——《无情的背叛》歌词
克格勃们的小花招
在斯大林时代的苏联，有一位乐队指挥坐火车前往下一个演出地点。正
当他在车上翻看当晚就要指挥演奏的作品乐谱时。两名克格勃(KGB，苏联
国家安全警察。实际是政治特务)将他作为间谍逮捕了。他们以为那乐谱是
某种密码，这位乐队指挥争辩说那只是柴可夫斯基的小提琴协奏曲，却无济
于事。在乐队指挥被投入牢房的第二天，审问者自鸣得意地走进来说：“我看
你最好还是老实招了吧，我们已经抓住你的朋友柴可夫斯基了．他这会儿正
向我们交代呢。你如果再不招就枪毙了你。如果交代了，只判你10年。”
笑过之后，每个人都会思考其中所蕴涵的东西。但是如果认为这个笑话
仅仅讽刺了克格勃特务的无知与无耻，那是不够的。事实上，克格勃们的花
招，是想运用博弈论中囚徒困境理论，达到自己的目的。虽然他们未必知道
博弈论，但是他们明显企图运用其中的布局，使乐队指挥被迫选择招供。
i950年，担任斯坦福大学客座教授的数学家图克(Tucker)，给一些心理
学家解释他正在研究的完全信息静态博弈问题，为r更形象地说明博弈过程．
他用两个犯罪嫌疑人的故事构造了一个博弈模型．即囚徒嗣境模型-
这一模型的过程具体是这样的：两个共同偷窃的犯罪嫌疑人甲和乙被带
进警察局警方对两名犯罪嫌疑人实行隔离关押．隔离审讯，每个犯罪嫌疑
人都无法观察到『司伴的选择
警方怀疑他们作案，但手中并没有掌握确凿证据，于是明确地分别告知
两名犯罪嫌疑人：对他们犯罪事实的认定及相应的量刑完全取决于他们自己
的供认如果其中一方与警方合作，供认偷窃之事．而对方抵赖．供认打将
不受惩罚，无罪释放．另一方则会被判重刑10年；如果双方都与警方合作共
同供认，各被判刑5年；而如果双方均不认罪．因为警察找不到其他证据．
则无罪释放
两名囚徒面临的选择及其带来的后果组合可以用表2·I来表示-
囚徒困境博弈憧盐矩阵
哪一种选择对犯罪嫌疑人更有利呢?
从上表中可以知道：每个犯罪嫌疑人都有两种可供选择的策略：供认或
不供认而且，每个犯罪嫌疑人选择的最优策略不依赖于其同伙的策略选择。
如果甲选择抵赖．那么就可能会出现两种情况：如果乙选择供认．那么
甲将被加重惩罚．判刑10年．而乙则无罪释放：如果乙也同样选择抵赖，那
么他们两个都将因证据不足而被释放。很显然．这第二种结果对于两个人都
是最有利的但是．因为警方没有把两名嫌疑人放在一间囚室里．因而这种
合作难以顺利进行．使得结果预测的不确定性加大．或者说增加了抵赖合作
因此．基于人是理性的这一前提．由于犯罪嫌疑人不知道对方的想法．
最理性的博弈策略．就是选择供认。这时的策略．我们可以称为占优策略
囚徒困境：自愿坐牢的嫌疑人
而如果所有参与人都有占优策略存在，那么博弈将在所有参与人的占优策略
的基础上达到均衡．这种均衡称为占优策略均衡。
在囚徒困境中“甲供认，乙供认”的占优策略均衡中，不论所有其他参
与人选择什么繁略，一个参与人的优势策略都是他的最优策略。不管甲乙两
人谁供认．都将得到减轻惩罚的结果：如果甲供认了，乙抵赖，甲将免于惩
罚．如果乙也供认了，那么罪名各担一半，从甲个人看来。也减轻了惩罚；
甲乙互换位置，结果依然是一样。显然，这一策略一定是所有其他参与人选
择某一特定策略时该参与人的占优策略。
与占优策略相对应，劣势策略则是指在博弈中，不论其他参与人采取什
么策略．某一参与人可能采取的策略中，对自己严格不利的策略。劣势策略
是我们在日常生活中不应该选择的行动。
有一个要注意的问题是，采用优势策略得到的最坏结果，并不一定比采
用另外一个策略得到的最佳结果要好．这是很多博弈论普及书中容易出错的
一个问题。应该说，参与人采用优势策略时．无论对方采取任何策略总能够
显示出优势。
由于囚徒困境的模型是如此有趣和简洁．不仅给人们留下了深刻的印象，
而且迅速不胫而走．成为一个被人们广为谈论和研究的博弈模型。在我们开
头的那个笑话中，克格勃们的思路是这样的——乐队指挥知道我们抓住了“柴
科夫斯基”，就必然会考虑：这个“柴科夫斯基”如果交代，我有两种选择——
不交代教枪毙，交代则被判10年。那么此时，我的最好选择是交代。当然，
如果对方不交代，我的最好选择也是交代。
如果不是这些克格勃因为过于无知．不知道柴科夫斯基是19世纪俄罗斯
最伟大的作曲家．并且早在1893年就去世的话．这个设计本来是天衣无缝的。
从这个角度说下下人有上上之智，也并不为过。
在囚徒困境的模型中．有一个背景需要向国内的朋友介绍，那就是辩诉
交易。曾经有国内学者在批评囚徒困境时指出：“是否招供并非定罪的充分、
必要条件，定罪的充要条件是证据，有了证据不招供亦可定罪，没有证据
即使招供(证言)，也不能定罪。”这种说法其实恰恰反映了对辩诉交易缺乏
囚徒困境：自愿坐牢的嫌疑人
而如果所有参与人都有占优策略存在，那么博弈将在所有参与人的占优策略
的基础上达到均衡．这种均衡称为占优策略均衡。
在囚徒困境中“甲供认，乙供认”的占优策略均衡中，不论所有其他参
与人选择什么繁略，一个参与人的优势策略都是他的最优策略。不管甲乙两
人谁供认．都将得到减轻惩罚的结果：如果甲供认了，乙抵赖，甲将免于惩
罚．如果乙也供认了，那么罪名各担一半，从甲个人看来。也减轻了惩罚；
甲乙互换位置，结果依然是一样。显然，这一策略一定是所有其他参与人选
择某一特定策略时该参与人的占优策略。
与占优策略相对应，劣势策略则是指在博弈中，不论其他参与人采取什
么策略．某一参与人可能采取的策略中，对自己严格不利的策略。劣势策略
是我们在日常生活中不应该选择的行动。
有一个要注意的问题是，采用优势策略得到的最坏结果，并不一定比采
用另外一个策略得到的最佳结果要好．这是很多博弈论普及书中容易出错的
一个问题。应该说，参与人采用优势策略时．无论对方采取任何策略总能够
显示出优势。
由于囚徒困境的模型是如此有趣和简洁．不仅给人们留下了深刻的印象，
而且迅速不胫而走．成为一个被人们广为谈论和研究的博弈模型。在我们开
头的那个笑话中，克格勃们的思路是这样的——乐队指挥知道我们抓住了“柴
科夫斯基”，就必然会考虑：这个“柴科夫斯基”如果交代，我有两种选择——
不交代教枪毙，交代则被判10年。那么此时，我的最好选择是交代。当然，
如果对方不交代，我的最好选择也是交代。
如果不是这些克格勃因为过于无知．不知道柴科夫斯基是19世纪俄罗斯
最伟大的作曲家．并且早在1893年就去世的话．这个设计本来是天衣无缝的。
从这个角度说下下人有上上之智，也并不为过。
在囚徒困境的模型中．有一个背景需要向国内的朋友介绍，那就是辩诉
交易。曾经有国内学者在批评囚徒困境时指出：“是否招供并非定罪的充分、
必要条件，定罪的充要条件是证据，有了证据不招供亦可定罪，没有证据
即使招供(证言)，也不能定罪。”这种说法其实恰恰反映了对辩诉交易缺乏
囚徒困境：自愿坐牢的嫌疑人
所谓辩诉交易，又称辩诉协商或者辩诉协议，是指检察官和辩护律师在
法院开庭审判之前，对被告人的定罪和量刑问题进行协商和讨价还价，检察
官通过降低指控或者向法官提出减轻量刑的建议．来换取被告人做有罪答辩
的一种活动。1970年，美国联邦最高法院在“布雷迪诉黄利坚合众国政府”
一案的判决中，正式确定了辩诉交易的合法地位。此后，辩诉交易在美国、
英国等西方国家广泛发展起来．并成为诉讼中解决刑事案件的一种主要方式。
在囚徒困境的案例中．均衡点是建立在两个囚徒非合作的基础上的，并
且两者的非合作还可以获得一定的利益(从宽惩罚)，如果没有辩诉交易提供
的从宽处罚这一利益条件，那么这个严格优势策略也就不复存在。
不背叛就会被淘汰
在明代宋濂的《宋文宪公全集》中，记载了这样一个故事。
玉娥生和三乌丛臣是朋友。玉藏生说：“我辈应该自我激励。他日人朝为
官，对于趋炎附势之事绝不涉足。”三乌丛臣说：“这是我痛恨得咬牙切齿的
行为，我们干吗不对神起个誓?”玉蕺生很高兴，二人就歃血盟誓道：“二人
同心，不徇私利，不为权位所诱，不趋附奸邪献媚的人而改变自己的行为准
则。如有违背此盟誓，请神明惩罚他。”
没多久，他们一起到晋国为官。当时赵宜子在晋王跟前很得宠，各大夫每
天奔走于他家。玉髋生重申以前的誓言。三乌丛臣说：“说过的话犹在耳畔，怎
么敢忘记啊!”但三乌丛臣反悔当初的誓言，叉怕玉就生知道他反悔。于是在一
个大清早，鸡刚一报晓，他就前去拜望赵宣子。进得门来，他忽然看到正屋前
东边的走廊有个人坐在那里。他走上前去举起灯来照，那个人原来是玉就生。
人们对某种权力表现得忠诚服从．实际上并非兴趣使然．而是人们服从
一种被选择的纳什均衡。因为在人们的预期中，往往先假定别人绝对会服从，
这样为了自己的利益最大化．也只能选择服从。
在面临有权势的上司时，面临的选择有以下几个：选择A——不巴结．落
选；选择B——巴结，落选；选择c——巴结，升官。在这些选择里面，如果
选择巴结上司会有升官的机会，而其他人也面对同样的局面。假定两个人竞
争一个官职，对于玉娥生来说，只要他选择了巴结，而如果三乌丛臣选择不
巴结，职位自然属于玉靛生；即使三乌丛臣也选择巴结，就需要一个附加的
条件——他巴结得比玉兢生更到位，这样才能得到仅有的一个位置。
所以，在这一博弈过程中，无论三乌丛臣做出什么选择。玉靓生只要自
己拼命巴结，就会有机会升官．这是遵循我们上面所说的原则的。权力的影
响力以及领导的尊严便是这样形成的，人事腐败也是这样产生的。
在这个过程中．利害计算在每一个参与者那里都是超越一切价值与信念
的。我们仅就上面故事中两个人的关系来看，可以看出故事中包含的“囚徒
定律”基本精神——背叛。无论对方做出什么样的策略选择，背叛对方(同时
也是背叛自己曾经发过的誓言)，都能够让自己获得收益，那么必然要选择背
叛这一道路。
这个故事中，玉藏生和三乌丛臣的思维方式，像极了约瑟夫·海勒的小说
《第22条军规》中的尤塞瑞安。小说中的背景是：第二次世界大战胜利在望．
可是为了给自己捞取功劳，一个飞行大队的指挥官没完没了地提高下属的任务定
额．弄得人心惶惶。投弹手尤塞瑞安不想成为胜利前夕最后一批牺牲者．千方百
计逃避执行任务。指挥官质问他：“可是，假如所有士兵都这么想呢，”尤塞瑞
安答道：“那我若是不这么想，岂不就成了一个大傻瓜々”
在这种思维里面，实际上揭示了一个形成囚徒困境的机制——担心自己成
为傻瓜。而了解这种机制，恰恰可以提供减少自己在“囚徒困境”中损失的
策略——处于囚徒困境的时候，没有什么十全十美的好办法能让自己从困境中
逃脱．同时又能获得利益，只能尽量做到自己不受侵害．正是所谓“两害相
权取其轻”。
把对方陷入困境中
博弈模型是生活的浓缩和简化，比如在囚徒困境模型里。两个囚犯都十
分清醒地意识到自己所处的环境，以及每一种策略可能得到的结果，因此其
策略选择是可以预知的。而在现实生活中，这种完全信息的理想模式是无法
实现的，因为存在大量的干扰因素。
囚徒困境：自愿坐牢的嫌疑人
但也正是这些干扰因紊的存在，我们就可以通过巧妙的布局设计，人为
创造出一种囚徒困境的环境．迫使对方做出对自己有利的行动。
《战国策》记载了这样一个故事．可以作为这种策略的最佳注解。
春秋时楚国杰出的军事家伍子胥．性格十分刚强。青少年时即好文习武．
勇而多谋。伍子胥祖父伍举、父亲伍奢和兄长伍尚俱是楚国忠臣。周景王二
十三年(前522年)．楚平王怀疑太子“外交诸侯．将人为乱”．遂迁怒于太
子太傅伍奢，将伍奢和伍尚骗到郢都杀害，伍子胥只身逃往吴国。
在逃亡中，伍子胥在边境上被守关的斥候抓住了。斥候对他说：“你是逃
犯．必须将你抓去面见楚王!”伍子胥说：“楚王确实正在抓我。但是你知道
楚王为什么要抓我吗?是因为有人跟楚王说．我有一颗宝珠。楚王一心想得
到我的宝珠，可我的宝珠已经丢失了。楚王不相信，以为我在欺骗他。我没
有办法了．只好逃跑。现在你抓住了我，还要把我交给楚王。那我将在楚王
面前说是你夺去了我的宝珠，并吞到肚子里去了。楚王为了得到宝球就一定
会先把你杀掉．并且还会剖开你的肚子，把你的肠子一寸一寸地剪断来寻找
宝珠。这样我活不成，而你会死得更惨。”斥候信以为真．非常恐惧，赶紧把
伍子胥放了：伍子胥终于逃出了楚国。
在被斥候抓住以后．伍子胥是处于一种绝对的劣势地位。要想改善这一
局面，必须采取一个宝宦略。伍子胥的威胁行动，就是抢占先机，宣布自己将
无条件地进行报复、这就使原本同时出招的博弈变成相继出招的博弈．而且
还是伍子胥先行。而这样的选择，显然不是在他和斥候同时出招的博弈里能
够做出的选择。摆脱困境的策略思维的精彩之处，正在于此。伍子胥若是不
宣布进行报复，或者甚至宣布不会进行报复．不会得到任何好处。
在这里．伍子胥是故意利用信息对称，把斥候拉人一种类似囚徒困境的
局面。这个囚徒困境的收益矩阵如表2．2所示。
伍子胥与斥候的博弈收益矩阵
从上面的矩阵我们可以看出来，诬陷和释放分别是伍子胥和斥候的严格
优势策略．从博弈论看来，人都是理性的，所以斥候一定会选择与伍子胥合
作的策略。
在这里，斥候能够得到的最好结果是把伍子胥押送给楚王，而伍子胥不
诬陷他吞了珍珠，这样伍于胥就会被杀掉(假定收益为一10)．而斥侯可以得
到楚王的奖赏，我们把这种收益假定为8。但是如果伍子胥诬陷他的话，那么
他的结局就和伍子胥一样．是失去生命，假定收益为一10。
伍子胥已经告诉他，如果他选择押送，他就会选择诬陷。因为对于伍子
胥来说，在这种情况下无论是否诬陷，自己的结局是不变的。对于这一点，
斥候也十分清楚。因此，伍子胥的威胁是可信的。要想策略地行动，你必须
保证自己不要采取在同时出招博弈里的均衡策略。伍子胥的这一策略行动改
变了斥候的预期，进而改变了他的行动。
面对可能出现的潜在的危机．人们总是抱着“宁可信其有，不可信其无”
的态度，这是一种预期的支付．以保证自己能够免于陷人困境。这种预期支
付心理，恰恰给了处于显性困境者以机会，或用欺骗方式，或夸大其词，让
对方做出预期支付．帮助自己摆脱困境。
正是由于这个原因，伍子胥三言两语巧妙地转换了自己的劣势处境，并
且把个人的困境与对手的困境捆绑在了一起．迫使其做出了帮助自己解围的
理性选择。
这对于我们每个人在处于劣势时转换思维方式．是很有启示的。创造一
种困境．使对方陷人与你一样无法全身而退的困境，那么即便在这种困境出
现之前，他本来拥有拿走你所有的一切的优势．此时他也只能被迫进行理性
的决策．与你合作。
倒霉是因为太聪明
清朝有个读书人叫乔世荣，其貌不扬．但是却精通诗书。颇有才干。他
于某年大考及第，到吏部候职时，因无余银“上贡”，所以坐了好久的冷板凳
才被任命为一个七品县令。在走马上任的途中，乔世荣碰到一老一少二人在
因徒困境：自愿坐牢的嫌疑人
激烈争吵。一阃之下才知道，老者拾获钱袋．在原地等候遗失者前来认领；
而遗失钱袋的年轻人，找到钱袋后反而一口咬定钱袋原装有50两银子．而不
是现在的t0两银子。围观的民众议论纷纷，有的认为老者昧银．有的认为年
轻人耍赖。乔县令走上前去亮明身份，先向老者问话：“你捡到这钱袋，有没
有离开原地，”老者答：“没有。”乔县令又问：“可有人见证?”一部分围观
民众纷纷愿替老者作证。乔县令于是胸有成竹地说：“这就对了，老者检到的
钱袋，是装10两银子，那就不是年轻人的装有50两银子的钱袋。这位老者，
你拾金不昧，本县判将钱袋赏你。这位年轻人，你的50两银子的钱袋．还是
自己再到别的地方找一找吧。”在人们的讥笑声中，年轻人只好自认倒霉．灰
溜溜地走开了。
这个故事告诉我们：失败不是因为人们太傻，而恰恰是太精明所致。对
于这个论断，哈佛大学巴罗教授在研究囚徒困境的过程中，也有一个很接近
生活的模型。
两个旅行者从一个出产细瓷花瓶的地方回来，都买了花瓶。可是提取行
李的时候．发现花瓶被摔坏了。于是，他们向航空公司索赔。航空公司知道
花瓶的价格总在八九十元上下浮动，但是不知道两位旅客买的确切价格是
多少。于是，航空公司请两位旅客在100元以内自己写下花瓶的价格。如
果两人写的一样．航空公司将认为他们讲的是真话，并按照他们写的数额赔
偿；如果两人写的不一样，航空公司就论定写得低的旅客讲的是真话，并且
照这个低的价格赔偿，但是对讲真话的旅客奖励2元钱，对讲假话的旅客罚
为了获取最大赔偿，甲乙两位旅客最好的策略就是都写100元，这样两
人都能够获赔100元。
可是甲很聪明．他想：如果我少写l元变成99元，而乙会写100元，这
样我将得到101元。何乐而不为?所以他准备写99元。可是乙更加聪明，他
算计到甲要算计自己而写99元，“人不犯我，我不犯人，人若犯我．我必犯
人”．于是他准备写98元。想不到甲又聪明一层．算计出乙要这样写98元来
坑他，“来而不往非礼也”．他准备写97元…
下象棋的时候，不是说要多“看”几步吗7看得越远，胜算越大。你多
博彝论的鹾}舻
看两步，我比你更强多看三步，你多看四步。我比你更老谋深算多看五步。
在花瓶索赔的例子中．如果两个人都“彻底理性”，都能看透十几步甚至几十
步、上百步，那么上面那样“精明比赛”的结果，最后将落到什么田地?事
实上，在彻底理性的假设之下，这个博弈唯一的纳什均衡，是两位旅客都写0。
对于这个演进了的囚徒困境，巴罗教授称之为“旅行者困境”。一方面．
它启示人们在为私利考虑的时候不要太精明，因为精明不等于高明．太精明
往往会坏事；另一方面。它对于理性行为假设的适用性也提出了警告。
对执法者也有启示
唐敬宗时，李德裕曾任浙西观察史。当地甘露寺的和尚向官府控告前任
主事僧贪污寺里的钱。他们说．过去寺里历届主事僧办交接时，账面上记载
的金子数目都很清楚。但这个主事僧办交割时。却不见金子。他们众口一词
地指控这主事僧把金子藏起来私用了。经过审讯．案子成立，主事僧也明确
认罪了。但是在审理过程中，并没有进一步交代他把金子用在什么地方了。
李德裕怀疑这案子还没查完，就想办法对被告进行试探。于是。那个主
事僧向李德裕申诉了自己的冤枉说：“多年以来，寺里都是空交账本，实际上
设有金子。寺里的人们孤立我．想借此把我排挤走。”李德褡说：“这事不难
搞清楚。”他召米了历届主事僧来对证。僧人们各自被打发进一乘轿中，轿门
都面向墙壁．不让他们相见。然后给每人一团黄泥，让他们各自捏出上届交
付下来的金块的模样，声称要以之作为给案犯定罪的证据。那些僧人并不知
金子的形状．都捏不出来。这样，寺里以前的这几届主事僧，都承认了自己
的诬陷罪。
当囚徒困境中的各方在博彝之中处于不对等地位的时候，博弈的局势很
容易发生偏移，即从合作型的博弈走向非台作型博弈。不过，这种偏移并非
岿然发生，因为影响博弈走向的，不但是双方的地位对比，还有局面的变化。
这就给我们一种启发，通过设计改变博奔参与者的格局，造成一种压力．
那么他们很有可能改变原来通谨共犯的合作，改而与“警察”合作。能够达
成这种局面的设计可能有很多种，但是最常用也最为有效的一种．就是有意
囚徒困境：自愿坐牢的嫌疑人
地制造信息的不对称。
在北美学生的电子邮件交流组中．有这样一个小故事流传甚广。
两位交往甚密的学生在杜克大学修化学课。两人在小考、实验和中期考
中都表现甚优，成绩一直是A。在期末考试前的周末，他们非常自信，于是
去参加弗吉尼亚大学的一场聚会。聚会太尽兴，结果周日这天就睡过了头，
来不及准备周一上午的化学期末考。他们投有参加考试．而是向教授撒了个
谎，说他们本已从弗吉尼亚大学往回赶．并安排好时间复习准备考试，但途
中轮胎爆了。由于没有备用胎，他们只好整夜呆在路边等待救援。现在他们
实在太累了，请求教授允许他们隔天补考。教授想了想，同意了。两人利用
周一晚上好好准备了一番，胸有成竹地来参加周二上午的考试。教授安排他
们分别在两间教室做答。第一个题目在考卷第一页，占了10分．非常简单。
两人都写出了正确答案，心情舒畅地翻到第二页。第二页只有一个问题，占
了90分。题目是：“请同破的是哪只轮胎?”结果不占而喻，两个学生只好
乖乖地向教授认错。
重复博弈：一夜情与地老天荒
月落鸟啼总是千年的风霜
涛声依旧不见当初的夜晚
夸天的你我怎样重复昨天的故事
——《涛声依旧》歌词
没有未来必然背叛
在车站和旅游点这些人群流动性大的地方，不但商品和服务质量差，而
且假货横行，因为在商家和顾客之间“没有下一次”——旅客因为商品质优价
廉而再次光『临的可能性微乎其微，因而正常情况下的理性选择是：一锤子买
卖，不赚白不赚。
在公共汽车上，两个陌生人会为一个座位争吵，可如果他们相互认识，
就会相互谦让。在社会联系紧密的人际关系中，人们普遍比较注意礼节和道
德，因为他们需要长期交往，并且对未来的交往存在预期。
上面这两个例子说明，对未来的预期是影响我们行为的重要因素。一种
是预期收益：我这样做，将来有什么好处；一种是预期风险：我这样做可能
将来面lI卣问题。这都将影响个人的策略。
当下屡见不鲜的一夜情现象。更能说明这种预期对行为的影响。事实上，
这个对局与经典的囚徒困境如出一辙：出轨的感情本来就是为了满足欲望而
进行的冒险。上一章中两个盗窃犯的相互背叛，其原理也照样适用于“偷情”
重复博奔：一夜情与地老天荒
素昧平生的一对男女，偶尔在旅游中相遇，接着在宾馆里春梦一场，天
一亮就各自扬长而去，谁也不会忠于谁，彼此也不会为对方今后的不忠实而
产生任何不快。其根本原因就在于这种一夜情，本身就是“一次性”的博弈。
可是，如果男女双方由此一见钟情，决定发展成为恋人的关系，那么他
们彼此的忠心就会有一定程度的增加。原因在于他们今后还要常常碰面，还
有机会重复博弈。他们会像正常的恋人之间一样，在接下来的重复博弈中．
有无数次的机会来对背叛行为做出惩罚。
这就是一夜情与爱情之间的区别。
现代博弈论的发展在上述问题上提供了更深入的解释：每一次人际交往
其实都可以简化为两种基本选择：合作还是背叛。在人际交往中普遍存在囚
徒困境：双方明知合作带来双赢，但理性的自私和信任的缺乏导致合作难以
产生。而且，如果博奔是一次性的，那么这必然加剧双方进行坦白的决心．
选择相互背叛。
在这样的博弈中，背叛是个人的理性选择。但却直接导致集体的非理性。
似乎没有任何方法能够让我们逃脱两败俱伤的局面。难道人类注定要承受这
个无法摆脱的噩梦吗?
答案是否定的。资深的博弈论专家罗伯特-奥曼在1959年指出，人与人
的长期交往是避免短期冲突、走向协作的重要机制。拥有以色列和美国双重
国籍的奥曼于1955年获美国麻省理工学院数学博士，当时正是博弈论方兴来
艾之际，在以后50年的时间里．他一直在寻找避免囚徒困境式的纳什均衡的
机制，实际上是从理论上探索协调人们利益冲突，增进社会福利的道路。
在任何博奔中，表现最好的策略直接取决于对方采用的策略．特别是取
决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步对
于当前一步的影响足够大，即未来是重要的。总的来说，如果你认为今后将
难以与对方相遇，或者你不太美心自己未来的利益，那么，你现在最好背叛．
而不用担心未来的后果。
而现实生活中反复交往的人际关系，则是一种“不定次数的重复博弈”。
奥曼通过自己的推导十分严密地证明，在较长的视野内，人与人交往关系的
重复所造成的“低头不见抬头见”的关系，可以使自私的主体之间走向合作。
这可以解释许多商业行为。一次性的买卖往往发生在双方以后不再有买
卖机会的时候，特点是尽量谋取暴利并且带欺骗性。而靠“熟客”、“回头客”
便是通过薄利行为使得双方能继续合作下去。
事实上，重复博弈也更逼真地反映了日常人际关系。在重复博弈中，合作
契约的长期性能够纠正人们短期行为的冲动。这在日常生活里是具有普遍性的。
如何破解迟到困局
我们已经知道，由于一次性博弈的大量存在．引发了很多不合作的行为。
而且，即便是在重复博弈中，合作的一方在遭到对方背叛之后，往往没有机
会也没有还手之力去进行报复。比如，资本积累阶段的违约行为，国家之间
的核威慑。在这些情况下，要使交易能够进行，并且防止不合作行为，必须
设置严格的惩罚背叛行为的机制。
有人曾经在网上提供了这样一个集体活动迟到的问题。
王老师是某班的班主任，他经常组织本班同学参加集体活动，比如郊游。
但在组织的过程中。他遇到了一个棘手的问题。在一次集体活动中，王老师
通知全班同学早上8：oo到校门口集合。结果有几个同学拖拖拉拉．导致大
家8：15才出发，从而白白耽误了一刻钟。
在此后的集体活动中，王老师改变了策略，虽然真实的集合时间仍是8：00，
但是他通知大家7：45集合，结果最晚的几个同学也在8：00赶到．从而准
时出发。王老师对自己的策略根满意。
但是好景不长。时间久了．同学们都发现了王老师通知的集合时间故意
提前，甚至可以根据王老师的通知猜测出真实的集合时间。因此．每当王老
师通知7：45集合时，大家仍然按照真实的集合时间．也就是8：00来做安
排，从而导致几个同学在B：00后才赶来。而那些准时即7：45到达集合地
点的同学都开始抱怨，进而也变得不那么守时了。
王老师的目标是通知合适的集合时间。从而达到准时出发且避免同学因
为等待而有所抱怨。那么应当制定怎样的策略。才能使活动准时开始并使大
重复博弈；一夜慵与地老天荒
家都满意呢?
在这个问题中．存在着老师与学生、学生与学生之间的博弈。实际上也
是一种多人的囚徒困境。因为每个学生都知道，其他学生的占优策略是选择
到达集合地点的时间，既不能太早，以免白白浪费等待的时间；又不能太晚，
以免承担耽误大家时间的责任。
要破解这个困境，老师有两个策略选择：一是只要过了集合的时间，就
不再等下去，让迟到的同学独自承担责任。这种责任和相应的惩罚对同学会造
成很大的损失，他们就不会再迟到了。二是如果迟到的学生比较多。那么等
某个数量的学生到齐以后马上出发，而让迟到时间过长的那些同学承担责任。
一般说来，博弈中双方合作时得益最大，但若一方不遵守台作约定．必
定是另一方合作者吃亏。所以需要引入惩罚机制：谁违约，就要处罚他，使
他不敢违约。一位玩家之所以会与另外一位合作，只是因为他知道，如果他
今天被骗．明天还能对欺骗实施惩罚。奥曼先生把这一洞察结论称之为“无
名氏定理”。
只有对迟到的学生进行惩罚，迟到问题才能解决，一句话，也就是实行
一份带剑的契约。从囚徒困境中我们可以悟出一条真理：合作是有利的“利
己策略”。但它必须符合以下定律：按照你希望别人对你的方式来对别人，但
只有他们也按同样方式行事才行。
带剑的契约才有效
在每一个鼓励合作的方案里，通常都会包古某种惩罚作弊者的机制。
一个坦白且供出合作伙伴的囚徒可能遭到对方朋友的报复。若是知道外
面会有什么报应等着自己，尽快逃脱牢狱之灾的前景也就不会显得那么诱人
了。人人都知道，警察会威胁毒品贩子说如果不坦白就要释放他们。这种威
胁的作用在于，一旦他们被释放，卖毒品给他们的人就会认定他们一定是招
供了而加以报复。
在最初博弈之上增加惩罚机制的做法，其目的就是为了减少作弊的动机。
在博奔的结构里还存在其他类型的惩罚。一般而言，这种机制生效的原因在
女☆∞j}舻
于博弈反复进行，这一回合作弊所得将导致其他回合所失。
归纳起来，在一次性的博弈当中没有办法达成互惠合作。只有在一种持
续的关系中才能够体现惩罚的力度．并因此成为督促合作的”术棒”。合作破
裂自然就会付出代价．这一代价会以日后损失的形式出现。假如这个代价足
够大，作弊就会受到遏制，合作就会继续。事实上，法国哲学家卢梭早就指
出了这一点，他曾经有一本《社会契约论》，认为契约是整个人类社会存在的
前提条件之一。
前面已经分析过，如果囚徒困境只是一次性的博弈，那么签订协议是毫
无意义的，其纳什均衡点并不会改变。可以签订协议的一个最基本的条件，
就是博奔需要重复若干次，至少大于一次。
重复博弈与一般性的动态博弈是不同的。多轮动态博弈中，参与者能够
了解到博弈的每一步中其他参与者的在自己选择某种策略下的行动，而重复
博奔的参与者无法了解到在任何一步中，其他参与者的策略选择。
在重复型的囚徒困境中．签订合作协议并不困难，困难的是协议对博弈
各方是否具有很强的约束力。任何协议签订之后，博弈参与者都有作弊的动
机，因为至少在作弊的这一轮博弈中，可以得到更大的收益。
霍布斯对合作协议的观点是：“不带剑的契约不过是一纸空文。它毫无力
量去保障一个人的安全。”这就是说，没有权威的协议并不能导致民主．而是
导致无政府状态。
囚徒困境扩展为多人博弈时，暴露了一个更广泛的问题——“社会悖论”，
或“资源悖论”。人类共有的资源是有限的．当每个人都试图从有限的资源中
多拿一点儿时，就产生了局部利益与整体利益的冲突。人口问题、资源危机、
交通阻塞，都可以在社会悖论中得以解释。在这些问题中，关键是制定游戏
规则来控制每个人的行为。
另外，学者爱克斯罗德所著的《合作的进化》一书暗含着一个重要的假
定，即个体之间的博弈是完全无差异的。但对局者之间绝对的平等是不可能
达到的，因而某些博弈对一方来说是典型的高成本、低回报：一方面，对局
者在实际能力上存在不对称．双方互相背叛时，可能不是各得1分，而是强
者得5分，弱者得0分，这样，弱者的报复就毫无意义；另一方面．即使对
重复博弈：一夜情与地老天荒
局双方确实旗鼓相当，但某一方可能怀有赌徒心理，认定自己更强大，采取
背叛的策略能占便宜。爱克斯罗德的分析忽视了这种情形，而这种事实或心
理上的不平等恰恰在社会上引发了大量零和与负和博弈。
在这种情况下，应通过法制手段。以法律的惩罚代替个人之间的“一报
还一报”，才能规范合作行为。事实上．从博弈论的角度看，法律就是通过第
三方实施的行为规范，其功能是或者通过改变当事人的选择空间改变博弈的
结果，或者不改变博弈本身而改变人们的信念或对他人的行为预期，从而改
变博弈的结果。
用道德来保证均衡
带剑的契约对于保证合作关系是有效的，但是在更多的情况下，我们根
本找不到，或者不值得用“剑”也就是法律来保证合作。那么在这时，有没
有其他办法来达到均衡呢?答案是肯定的。如果法律是保证人与人关系之间
的唯一武器，那么博弈策略也就没有什么价值了。作家吴思在《潜规则》中
曾经讲了这样一个故事，可以作为一个引子。这个故事来自《明史》，是一个
监察官员的故事。
崇桢元年(1628年)，朱由检刚刚当上皇帝，发出了“文官不爱钱”的号
召。户科给事中韩一良对这种号召颇不以为然．就写了份上疏，说道：如今
何处不是用钱之地?哪位官员不是爱钱之人?本来就是靠钱弄到的官位．怎
么能不花钱偿还昵?…··我这两个月辞却了别人进我的出书费用五百两银
子，我交往少尚且如此，其余的可以推想了。伏请陛下严加惩处，逮捕处治
那些做得过分的家伙。崇祯读了韩一良的上疏。立刻召见群臣．让韩一良当
众念他写的这篇东西。读罢，崇祯对大臣们说：“一良忠诚耿直，可以当佥都
这时，吏部尚书王永光请求皇帝，让韩一良点出具体人来．究竟谁做得
过分．又是谁送他银子。韩一良吞吞吐吐，显出一副不愿意告发别人的样子。
于是崇桢让他密奏。等了五天，韩一良谁也没有告发。崇祯再次把韩一良和
一些大臣召来，当面追问。然而韩一良就是不肯点名。崇桢让韩一良点出人
莲&{}：掣——一
名，本来是想如他所请的那样严加惩处，而韩一良最后竞推说风闻有人要送。
祟祯训斥韩一良前后矛盾，撤了他的职。
韩一良宁可叫皇帝撤掉自己的官职，断送了自己的前程．甚至顶着被治
罪的风险，硬是不肯告发那些向他送礼行贿的人，他背后必定有强大的支撑
力量。这是一种什么力量々难道只是怕得罪人?作为给事中，检举起诉和得
罪人乃是他的分内事。因此，恐怕还是一种外在规则的压力，或者说外在规
则在其内心中形成的“道德”在起作用，使其坚决不肯背叛向他行贿的人。
上面这个历史故事讽刺性地告诉我们：在现实环境中，确实存在着一些
道德因素，可以化解个人理性与群体理性的矛盾，维系整个社会的稳定。
有一群猴子被美在笼子里，从笼子上方垂下一条绳子，绳子末端拴着一
个香蕉，上端连着一个机关，机关可以开启水源。猴子们发现了香蕉。纷纷
跳上去够这个香蕉．当猴子够到香蕉时，相连的绳子带动了机关，于是一盆
水倒了下来，尽管够到香蕉的猴子屹到了香蕉，但大多数猴子被淋湿了。
这个过程重复着，猴子们发现．吃到香蕉的猴子是少数，而其余的大多
数猴子都被淋湿。于是，每当有猴子去取香蕉，就有其他的猴子主动地去撕
咬那个猴子。久而久之，猴子们产生了默契，再也没有猴子敢去取香蕉了。
在这个故事里，猴子问产生了“道德”。猴子们认为取香蕉的后果对其
他猴子不利，因而取香蕉是“不道德的”，它们便会主动地惩罚“不道德的”
与法律一样，道德也是对某些不合作行动的惩罚机制。这种机制的出现
使得人类从囚徒困境中走出来。道德感自然地使得人们对不道德的或不正义
的行为谴责或者对不道德的人采取不合作，从而使得不道德的人遭受损失。
这样，社会上不道德的行为就会受到抑制。因此只要社会形成了道德或不道
德、正义或非正义的观念，就自动对行为产生了调节作用。
但是在日常生活的交际中，单纯依靠对手的道德自律来达成合作是不
保险的。针对这个问题．我们可以通过对道德因素的考虑，对博弈策略进
行相应的调整．把交际变成长期的、多边的，从而形成诚实守信的动力与
莲&{}：掣——一
名，本来是想如他所请的那样严加惩处，而韩一良最后竞推说风闻有人要送。
祟祯训斥韩一良前后矛盾，撤了他的职。
韩一良宁可叫皇帝撤掉自己的官职，断送了自己的前程．甚至顶着被治
罪的风险，硬是不肯告发那些向他送礼行贿的人，他背后必定有强大的支撑
力量。这是一种什么力量々难道只是怕得罪人?作为给事中，检举起诉和得
罪人乃是他的分内事。因此，恐怕还是一种外在规则的压力，或者说外在规
则在其内心中形成的“道德”在起作用，使其坚决不肯背叛向他行贿的人。
上面这个历史故事讽刺性地告诉我们：在现实环境中，确实存在着一些
道德因素，可以化解个人理性与群体理性的矛盾，维系整个社会的稳定。
有一群猴子被美在笼子里，从笼子上方垂下一条绳子，绳子末端拴着一
个香蕉，上端连着一个机关，机关可以开启水源。猴子们发现了香蕉。纷纷
跳上去够这个香蕉．当猴子够到香蕉时，相连的绳子带动了机关，于是一盆
水倒了下来，尽管够到香蕉的猴子屹到了香蕉，但大多数猴子被淋湿了。
这个过程重复着，猴子们发现．吃到香蕉的猴子是少数，而其余的大多
数猴子都被淋湿。于是，每当有猴子去取香蕉，就有其他的猴子主动地去撕
咬那个猴子。久而久之，猴子们产生了默契，再也没有猴子敢去取香蕉了。
在这个故事里，猴子问产生了“道德”。猴子们认为取香蕉的后果对其
他猴子不利，因而取香蕉是“不道德的”，它们便会主动地惩罚“不道德的”
与法律一样，道德也是对某些不合作行动的惩罚机制。这种机制的出现
使得人类从囚徒困境中走出来。道德感自然地使得人们对不道德的或不正义
的行为谴责或者对不道德的人采取不合作，从而使得不道德的人遭受损失。
这样，社会上不道德的行为就会受到抑制。因此只要社会形成了道德或不道
德、正义或非正义的观念，就自动对行为产生了调节作用。
但是在日常生活的交际中，单纯依靠对手的道德自律来达成合作是不
保险的。针对这个问题．我们可以通过对道德因素的考虑，对博弈策略进
行相应的调整．把交际变成长期的、多边的，从而形成诚实守信的动力与
假装不知道有尽头
《笑林广记》中记载这样一则笑话。
有一个人去理发铺剃头，剃头匠给他剃得撮草率。剃完后，这人却付给
剃头匠双倍的钱，什么也没说就走了。一个多月后的一天，这人又来理发铺
剃头。剃头匠还记得他上次多付了钱，觉得此人阔绰大方，为讨其欢心，多
赚点钱，便竭力上心，周到细致．多用了一倍的工夫。剃完后．这人便起身
付钱，反而少给了许多钱。剃头匠不愿意，说：“上次我为您剃头，剃得很草
率．您尚且给了我很多钱；今天我格外用心，为何反而少付钱呢?”这人不
慌不忙地解释道：“今天的剃头钱，上次我已经付给体了；今天给你的钱，正
是上次的剃头费。”说着大笑而去。
这个故事说明，有限次的囚徒困境．情况不同于无限次的囚徒困境的重
复博彝。当临近博弈的终点时，采取不合作策略的可能性加大。即使参与人
以前的所有策略均为合作策略，如果被告知下一次博奔是最后一次，那么肯
定采取不合作的策略。
当合作关系存在某种自然而然的缚点时，博弈反复进行的次数是一定的。
运用向前展望、倒后推理的原则，我们可以看到，一旦再也没有机会可以进
行惩罚，合作就会告终。但是，谁也不愿意落在后面，在别人作弊的时候继
续合作。假如真的有人仍然保持合作，最后他就只能自认倒霉。
既然没人想倒霉。合作也就无从开始。实际上，无论一个博弈将会持续
多长时间。只要大家知道终点在哪里，结果就一定是这样。因为从一开始，
两位参与者就应该向前展望，预计最后一步会是什么。在这最后一步，再也
没有什么“以后”需要考虑，优势策略就是作弊。这最后一步的结果是一个
不可避免的结论：既然没有办法影响这个博弈的最后一步，那么，在考虑对
策的时候，倒数第二步实际上就会成为最后一步。而在这一步．作弊再次成
为优势策略。理由是，位于倒数第二的这一步对最后阶段的策略选择毫无影
响。因此．倒数第二步可以视为孤立阶段，单独进行考虑。对于任何孤立阶
段，作弊都是一种优势策略。
重复博奔：一夜情与地老天荒
深诸策略思维者懂得瞻前顾后，避免失足于最后一步。假如他预计自己
会在最后一轮遭到欺骗，他就会提前一轮中止这一关系。不过．这么一来，
倒数第二轮就会变成最后一轮．还是没法摆脱上当受骗的问题。
现在，最后两个阶段的情形已经确定。早期进行合作根本无从实现．因
为两个参与者已经决心在最后两个阶段作弊。这么一来，在考虑对策的时候，
倒数第三步实际上就会成为最后一步。遵循同样的推理，作弊仍是一种优势
策略。这一论证一路倒推回去．不难发现，从一开始就不存在什么合作了。
但是在上面的故事中，剃头匠为什么会上当呢?在现实世界里．所有真
实的博弈只会反复进行有限次．但正如剃头匠不知道客人下一次是否还会光
顾一样，没有人知道博弈的具体次数。既然不存在一个确定的结束时间．那
么这种合作关系就有机会继续下去，实现阶段性的成功合作。要想避免信任
瓦解．千万不能让任何确定无疑的最后一轮出现在视野所及的地方。只要仍
然存在继续合作的机会，背叛就会被抑制。
不可否认，这个世界存在一些“善良的”人．不管作弊可能带来什么样
的物质利益，他们仍然选择合作。但是多数人都没有那么善良，而是按照自
己的理性行事，在一个反复进行有限次的囚徒困境博弈里，他们会从一开始
就作弊。这会使其他参与者很快看清楚其本质．并对之加以提防。于是，为
了掩盖真相，或者是至少掩盖一会儿真相，他们不得不装出“善良”的样子。
剃头的客人一开始为质量低劣的服务付很多的钱，就出于这种考虑。
在博弈中．假设他一开始就按照善良人的方式行事，其他参与者就会认
为他大约属于周围少有的几个善良人之一。合作一段时闯将会带来实实在在
的好处。而且其他参与者也会打算仿效他的善良做法，换取这些好处，从而
带来合作的收益。当然，他和其他参与者一样，仍然打算在博弈接近尾声
的时候偷偷作弊。但这并不妨碍在最初一个阶段进行互利互惠的合作。因
此．在各人假装善良等待占别人便宜的时候．大家已经从这种共同欺骗中得
能在一个反复进行的囚徒困境中使信任出现的条件，就是作弊所得晚于
合作破裂的代价之前出现。这么一来，作弊与合作相比哪一个更划算．就取
决于现在与将来相比哪一个更重要。
在商界，比较现在与将来的利润的时候，会用一个合适的利率进行折算。
而在政界，现在与将来的重要性的比较更加带有主观色彩。不过，一般而盲，
如果下一次竞选之后的时间看起来无关大局．政治人物间的合作更容易破裂。
即便是在商界．若是遇到不景气的年份，整个产业处于崩溃边缘，管理层觉
得已经走到山穷水尽，没有明天了，那么，竞争就有可能变得比正常年份更
加激烈。同样地，由于战争迫在眉睫，伊朗和伊拉克会认为现在的利润比将
来的利澜更重要，由此加深了协调限制石油产量以保持长期稳定利润的难度。
但是隐瞒终点或者说假装没有终点的博弈策略，仍然是以背叛为基础的．
其目的无非是在相互背叛之前得到更多的收益。当然也有例外，比如说在多
数恋人之间的博弈，其目的并非是为了在分手时得到更多的“好处”，而是希
望能更好地维持合作的稳定性，从而缔结连理，自首偕老。
一报还一报：出来混迟早要还的
出来混迟早耍还的
不是不还只分早晚
是你的递也选不摔的
出采混迟早妻还的
熙熙攘攘利柬利往
到头来还不是尘归尘土归土
——《出来混．迟早是要还的》歌词
以牙还牙，以眼还眼
一天半夜，某教授正在熟睡之际，电话铃突然响了起来。他睡跟惺忪拿
起电话，听筒里传来女邻居怒气冲冲的声音：“麻烦你管一下你的狗，不要再
让它叫了。”说完，电话就挂了。这位教授十分生气。第二天他定好闹钟，半
夜两点钟准时起床．拿起电话拨通了这位女邻居家。过了半天，对方才章起
听筒，带着睡意恼怒地同：“哪一位?”这位教授彬彬有礼地告诉她：“夫人，
昨天我忘记告诉你了。我们家没有养狗。”
在这个反映现实人际关系的小笑话中，我们可以发现在没有法规和道德
的约束，也没有其他力量从外部对双方进行强制时，对自己最有利的一种策略：
一报还一报。这一策略的提出，应归功于美国密西根大学的学者罗伯特·爱
克斯罗德。他是一个政治科学家．研究方向是人与人之间的合作关系。
赢材譬鲨型
在开始研究合作之前，爱克斯罗德设定了两个前提：一．每个人都是自
私的；二，没有权威干预个人决策。也就是说，个人可以完全按照自己利益
最大化的目标进行决策。在此前提下，要研究的问题是：第一，人为什么要
合作；第二，人什么时候是合作的，什么时候又是不合作的；第三．如何使
别人与你合作。
在研究的过程中，爱克斯罗德组织了一场计算机模拟竞赛。思路非常简
单：任何参加这个竞赛的人都扮演囚徒困境案例中一个囚犯的角色．把自己
的策略编成计算机程序，进行捉对博弈，在合作与背叛之间做出选择。但与
囚徒困境案例有个不同之处：他们不止玩一次这个游戏，而是以单循环赛的
方式玩上200次。这就是博弈论专家所谓的“重复的囚徒困境”．它更逼真地
反映了具有经常而长期性的人际关系。
这个游戏还允许程序在做出合作或背叛的抉择时，参考对手程序前几次
的选择。如果两个程序只玩过一个回合，则背叛显然就是唯一理性的选择。
但如果两个程序已经交手过多次，则双方就建立了各自的历史档案．用以
记录与对手的交往情况。同时，它们也通过多次的交手树立了或好或差的
虽然如此，下一步将会如何行动却仍然极难确定。实际上，这也是该竞
赛的组织者爱克斯罗德希望从这个竞赛中了解的事情之一：一个程序能够总
是不管对手做何种举动都采取合作的态度吗9或者，它能总是采取背叛行动
吗，它是否应该对对手的举动报之以更为复杂的举动7如果是．那会是怎么
样的举动呢?
第一轮游戏有14个程序参加，其中包含了各种复杂的策略。再加上爱克斯
罗德自己的一个随机程序(即以50％的概率选取合作或背叛)。使爱克斯罗德和
其他人深为吃惊的是．竞赛的桂冠属于一个被称为“一报还一报(Trr FOR
TAT)”的策略．它是由多伦多大学的数学教授阿纳托·拉波波特提交上来的。
有意思的是，在科学家们上交的14个程序中有8个是“善意的”，但正是
这些永远不会首先背叛的善意程序．轻易地赢了6个非善意的程序。
因为参与竞赛的程序为数不多，一报还一报策略的胜利也许只是一种侥幸。
为了进一步验证上述结论．爱克斯罗德决定举行第二轮竞赛．邀请更多的人
一报还一报：出来混迟早要还的
再做一次游戏，并把第一次的结果公开发表。这一次有62位科学家递交了改
进的程序，其中包括多个以上一次的策略为基础的改良品种。加上爱克斯罗
德自己的随机程序．63个程序又进行了一次竞赛。竞赛结果表明．在63个程
序的前15名里．只有第8名的哈灵顿程序是“非善意的”；在最后15名中，
只有1个总是合作的程序是“善意的”。而且，夺魁的仍然是一报还一报策略。
这种让几十位科学家的智慧相形见绌的神奇策略到底是怎样的呢?
说起来很简单，简单到有些不可思议：第一步合作，此后每一步都重复
对方上一步的行动：合作或背叛。如此简单的程序之所以反复获胜，是因为
它奉行了以其人之道还治其人之身的原则，并且用如下特征最有效地鼓励其
他程序同它长期合作：善良、可激怒、宽容、简单、不妒忌别人的成功。
·善良，是指它第一步总是向对方表达善意。它坚持永远不首先背叛对
方，开始总是选择合作，而不是一开始就选择背叛或主动作弊。
·可激怒，是指对方出现背叛行动时，它能够及时识别并一定要采取背
叛的行动来报复。不会让背叛者遣遥法外，
·宽容．是指它不会因为别人一次背叛。长时间怀恨在心或者没完没了
地报复．而是在对方改过自新、重新回到合作轨道时，能既往不咎地
&&& 恢复合作；
·简单．是指它的逻辑清晰．易于识别．能让对方在鞍短时间内辨识出
来其策略所在：
·不妒忌，是指它不耍小聪明，不占对方便宜，不在任何双边关系中争
&&& 强好胜。
其他各种策略输就输在上述五个方面做得不够好。在比赛结果中，所有
恶意程序(第一步背叛)都未进前10名；而某些程序太过好脾气。被对方背
叛之后不立即反应，结果鼓励菜些狡猾的程序反复占它的便宜；某些程序对
于过往关系的“好坏”太过执著，一旦被别人欺骗就很难宽容，结果使得很
多本来可能恢复的合作关系永久性断绝；还有一些程序把自己搞得太复杂，
总是试图通过某种机巧来占人便宜．尽管在与某些“傻”程序接触中得了高
分，但一旦碰到个性“刚烈”的程序就会搬起石头砸了自己的脚。而从最后
的总分来看，它们的小聪明得不偿失。
一报还一报：出来混迟早要还的
再做一次游戏，并把第一次的结果公开发表。这一次有62位科学家递交了改
进的程序，其中包括多个以上一次的策略为基础的改良品种。加上爱克斯罗
德自己的随机程序．63个程序又进行了一次竞赛。竞赛结果表明．在63个程
序的前15名里．只有第8名的哈灵顿程序是“非善意的”；在最后15名中，
只有1个总是合作的程序是“善意的”。而且，夺魁的仍然是}

淘宝游戏网