大数定理简介
我们知道,单凭理性计算,有限次重复博奕,是解决个体理性与集体 理性之间矛盾的。无限重复又如何呢?且听我细细道来。 在无限重复中,行为规则可以用自动机来代表,于是不同行为规则的 相争,便成了机器与机器的角斗。假设甲和乙玩无限重复的囚犯博奕。甲 相信《美德的起源》一书作者的教导,认定仁厚忠恕既高尚又有效,于是 以它为策略。乙信奉理性流氓主义,崇尚实力和实利,于是以流氓主义为 策略。这样,二人间的博弈,就可以看作恕道机器与流氓机器的争斗。根 据上一贴中列出的框图,我们可以推演出各个回合双方的行为如下: 第一回合,甲仁厚玩合作h,乙宰客玩欺骗d; 第二回合,甲报复玩欺骗d,乙仍然宰客玩欺骗d; 第三回合,甲仍报复玩欺骗d,乙发现甲并非傻客,于是玩合作h; 第四回合,甲原谅乙,玩合作h;乙却因甲上次不合作,回头玩欺骗d宰客; …… 如此等等。采用我们上贴里的报偿表,整个结果序列如下图所示:
循 环 循 环 循 环
┌───┐ ┌───┐ ┌───┐
↓ ↓ ↓ ↓ ↓ ↓
行为:甲 h d d h d d h d d
乙 d d h d d h d d h
报偿:甲 0 2 6 0 2 6 0 2 6
乙 6 2 0 6 2 0 6 2 0
…… 请注意,此序列呈现一个有趣的规律:就是每三个一组,不断循环重 复。于是我们很容易算出,博弈各方平均每个回合的报偿有多少 只要 取相继三个回合,作个简单平均就够了。甲得到(0+2+6)/ 3 = 2.67,乙得到(6+2+0)/ 3=2.67。显然,两者平分秋色, 不相上下,谁也不比谁差,谁也不比谁强。 这种循环重复并不是特例。可以证明,有限自动机玩无限重复博弈, 其结果最终都会变成循环重复序列。于是,利用类似的办法,我们可以针 对上贴中列出的七种策略,算出每一对策略相博所产生的的平均报偿。这 些报偿可以写成一个7×7博奕矩阵,如下表所示(其中一些略去了小数, 这不影响下面的讨论):
乙
傻客 恶棍 冷血 恕道 侠义 流氓 摇摆 ·---------------------------· 傻客 |4,4|0,6|4,4|4,4|4,4|0,6|0,6| |---+---+---+---+---+---+---| 恶棍|6,0|②,②|2,2|2,2|2,2|3,1|2,2| |---+---+---+---+---+---+---| 冷血|4,4|2,2|④,④|④,④|2,2|3,1|2,2| |---+---+---+---+---+---+---| 恕道|4,4|2,2|④,④|④,④|3,3|2,2|2,2| 甲 |---+---+---+---+---+---+---| 侠义|4,4|2,2|2,2|3,3|2,2|2,2|2,2| |---+---+---+---+---+---+---| 流氓|6,0|1,3|1,3|2,2|2,2|④,④|2,4| |---+---+---+---+---+---+---| 摇摆|6,0|2,2|2,2|2,2|2,2|4,2|③,③| ·---------------------------·
上面这个表里面,有带圈数字的格子都是平衡点。比如,乙玩恶棍策 略时,甲无论玩什么,都不比当恶棍带来的好处更多,顶多不致受损而已。 因此,甲乙双方都当恶棍,次次都玩欺骗,便是重复囚犯博奕的平衡点之 一,此时各方的报偿与一次性博奕相同,都是2。