耶鲁公开课--博弈论笔记

耶鲁公开课—博弈论笔记第一节、名词解释优势策略（Dominant strategy ）：不论其他局中人采取什么策略，优势策略对一个局中人而言都是最好的策略。即某些时候它胜于其他策略，且任何时候都不会比其他策略差。注：1、“优势策略”的优势是指你的这个策略对你的其他策略占有优势，而不是无论对手采用什么策略，都占有优势的策略。 2、采用优势策略得到的最坏的结果不一定比采用另外一个策略得到的最佳的结果略胜一筹。严格劣势策略(strictly dominated strategy)：被全面的严格优势策略压住的那个策略，也就是说不是严格优势策略以外的策略。弱劣势策略：原来不是严格劣势策略，但是经过剔除严格劣势策略后，这个策略就成了严格劣势策略。例：囚徒困境囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：若对方沉默、背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2 年。例：协和谬误 20 世纪 60 年代，英法两国政府联合投资开发大型超音速客机，即协和飞机。该种飞机机身大、装饰豪华并且速度快，其开发可以说是一场豪赌，单是设计一个新引擎的成本就可能高达数亿元。难怪政府也会被牵涉进去，竭力要为本国企业提供更大的支持。项目开展不久，英法两国政府发现：继续投资开发这样的机型，花费会急剧增加，但这样的设计定位能否适应市场还不知道；但是停止研制也是可怕的，因为以前的投资将付诸东流。随着研制工作的深入，他们更是无法做出停止研制工作的决定。协和飞机最终研制成功，但因飞机的缺陷（如耗油大、噪音大、污染严重等）以及运营成本太高，不适合市场竞争，英法政府为此蒙受很大的损失。在研制过程中，如果英法政府能及早放弃，本来可以使损失减少，但他们没能做到。最后，英国和法国航空公司宣布协和飞机退出民航市场，才算是从这个无底洞中脱身。这也是 “壮士断腕”的无奈之举。人们往往会陷入类似的误区：一项工作的成本越大，对它的后续投入就越多。其实不仅是在制造协和飞机这样的重大项目上，就是在日常的生活中，人们在决定是否继续做一件事情的时候，不仅是看它对自己有没有好处，而且也过于注意自己是不是已经在这件事情上面有过投入。我们把那些已经发生、不可收回的支出，如时间、金钱、精力称为“沉没成本”。沉我们把那些已经发生、不可收回的支出，如时间、金钱、精力称为“沉没成本”。沉没的意思是说，你在正式完成交易之前投入的成本，如果一旦交易不成，就会白白损失掉。没的意思是说，你在正式完成交易之前投入的成本，如果一旦交易不成，就会白白损失掉。但如果对沉没成本过分眷恋，就会继续原来的错误，造成更大的亏损。但如果对沉没成本过分眷恋，就会继续原来的错误，造成更大的亏损。在第一节课中得出的五个结论：1、不要选择劣势策略 2、理性选择导致次优结果 3、站在他人立场分析他们会怎么做 4、先弄清你想要的，才能得到你想要的 5、人人都是自私的第二节、囚徒困境的解决之道：1、多次博弈；2、设立规章制度，惩罚违规者；3、思想教育（效果待定）。博弈的要素：参与者 i；策略 S；收益 U。符号的定义： Si 表示参与者 i 的策略。S-i 表示除参与者 i 以外其他人的策略。Ui 表示 i 的收益。名词解释：共同知识：我知道这件事；你也知道这事；我知道你知道这事；你知道我知道你知道这事这事；此后循环。案例：老师在课堂上让每位学生从1-100 中选择一个数字。选择到最接近全班平均数的2/3 的学生为胜利者。学生共有50 个左右。胜利者平分奖金5 美元。解决方案：step1、假设每个人都选择100，平均数100*2/3＝66.66。所以不能选择67-100 之间的数（严格劣势策略）。现实中有两名学生选择了。 step2、剔除了 step1 中的严格劣势策略后，重复迭代，66*2/3＝44。所以不能选择 44-67 之间的数（弱劣势策略）。现实中有四名学生选择了。 step3、44*2/3＝29，所以不能选择 29-44 之间的数。现实中有 13 个左右选择了 30-34 区间，。选择这个数区间的学生想法是1-100 平均数是 50， 50*2/3＝33，所以选择 33 附近的数可能比较接近。这些学生低估了其同班同学的智商。 step4、29*2/3＝19，所以不能选择 19-29 之间的数。现实中有 12 个选择了。选择这个区间的学生就像螳螂捕蝉中的螳螂，却没有想到还有更多的黄雀在后。 . . 这么一直迭代下去，理论上如果所有学生都是理性人。平均数应当是1。现实中有 12 个学生选择了 1。应该说选择了1 的学生都看出了这个博弈的窍门。但是他们的选择不是最接近平均数的。因为在现实中不可能所有人都是理性人。最终 12 是最接近平均数 2/3 的数。有 9 人选择了这个数。结论：迭代剔除劣势策略是个好的方法，但在现实中不能过度迭代。因为不是所有人都是理性人，而且不是所有人都有共同知识（概念见前述）。应用案例：中间选民定理两个政治候选人，为了选举须确定自己的政治立场。共有10 个立场：1、2、3、4、5、6、7、 8、9、10。第个立场都有10%选票。两个候选人要在一系列的政治主张中选择一个。规则：选民会投票给观点最相近的候选人。距离相等，该立场平分选票。候选者希望选票最大化。 step1：试证明:S2 优于 S1。比较 1 号候选人选择 S1,S2 其利益 U1 的大小。当 2 号候选人选择 1 号策略 S1 时 U1(1、1)[表示2 号候选人选择S1，1 号候选人选择S1]为 50% U1(2、1)[表示2 号候选人选择S1，1 号候选人选择S1]为 90% 当 2 号候选人选择 2 号策略 S2 时 U1(1,2)=10% U1(2,2)=50% 当 2 号候选人选择 3 号策略 S3 时 U1(1,3)=15% U1(2,3)=20% 当 2 号候选人选择 4 号策略 S4 时 U1(1,4)=20% U1(2,4)=25% . . 下面选择 S2 得票率都比 S1 大 5%，所以 S2 严格优于 S1。同理 S9 优于 S10。 step2：试证明：S3 优于 S2 剔除劣势策略 S1，S10 当 2 号候选人选择 2 号策略 S2 时 U1(2,2)=50% U1(3,2)=80% 当 2 号候选人选择 3 号策略 S3 时 U1(2,3)=20% U1(3,3)=50% 当 2 号候选人选择 4 号策略 S4 时 U1(2,4)=25% U1(3,4)=30% 当