更新时间:2017-08-25

博弈论:第九课:混合策略

一、混合策略的定义
Pi(Si):表示参与人 i 采用 Si 策略的概率
如果混合策略,赋予某个纯策略的概率为 1 ,其他纯策略概率为 0 ,也就变成一个纯策略了。
换而言之,纯策略是混合策略的特例。




混合策略 Pi 的预期收益为,它每个纯策略预期收益的加权平均数。
举例:


(其中,I 、II 表示参与人1和2,颜色字体分别对应每个选择的概率,红色表示参与人 I 选择 A 和 B 的概率,蓝色表示参与人 II 选择 a 和 b的概率 )
那么这个博弈中,参与人 i 的预期收益如何计算?
1)首先:
选项 A 对参与人 II 选择的预期收益:Eu1(A,Pii)= 2 * 1/2 + 0 * 1/2 =1
选项 B 对参与人 II 选择的预期收益:Eu1(B,Pii)= 0 * 1/2 + 1 * 1/2 = 1/2
2)那么:
Eu1(Pi ,Pii)= 1/5 * Eu1(A,Pii)+ 4/5 * Eu1(B,Pii)= 3/5




由上面的结果,我们易知:
Eu1(Pi ,Pii)介于 其两个选项 A 和 B 的预期收益 Eu1(A,Pii)和 Eu1(B,Pii)之间,在这个例子中3/5正好介于1 和1/2之间
也即,任何混合策略的预期收益都在它的每个纯策略的预期收益之间

这样,我们可以得到一个推论
推论1:当某个混合策略为一个博弈的 BR 时,它的每个纯策略都是 BR,别且它们和混合策略的预期收益都相同



二 、混合策略的纳什均衡:
定义:
对于一个混合策略集合(P1*,P2*......Pi*,.......Pn*),当且仅当,对于任意参与人 i 在面对 P - i*时,他的混合策略 Pi* 是该参与人的最佳对策



那么我们设想一个混合策略集是纳什均衡时,由推论1可知 ——
推论2:这个纳什均衡中任意Pi ,一定有其每个纯策略都是这个博弈的最佳对策(BR),别且每个纯策略的预期收益都与混合策略的预期收益相同


举例,网球博弈如下图:


(注:这个博弈是网球击球博弈,其中L / R分别代表 决策人 I 是像左击球还是向右,l / r 则表示决策人II 是向左防守还是向右防守。
其中的数字,分别代表两个决策人在选择了策略后他们得分的概率,之所以在猜错边依然不能100%得分,是因为有可能会基础边线。而之所决策人 II猜到 I 打右边仍旧 是20:80,不是50:50,是因为考虑到 I 的右边正好是 II 的左边为非利手方向难以防守。
很明显这个博弈不存在纯策略的NE,所以不同颜色的 p 和 q 代表了允许使用混合策略时它们对纯策略的概率选择)



那么我们如何求出 p 和 q 的值呢?
根据推论2可知:
对于决策人 I 有, Eu1(L,Pii)= Eu1(R,Pii)
即,50q +80(1 - q)= 90q + 20(1 - q)
则 q = 0.6
同理,可得 p = 0.7
则,这个网球博弈的 NE = [(0.7,0.3),(0.6,0.4)]


我们继续思考这个NE的结论,它到底有什么实际意义呢?
如果你发现,参与人 II 的 防守左边的概率 大于均衡q ,即0.6,那么你该怎么做?
答案是,一直打右边 —— 一个纯策略。
如果参与人 II 防守左边的概率小于0.6,你该怎么做?
答案是,一直打左边........
(我最初看到这个结果蛮懵比的,后来想想,如果0.6是Eu1(L,Pii)和 Eu1(R,Pii)的分界,那么当大于或小于0.6时,两者就不相等了。显然是,大于0.6时, Eu1(R,Pii)>Eu1(L,Pii),所以为了最大化我们的利益,肯定是一直打右边啊........同理,小于0.6时,一直打左边。)




我们继续来思考另一个问题,如果 II 选手经过练习,改变了左边防守的收益,如图:

(黄色部分为改变收益的部分,原来为50;50)


那么,NE情况下q 如何变化?
对于这个重新改变的博弈,存在着对 q 的两种影响:
1)直接影响:练习正手接球,使得参与人 II 更自信面对,从而使得他更多增加防守左边的概率,也即 q 增大
2)战略影响:在参与人 II 练习之后, 参与人 I 知道了这个状况,因此他便不再发到左边了,跟多发向右边。参与人 II 根据 I 的改变,自然更多防守右边了。从而使得q 减小


那么哪种影响主导了 II 的选择?即 q 值的变化呢?
我们重新计算这个新博弈的 q 值,30q + 80(1 - q)= 90q + 20(1 - q)
则,q = 0.5
可以发现,起到大多数影响的是2)。



(注:这个结论蛮让我震惊的。直接影响竟然小于战略影响,或者说对自身技术的提高,并不一定对结产生影响,博弈才是精髓。
但是,后来我考虑了一下,发现要论证这个结论是有条件的。那就是,充分知情。也就是决策人 I 对决策人 II 的变化充分知情。但是现实中,这很难保证。并且,这是在不断博弈后达到NE后的 q值,如果没有达到 NE之前的这段“漫长时间”,此时的q 的波动如何?这很难说。我猜,q 还是先升高,高出原来的q 值,然后随着了解不断下降。这时候技术的增长被适应了,当然战略因素体现出来了......而老师用这个论证博弈论比提升实力重要,有点那啥哈..... )









博弈论Game Theory(2007)

主演:Christine Ajisafe David Mills Boynton Lian Chang Chike Chukwuma Abe Danz 

导演:Meredith Finkelstein / Paul Vlachos / 编剧:Meredith Finkelstein/Paul Vlachos