第四节 占优策略
4.1 什么是占优策略(Dominated Strategies)
博弈论中最重要的概念是占优(Dominance)。粗略地说,一个战略是被占优的(或称劣的),如果不管参与人预期他的对手如何行动,其他战略都比该战略有更好的支付。最强的占优概念是严格占优(Strict Dominance)。
占优战略发挥作用的一个著名博弈是表4-2中的一次性囚徒困境博弈(One-shot Prisoner's Dilemma Game)。在这个博弈中,无论对手如何行动,B都优于A。如果我们剔除战略A,则唯一的预期结果是两个参与人都选择B。但值得注意的是,(A, A)帕累托占优(Pareto Dominates)(B, B),这就是称其为困境的原因。
表4-2 一次性囚徒困境博弈
在这个例子中,不管是被占优战略还是占优战略都是纯战略。它们不具有一般性。更准确地说,一个纯战略能够被一个混合战略严格占优而不被任何纯战略占优。如表4-3所示,对于参与者1来说,战略C并不被战略A或B占优,但是它被A和B的50-50混合战略占优。而且,尽管任意一个给被占优的纯战略分配正的概率的混合战略是被严格占优的,但是给每一个被占优的纯战略分配的概率等于零的混合战略也可能是被严格占优的。
表4-3 被一个混合战略占优的纯战略
如果参与者1的一个战略是被严格占优的,那么这里有几个原因来解释为什么参与者2会给这个战略分配零概率。首先,传统的解释是:如果参与者2知道参与者1的支付函数,知道参与者1是理性的,则参与者2能推断出参与者1不会使用被严格占优的战略。其次,如果一个战略是被严格占优的,则参与者1没有理由采取该战略,因此参与者2最终知道这个被占优的战略不会被使用。
每一种情况都导致重复剔除严格占优的思想。这个想法认为剔除一个参与者的某些战略将有可能剔除其他参与者的某些战略,以此类推(可以证明,只要提出过程一直持续到不能再剔除为止,那么战略被剔除的顺序就是无关紧要的)。这里我们并不对重复剔除严格占优下一个正式定义,但表4-4中的例子会很清楚地说明这个想法。对于参与者2来说,没有一个战略是被占优的,但是对参与者1来说,战略A是被严格占优的。剔除这个战略产生了表4-5中的博弈。在这个博弈中,对参与者2来说,B是被严格占优的,因此重复剔除严格占优后的唯一幸存者是(B, A)。但是参与者2必须确保参与者1不会采取战略A,因为采取(A, A)会给他带来较大的损失。结果,只要参与者1有很小的概率采取战略A,则对均衡(B, A)的预测就可能被推翻(参与者1可能有机会获得与上面不同的支付,或参与者1可能会犯错)。
表4-4 对参与者1来说B占优A
4.2 纯策略占优
4.2.1 数学框架
现在我们考虑一个一般性的博弈,在这个博弈中参与者属于一个有限的集合i∈I={1,2, …, I}(I≥2)。每一个参与者i∈I有一个非空有限的策略集合si∈Si。我们用S来代表笛卡儿乘积。S中的一般元素用s来表示。如果对于i∈I,笛卡儿乘积用S-i来表示,S-i中的一般元素用s-i来表示。
下面再引入一个单独的有限集合A来表示这个博弈的所有可能的结果。A中的一般元素用a, b, c, …来表示。我们可以设想A中的元素是用来说明影响参与者偏好的因素的。接下来需要引入一个映射 g:S→A,能够将每一个可能的策略组合映射成这个博弈的结果。
每一个参与者i有一个对A的偏好关系Ri,那么aRib表示:i发现a结果至少和b结果一样好。对于每一个i, Ri具有完全性、反身性和传递性。每一个参与者i可以从Ri中衍生出另外两种关系:第一个关系是Pi,表示严格偏好,即:aPib成立当且仅当aRib成立,而bRia不成立;第二个关系是Ii,表示无差别偏好,即:aIib成立当且仅当aRib和bRia同时成立。
4.2.2 策略选择研究
根据以上所介绍的有关偏好的内容,我们将对博弈参与者策略选择作出分析。为了更加精确,我们称每一个参与者是“理性的”,参与者最大化效用方程的预期收益,而这个效用方程又和他对纯策略结果的偏好是一致的。因此,要运用对其他参与者的策略选择所衡量出来的主观可能性来计算预期收益。
对于给定的i∈I,映射ui:A→IR称为参与者i的效用方程,当且仅当对于所有的a, b∈A:ui(a)≥ui(b)⇔aRib。“对参与者i的主观可能性的度量”是一个在S-i上的可能性度量μi。这样,我们所感兴趣的策略选择就可以用如下的方式表达:
定义1 i∈I, si∈Si,那么如果对一个参与者i有一个效用方程ui和一个主观可能性度量μi,那么si就称为是“合理的”。对于所有的s-i∈Si
我们希望能够将在定义1中的合理的策略刻画为“非占优策略”。在最初的阶段,我们所考虑的最大化预期效用的策略是在参与者的信仰等被预先确定了的前提下的。
定义2 i∈I,令-S-i表示S-i的一个非空子集。对于一个参与者i,如果有一个效用函数ui和一个主观可能性度量μi,一个策略si∈Si被称为合理给定的-S-i,对于所有的s-i∈Si
下面我们来说明当某个集合-S-i在假定只考虑在-S-i集合中的策略的情况下,当且仅当它是被弱占优的时,称这个策略为合理的。因此,“弱占优”的定义如下:
定义3 i∈I,令-S-i表示S-i的一个非空子集,在下面的情况下,si∈Si被称为弱占优:如果有一个策略s-i∈Si对于所有的s-i∈-S-i:g(s-i, s-i)Rig(si, s-i)。
例1 考察一个两人博弈,博弈方1的收益矩阵如式(4.13)所示。从而,博弈方1有三个纯策略。他的第三个纯策略不被他的另外两个纯策略占优。但是,通过在其他两个策略上随机选择,他总会得到更高的收益。正式地,令,那么对所有的 z2∈Δ2,有1 =u1(x1, z2)<,因此y1严格占优x1。
非协同博弈论的一个基本的理性假设是,“理性的”博弈方从不运用严格被占优策略。在这种情况下,从博弈中剔除所有的严格被占优策略不会影响博弈结果。然而,一旦这样做了,在缩减过的新博弈中,某些留下来的纯策略可能会是严格被占优的。在博弈中反复剔除严格被占优策略得到了如下定义:如果纯策略si∈Si在原始的博弈G中没有被严格占优,在从博弈G中剔除被占优策略后得到的简化的博弈G1中也没有被严格占优,在从G1中剔除严格被占优的策略后得到的进一步简化的博弈G2中也没有被占优,以此类推,直到这样做不能剔除任何其他的策略了,即对某个正整数t, Gt+1=Gt,那么称纯策略si∈Si不是重复剔除严格被占优的。由于博弈方和纯策略都是有限多个的,所以经过有限轮的重复剔除之后,这种剔除过程就结束了;而且,可以证明,剩下的策略集独立于具体的剔除程序。
例2 式(4.14)中的收益矩阵对表示了另一个严格占优可解的博弈。对这两个博弈方来说,纯策略2都被策略1(也被策略3)严格占优。一旦策略2从每个博弈方的策略集中剔除掉,对两个博弈方而言,策略1都严格占优策略3。因此,剩下来的唯一的纯策略组合是SD={(1,1)}。
博弈方不会运用严格被占优策略的假设是一个比较弱的假设,因为它只要求每个博弈方的纯策略收益函数确实表示他的偏好。尤其是,这个假设不要求一个博弈方知道其他博弈方的偏好或者行为。相反,运用重复剔除严格被占优策略还另外要求博弈方知道彼此的收益函数,从而他们就可以剔除彼此的严格被占优策略。而且所有的博弈方必须知道偏好的信息,这样他们才能够剔除在经过一轮的删除严格被占优策略后的简化的博弈中被严格占优的其他人的策略,以此类推,直到进一步的重复剔除不能剔除任何策略为止。
4.2.3 最优反应
博弈方i对策略组合y∈Ψ的纯最优反应是一个纯策略si∈Si,而他的其他对y的纯策略带来的收益都不会高于si。这就定义了博弈方i的纯策略最优反应对应:βi:ψ→Si,它将每个混合策略组合y∈Ψ映射到博弈方i对y的纯最优策略的非空有限集合:
由于每个混合策略xi∈Δi是纯策略的凸组合,并且ui(xi, y-i)是xi∈Δi的线性函数,所以针对y∈Ψ的混合策略xi∈Δi带给博弈方i的收益不会超过他对y的任何纯最优反应带来的收益。正式地,对任何y∈Ψ, xi∈Δi和h∈βi(y)
因此
博弈方i对策略组合y∈Ψ的混合最优反应是策略xi∈Δi使得其他针对y的策略带来的收益不高于xi带来的收益。上面已经指出,每个纯最优反应如果被视为混合策略,那么它也是混合最优反应。而且,由于ui(xi, y-i)是xi的线性函数,所以纯最优策略的凸组合是混合最优反应。相应地,博弈方i的混合策略最优反应对应将每个混合策略组合y∈Ψ映射到针对y的纯最优反应张成的Δ的面上: