会员书架
首页 > 游戏竞技 > 反复博弈最佳策略 > 第1部分

第1部分(第3/4 页)

目录
最新游戏竞技小说: 电竞曙光绝地枪王我踢前锋,老爹是老板宠后我打黑拳的那些年菜鸟小凡的游戏生涯全球怪物入侵,开局二郎神护体海上开局两脚地,别人求生我求神御兽飞升NBA:天赋拉满,带着卡特夺冠上帝时刻开局解约,我用足球征服欧洲我的弟子遍布全球NBA:从神级签到系统开始无敌求生:开局战五渣,全靠宠物带躺全民神祇:从鼠人到战争神王!冷傲君少三岁半网游:每天获得士兵不过分吧逆水寒:开局掉落琼华白羽!网游,我的运气有亿点点好网游之异世入侵

些内容呢?

第一, 一个博弈涉及至少两个独立的博弈参与人(player)。

一个博弈是一个活动,该活动至少有两个参与人,下文有时将参与人称为行动者。每个参与人通过行动,努力使自己的效用或利益最大化。但是,他的行动的好处或支付取决于另外的参与人。

“囚徒博弈”或“囚徒困境”是一个被广泛谈及和研究的博弈。两个共同作案偷窃的小偷被警察抓住,被带进警察局单独关押。他们面临的“政策”是“坦白从宽,抗拒从严”,具体的政策是:如果一方与警方合作,招认并供出自己与对方以前所做违法之事,而对方不招认,招认方无罪释放,不招认的另一方则会被判重刑10年;如果双方都与警方合作共同招认,各被判刑5年;而如果双方均不承认有罪,因警察找不到他们以前违法的证据,只能对他们的小偷行为进行惩戒,各被判刑3个月。这两个小偷如何作出选择?

在这个囚徒困境中,参与人为两个小偷。每个小偷的最后结果——是当场释放还是被判刑(10年、5年、3个月),不仅取决于他自己的决定,而且还取决于另外一个小偷的决定。

买卖活动是日常生活中的常见现象。我们知道,在买卖的交换行为中,买东西的人要尽量以低的价格买到,但是他是否能买到取决于卖者是否能卖;卖东西的人想以尽量高的价格将东西卖出去,但价格太高,买者不接受,因此卖东西的人能否将物品卖出去取决于买者。

囚徒困境是一个博弈,买卖的交易活动也是博弈。我们可看到,在任何一个博弈之中,至少存在两个理性的参与人,他们的利益是相关的,即他们每个人的利益受其他人的行动影响。

博弈中行动者或参与人存在策略(strategy)选择的可能。

博弈论用策略空间来表示参与人可以选择的策略集。

赤壁一战,曹兵大败,曹操落荒而逃,在选择是走通往华容道的小路,还是选择大路时,曹操需要在两个策略之间进行选择:“走大路”还是“走小路”。曹操最终选择“走小路”。囚徒困境中的小偷面临着“不招认”还是“招认”的选择。

不同策略下的后果往往是有差异的,否则便不存在选择的必要。对每个参与人而言,如果没有不同选择的可能,理性的计算便是多余的,对自己的目标也就无能为力。从这个意义上来讲,我国改革开放走向市场经济,就是使得每个经济主体有选择的可能,这样人们才能发挥其理性的作用,使每个人的经济状况更好,而在计划经济下因没有可选择的余地,每个人的理性计算能力便无从施展。

参与人在不同策略组合下会得到一定的支付(payoff)。

我们往往用支付矩阵来表示参与人在各种策略组合下的支付。1这个方法简单,比用函数来表示直观、易于理解,当然它的缺陷是,它只能表示两个人的博弈结构。囚徒困境的支付矩阵为:

基本术语(2)

乙 不招认 招认 不招认 各被判刑3个月 甲:当场释放

乙:被判刑10年, 招认 甲:被判刑10年

乙:当场释放 各被判刑5年这个矩阵表示的是:若甲选择“招认”、乙选择“招认”,甲乙各被判刑5年;若甲选择“招认”、乙选择“不招认”,甲被当场释放,乙被判刑10年;若甲选择“不招认”、乙选择“招认”,甲被判刑10年,乙被当场释放;若甲选择“不招认”、乙选择“不招认”,甲乙均被判刑3个月。

我们再来刻画一交易过程的支付矩阵。在卖主甲和买主乙之间的“买—卖”博弈中——这是一讨价还价过程,通过讨价还价后一个价格被确定。在此价格下我们假定,卖者卖成后获得的效用为6,卖不成的效用为0;买者买成的效用为4,买不成的效用为0。而如果他们之间的交易不成功,无论是买主还是卖主都要等待并再次进行讨价还价,这需要成本。假定等待和讨价还价的成本均为1,则支付矩阵为:

甲 买成 买不成 卖成 6,4 5,0 卖不成 0,3 0,0 这两个矩阵表明,在每个策略组合下参与人有一个收益值或支付值。

第四,对于博弈参与人来说,存在一个博弈结果。

所谓博弈结果是指,一个博弈中参与人最终对策略的选择而产生的确定性的支付。如在曹操败走华容道的博弈中,诸葛亮在“埋伏大路”与“埋伏通往华容道的小路”之间进行选择,而曹操需要在“走

本章未完,点击下一页继续。

目录
赏味期限凡人飞仙传魔战于野玄日狩极品全家拒当对照组[六零]相思漓城1:复仇天使+相思漓城2:夏末生生
返回顶部