正文

8.博弈案例(4)

博弈生存 作者:潘天群


4.警察與小偷的故事——混合策略問(wèn)題

納什在《n人博弈的均衡點(diǎn)》這篇論文中,給出了均衡存在的簡(jiǎn)單證明,納什說(shuō),在n個(gè)人的博弈中至少存在一個(gè)均衡,在這點(diǎn)上雙方均不愿意先改變策略。這里的均衡點(diǎn)有可能是混合策略點(diǎn)。人們稱(chēng)它為納什定理。

什么是混合策略?

我們來(lái)看一個(gè)混合策略的例子。警察部門(mén)負(fù)責(zé)一城市中某一區(qū)的治安。警察要對(duì)該區(qū)的A、B兩地進(jìn)行巡邏。假定該區(qū)有一群小偷,要實(shí)施偷盜。警察要防止這些小偷的偷盜,但因?yàn)樵O(shè)備有限,只有一部警車(chē),警察只能一次在一個(gè)地方巡邏。而對(duì)于小偷而言,他們也只能去一個(gè)地方。假定A地需要保護(hù)的財(cái)產(chǎn)價(jià)值為2萬(wàn)元,B地的財(cái)產(chǎn)價(jià)值為1萬(wàn)元。若警察在某地進(jìn)行巡邏,而小偷也選擇了去該地,因警察在場(chǎng),小偷無(wú)法偷盜該地的財(cái)物;若警察沒(méi)有去某地巡邏而小偷選擇了去該地,則小偷偷盜成功。警察怎么巡邏才能使效果最好?

一個(gè)明顯的做法是,警察對(duì)A地進(jìn)行巡邏,小偷去B地,這樣,警察可以保住2萬(wàn)元的財(cái)產(chǎn)不被偷竊,而小偷的穩(wěn)定收益為1萬(wàn)元。但是這種做法是警察的最好做法嗎?警察有沒(méi)有比這種策略更好的策略?

我們可以將警察與小偷之間的這個(gè)支付寫(xiě)成如下的支付矩陣。警察巡邏某地,偷盜者在該地?zé)o法實(shí)施偷盜,假定此時(shí)小偷的得益為0(沒(méi)有收益),此時(shí)警察的得益為3(保住3萬(wàn)元)。

這個(gè)博弈也是常和博弈,它沒(méi)有純策略納什均衡點(diǎn),而有混合策略均衡點(diǎn)。這個(gè)混合策略均衡點(diǎn)下的策略選擇是每個(gè)參與人的最優(yōu)(混合)策略選擇。

小偷

警察 襲擊A地 襲擊B地

巡邏A地 3,0 2,1

巡邏B地 1,2 3,0

對(duì)于這個(gè)例子,警察的一個(gè)更好的策略是,警察用擲骰子的方法決定去A地還是B地。假定警察規(guī)定擲到1-4點(diǎn)去A地,擲到5、6兩點(diǎn)去B地,這樣警察有2/3的機(jī)會(huì)去A地進(jìn)行巡邏,1/3的機(jī)會(huì)去B地。

而小偷的最優(yōu)選擇是:以同樣擲骰子的辦法決定去A地還是去B地偷盜,如擲到1-4點(diǎn)去B地,擲到5、6兩點(diǎn)去A地,那么,小偷有1/3的機(jī)會(huì)去A地,2/3的機(jī)會(huì)去B地。

此時(shí)警察與小偷所采取的便是混合策略。

假如按這種策略,我們看一下雙方的收益。警察的期望得益是:7/3萬(wàn)大于2。警察按此辦法比只巡邏A地的收益更高。

一旦警察采取混合策略,小偷也采取混合策略,其最優(yōu)混合策略下的收益為2/3萬(wàn)元。小偷的收益比警察只巡邏A地的收益要低。

因?yàn)椋寒?dāng)警察去A地巡邏時(shí),小偷有1/3的機(jī)會(huì)去A地,2/3的機(jī)會(huì)去B地,此時(shí)警察去A地的得益為: 萬(wàn)元;當(dāng)警察去B地時(shí),同樣,小偷有1/3的機(jī)會(huì)去A地,2/3的機(jī)會(huì)去B地,此時(shí)警察A地的得益為: 萬(wàn)元。

警察總的得益為: 萬(wàn)元。

同理,我們可得小偷的總的得益為2/3萬(wàn)元。

這里我們“讓”警察和小偷擲骰子以確定去A地還是去B地,目的是要去A地和去B地之間確定一個(gè)概率分布,他們當(dāng)然可用其他方式來(lái)確定這個(gè)概率分布。

宰割博弈中警察與小偷所用的混合策略,如同小孩子之間玩“剪刀-石頭-布”的游戲時(shí)所用的策略。在“剪刀-石頭-布”這樣的游戲中,不存在純策略均衡,對(duì)每個(gè)小孩來(lái)說(shuō),自己采取出“剪刀”、“布”還是“石頭”的策略應(yīng)當(dāng)是隨機(jī)的,不能讓對(duì)方知道自己的策略,哪怕是傾向性的策略。如果對(duì)方知道你出其中一個(gè)策略的可能性大,那么你在游戲中輸?shù)目赡苄跃痛?。因此,每個(gè)小孩的最優(yōu)混合策略是采取每個(gè)策略的可能性是1/3。在這樣的博弈中,每個(gè)小孩各取三個(gè)策略的1/3是納什均衡。

由此可見(jiàn):純策略是參與人一次性選取的,并且堅(jiān)持他選取的策略;而混合策略是參與人在各種備選策略中采取隨機(jī)選取的。在博弈中,參與人可以改變他的策略,而使得他的策略選取滿(mǎn)足一定的概率分布。

若博弈是零和博弈,即若博弈參與人為兩人,一方所得是另外一方的所失,或者若博弈是常和博弈,即若博弈參與人為兩人,一方所得的增加等于另外一方的損失,此時(shí),對(duì)于任何一個(gè)參與人而言,都不可能有純策略的占優(yōu)策略。博弈參與人采取混合策略是合適的,均衡為混合策略均衡。如在當(dāng)前的“反恐”博弈中,由于力量的有限,反恐方往往“更多地”將力量放在重點(diǎn)區(qū)域,如人口密集的大城市,“一定程度地”關(guān)注不太危險(xiǎn)的區(qū)域,如人口稀疏的農(nóng)村。這就是混合策略。而恐怖分子同樣在玩混合策略:對(duì)攻擊對(duì)象的選擇是隨機(jī)的,對(duì)攻擊方式的選擇也是隨機(jī)的。

在競(jìng)爭(zhēng)性的博弈中,該采取混合策略而不采取混合策略將會(huì)帶來(lái)失敗。田忌賽馬是人人熟悉的故事。齊王與田忌賽馬,但齊王的馬平均來(lái)說(shuō)要比田忌的馬要跑得快,但田忌采納了孫臏的策略,田忌用下等馬對(duì)齊王的上等馬,上等馬對(duì)齊王的中等馬,中等馬對(duì)齊王的下等馬。田忌以三比二獲勝,贏了齊王。賽馬是零和博弈,齊王的失敗在于他使用了純策略;若齊王使用混合策略,即每次比賽用馬采取隨機(jī)策略,不讓田忌預(yù)先知曉,那么田忌獲勝的機(jī)會(huì)必定大大小于齊王獲勝的機(jī)會(huì),齊王不會(huì)發(fā)生必輸?shù)慕Y(jié)局。因此,齊王的錯(cuò)誤在于沒(méi)有使用混合策略。

應(yīng)當(dāng)說(shuō)明的是,田忌賽馬是著名的中國(guó)古代博弈故事。但其田忌獲勝的博弈結(jié)果則不是博弈論所能夠給出的。博弈論假定了每個(gè)參與人都是絕頂聰明的(理性的),博弈論給出的是,田忌和齊王都應(yīng)采取混合策略,此時(shí)有一個(gè)混合策略均衡。田忌賽馬從反面印證了納什均衡的含義:若某個(gè)參與人主動(dòng)改變均衡策略,他的收益會(huì)降低。這里,主動(dòng)改變均衡策略而收益降低的參與人是齊王。


上一章目錄下一章

Copyright ? 讀書(shū)網(wǎng) www.autoforsalebyowners.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)