Category Archives: 博奕智慧

博奕智慧 ( 38 )

        「第四章:() 如何走出囚犯困境:走出囚犯困境 ( 5 )
 
        我們的第四點建議是:
 
        D)    不要耍小聰明
 
        經過前面很多篇的描述,我們已經知道,如果你總是想贏對方,結果可能得不償失,因為對方也會全力反擊,造成「兩敗俱傷」的局面。
 
        電腦程式的競賽已經說明,處在困境下的人,容易耍小聰明,然而複雜的程式並不比簡單的程式做得好。
 
        參加比賽的程式有許多設計得很複雜,以至於其它程式跟它相遇時不能將它的反應規律跟隨機反應的程式分開,對方不能從自己的反應,推斷該程式會如何反應,對方就不會感受到與你合作的激勵,因此複雜到它人難以理解的程度是很危險的,你會發現無人願意與你合作。

博奕智慧 ( 37 )

        「第四章:() 如何走出囚犯困境:走出囚犯困境 ( 4 )
 
        我們的第三點建議是:
 
        C)    對合作或背叛,都要給以回報
 
        「一報還一報」的電腦程式取得了突出的成功,它給我們一個啟示。無論對手如何反應,必需給以回報。羅伯特.愛克斯將62位參賽者送來的程式,在電腦上進行了第一輪的博奕,「一報還一報」的程式已經脫穎而出,所有參賽者都知道這個結果,各位參賽者在修改和完善了他們各自的程式後,在第二輪電腦程式博奕比賽中,又是「一報還一報」的極簡單的程式勝出。
 
        在一個極大的群體中,當博奕將持續進行,「未來」相對於「現在」是相當重要的情況下,「一報還一報」的策略是穩定的,當每個人都使用「一報還一報」的策略時,你最好也採用這個策略。
 
        「一報還一報」的策略,在對方合作時,總是合作的。在對方背叛時,保持了懲罰和寬恕的平衡。對方每次背叛,「一報還一報」祇背叛一次回應,對方合作,它就立刻響應,是否嚴格的一對一回報,才是最好的平衡?這還沒有定論。但有一點是清楚的,如用多於一次的背叛,就可能引起沖突升級,而少於一對一的回報,將存在被佔便宜的危險。所以,對參與博奕的人來說,最好的建議是對背叛和合作都要做出回報。

博奕智慧 ( 36 )

        「第四章:() 如何走出囚犯困境:走出囚犯困境 ( 3 )
 
        我們的第二點建議是:
 
        B)    不要首先背叛
 
        在參加羅伯特.愛克思的62個電腦比賽程式中,所有第一次與人相遇選擇背叛的程式,成績都很差,因為你最初的背叛,會引來背叛的報復,令你處於要麼被佔便宜,要麼雙方背叛的兩難境地,自己從一開始就應該是善良的。
 
        參加比賽的程式中祇有一個「邪惡」程式被命名為哈林頓,在初期的比賽中名列第八,但當電腦博奕不斷進行下去的時候,得分比它更低的程式逐漸消失,也就是說能被「聰明」的「邪惡」程式佔便宜的程式越來越少,接著哈林頓也終於消失了。電腦的模擬博奕說明,祇會佔「傻瓜」的便宜是沒有用的,「邪惡」的程式最終毀壞了自己成功所必需的環境,終歸還是失敗。

博奕智慧 ( 35 )

        「第四章:() 如何走出囚犯困境:走出囚犯困境 ( 2 )
 
        綜上所說,如想在一個重複囚犯困境中走出來,我們有四點建議:
 
        A)    不要嫉妒
 
        我們要從我們習慣的零和對局的思考中跳出來,他人所得不一定是你的所失。如果將他人的成功與自己的成功對立起來,就產了嫉妒,嫉妒導致企圖抵銷他人的成功,而要達致這個目的,祇能選擇背叛,但背叛會導致更多的背叛以及對雙方的懲罰,因此嫉妒會引導你走向一條失敗的路。「一報還一報」的策略之所以成功,不是靠打擊對方,佔對方便宜,而是靠引出對方選擇合作,而合作能雙贏。
 
        在一個非零和的世界裡,你沒有必要非得比對手做得好,祇要你自己能做好,就沒有理由去嫉妒他人的成功,因為在長時間的「囚犯困境」博奕中,其它人的成功其實對你有利。

博奕智慧 ( 34 )

        「第四章:() 如何走出囚犯困境:走出囚犯困境 ( 1 )
 
        上面提到「一報還一報」的程式獲得穩定的成功,原因是這個程式綜合了善良性 (從不首先背叛,從不嘗試佔他人便宜);報復性 (遭遇背叛它立即報復);寬容性 (如果對方從背叛轉為合作,它立刻接受合作);清晰性 (它的態度毫無曖昧)
 
        它的善良防止它陷入不必要的麻煩,它的報復性令對方不敢背叛,它的寬容性有助於重新恢復合作,它的清晰性令它容易被對方理解,從而實現長期的合作。

博奕智慧 ( 33 )

        「第四章:() 如何走出囚犯困境:【一報還一報程式】的重大勝利」
 
        參賽者設計的各種程式,大致可以分為「善良的」;「邪惡的」及「隨意的」三種類型。比賽結果也許令人有些出乎意料,「善良的」,即是以合作為主的程式大獲全勝,「邪惡的」,也就是以佔便宜為主導的程式,成積不佳。而最成功的程式是最簡單的,「一報還一報」的程式,即在第一次相遇時它選擇合作,以後的每一次選擇都重覆對方的上一步選擇。
 
        「一報還一報」的程式,它本身是善良的,永不主動的背叛,它也是不可欺負的,對每次對方的背叛,它也會立即以背叛回應,這一個程式不但在羅伯特.愛克斯的比賽中獲勝,也在實驗室運算中獲得證實。
 
        所以,在重覆多次博奕的情況下,「一報還一報」是一個最佳策略。
 
        一報還一報之所以成功,是因為它是善良的,放棄了佔他人便宜的可能性,儘管佔他人便宜,有時帶來利益,但試圖佔便宜而引起的問題也許更多。

博奕智慧 ( 32 )

        「第四章:() 如何走出囚犯困境:再談【囚犯困境】」
 
        為了論證面對「囚犯困境」時人們可選擇的策略以及這些策略的有效程度,美國的國際關係學學者羅伯特.愛克斯組織了一次以此為主題的電腦程式競賽。規則是這樣的:
 
        囚犯雙方都不知道對方將如何選擇,兩個不同的程式相遇,祇有四個可能,即:合作對合作;合作對背叛;背叛對合作及背叛對背叛。如果雙方選擇合作,可以同得3分。如果一方合作,另一方背叛,則背叛的一方可得5分,它佔到了便宜,合作一方得0分,那是「給笨蛋的報酬」扣3分。如果雙方都背叛,那麼都得到1分。
 
        62位專家寫了不同程式在電腦上相逢,經過無數次的博奕,最後以總積分的多少來判定勝負,有些程式永遠選擇背叛,有些程式永遠選擇合作,有些程式有時選擇背叛 (隨機的),有些程式有時選擇合作 (有序的),總之是各式各樣不同的程式,模擬現實生活中不同的處世態度。

博奕智慧 ( 31 )

        「第四章:() 如何走出囚犯困境:為什麼我們沒有成為【囚犯】?
 
        現實生活中的人,跟理論假定的「理性的人」是有區別的。
 
        我們看到地鐵,火車站,旅遊景點這些人流動性大的地方,商品和服務的品質通常會較差,甚至假貨橫行,這是因為在商家和顧客之間「沒有明天」,一個旅客不大會因為你的飯菜可口而再來光顧你的飯店,即使旅客買到了質量差的貨品,他也不願意長途跋涉再回來投訴。
 
        在公共汽車上,兩個陌生人可能會為爭座位而爭吵,但如果他們認識,就會互相謙讓。
 
        道德,法律,權力,利益的確認,都同我們「還要見面」有關。
 
        譬如兩個原始人見面,一個拿著獸皮,一個拿著果子,他們都想把對方的東西據為己有。如果他們的見面是偶然的,他們可能撕殺起來,強搶對方的東西。如果大家住在附近,是相識的,就會考慮到對方部族的報復,不敢強搶對方的東西,於是所有權就產生了。如果他們都想要對方的東西,以物易物,交易就產生了。
 
        還有社會的人跟人的博奕,不是孤立的事件,你可能一輩子都將另一個人踩在腳下,但如果因此而雙方都生活得很糟,那就不是好的選擇。
 
        兩個相鄰的國家,如果互相敵對,是一件很不幸的事,雙方不可能「搬家」,也不能壓倒對方,以前這樣的「宿敵」可以對抗幾百年,兩敗俱傷,現在大家都明白要合作,創造和平環境,通過合作締造雙羸。

博奕智慧 ( 30 )

        「第三章:() 納什均衡:誰該撥斷了線的電話?」
 
        假定某人正和女友通電話,通訊突然斷了,而話仍未說完,這時有兩個選擇,即立即打電話給對方或等對方打過來,如果雙方同時撥打,那雙方祇能聽到忙音,如果雙方都等待對方打來,則電話永遠不響了。
 
        這裡有兩個均衡:一個是男孩先打電話,而女友等在電話邊。另一個是女友先撥電話,而男孩等在電話邊。
 
        博奕的原理是:「納什均衡如果有兩個或兩個以上,結果就難以預料」,也就是說在這個案例中,博奕論沒有一個唯一的結論,告訴我們應怎麼做。
 
        在生活中我們祇能按照慣例,如果是戀愛中的男女,當然會由追求的一方主動再撥打電話。
 
        現在我們回顧一下,在同時行動的博奕中,我們有三種行動法則,一是尋找和運用「優勢策略」。二是尋找並避免劣勢策略。三是尋找和運用均衡。

博奕智慧 ( 29 )

        「第三章:() 納什均衡:警察與小偷」
 
        在美國的西部片裡,常能看到這樣的故事。
 
        某小鎮上祇有一名警察,他要負責整個小鎮的治安。在鎮的一端有一家銀行,另一端有一家酒館。而在鎮上有一名小偷,警察由於分身乏術,一次祇能巡邏一個地方,而小偷一次也祇能去一個地方。假定銀行裡有2萬元財產需保護,而酒館裡有一萬元財產需保護。又假定如果警察去了一地方,而小偷也去了該地方,小偷就被捉住。而小偷去了警察沒有巡邏的地方,則小偷成功偷取財物。那麼警察應該如何巡邏才能得到最好的效果呢?
 
        思考的出發點是:
        1)     警察應較多地照顧銀行,因為那裡有較多財產需保護。
        2)     警察應該不讓小偷知道他的行動規律。
 
        所以警察的最佳策略是:隨機抽籤決定去銀行還是酒館,而且應該有三支籤,兩支是銀行,一支是酒館。小偷的策略跟警察的策略一樣,雙方都沒有純優勢的策略,沒有均衡點,結果難料。