今年2月,來自Google、DeepMind、卡內(nèi)基梅隆大學(xué)和牛津大學(xué)的研究人員提出了Hanabi基準(zhǔn),并提出了更多的人工智能可以玩這個(gè)游戲,以實(shí)現(xiàn)“人工智能研究的新挑戰(zhàn)”。參與該項(xiàng)目的研究人員認(rèn)為,弄清楚怎樣玩好Hanabi,這對(duì)于人工智能來說可能是一個(gè)重大進(jìn)步,并且有助于其在聊天和自動(dòng)駕駛等應(yīng)用場(chǎng)景中與人類進(jìn)行更加流暢的互動(dòng)。
與國(guó)際象棋或圍棋這些AI挑戰(zhàn)人類的其他游戲不同,Hanabi是一種合作游戲,參與者可以共同努力,朝著一個(gè)共同的目標(biāo)努力。這款游戲最大的特點(diǎn)在于,牌是向著別人握的,玩家看不見自己的牌,但所有其他人都看得見。大家的目標(biāo)是下牌到桌面上讓五種顏色的牌都順著從1到5排列出來。
曾經(jīng)發(fā)表過相關(guān)論文的牛津大學(xué)研究員Jakob Foerster說,“Hanabi是一個(gè)關(guān)于溝通和合作的游戲,人工智能目前還沒有深入這一游戲領(lǐng)域。”
“其中一件非常令人興奮的事情是,我們所觀察到的改進(jìn),與通過深度強(qiáng)化學(xué)習(xí)所觀察到的改進(jìn),是完全正交的:你可以在任何策略之上加上這個(gè),效果會(huì)更加強(qiáng)大。”Facebook AI研究員Noam Brown在電話采訪中這樣告訴VentureBeat。“我們看到的結(jié)果遠(yuǎn)遠(yuǎn)超出了我們或其他研究人員的預(yù)期。實(shí)際上,我們從搜索中獲得的好處,要強(qiáng)于過去使用的所有深度強(qiáng)化學(xué)習(xí)算法所獲得的好處。”
據(jù)了解, 這次Facebook的Hanabi AI項(xiàng)目借鑒了Pluribus的一些搜索技術(shù),Pluribus是Facebook于今年早些時(shí)候推出的一款玩撲克的AI,擊敗了一些人類冠軍。
報(bào)道稱,F(xiàn)acebook的AI團(tuán)隊(duì)通過將搜索技術(shù)與深度強(qiáng)化學(xué)習(xí)結(jié)合起來實(shí)現(xiàn)了這一壯舉。搜索算法把一個(gè)代理之外的所有代理執(zhí)行商定的策略將問題轉(zhuǎn)換為單個(gè)代理設(shè)置,這是一種被稱為“藍(lán)圖”(blueprint)的強(qiáng)化學(xué)習(xí)算法。根據(jù)一篇題為“通過在合作部分可觀察的游戲中搜索來改進(jìn)策略” 的論文,這一算法允許搜索代理“將其他代理的已知策略作為環(huán)境的一部分進(jìn)行處理,并基于其他行為來維護(hù)對(duì)隱藏信息的信念。”
來源 | 雷鋒網(wǎng)
作者 | 周蕾