?Jacob, Athul Paul, et al. "The consensus game: Language model generation via equilibrium search." arXiv preprint arXiv:2310.09139 (2023).

“針對(duì)這些模型內(nèi)部一致性的研究非常有限,”機(jī)器人公司Field AI的首席科學(xué)官Shayegan Omidshafiei說(shuō)。“這篇論文是第一批巧妙而系統(tǒng)地解決這個(gè)問(wèn)題的論文之一,它為語(yǔ)言模型創(chuàng)建了一個(gè)可以自我博弈的游戲。”[3]

“這確實(shí)是一項(xiàng)非常激動(dòng)人心的研究,”Google Research的研究科學(xué)家Ahmad Beirami說(shuō)。他指出,多年來(lái),語(yǔ)言模型對(duì)提示的響應(yīng)方式一直沒(méi)有變化。“麻省理工學(xué)院的研究團(tuán)隊(duì)通過(guò)引入博弈機(jī)制,為這一流程帶來(lái)了全新的范式,可能會(huì)催生許多新的應(yīng)用場(chǎng)景。”

將博弈融入研究

這項(xiàng)新的研究利用博弈來(lái)提升人工智能,與過(guò)去通過(guò)游戲來(lái)衡量人工智能成功與否的方式形成對(duì)比。

例如1997年,IBM的“深藍(lán)”計(jì)算機(jī)擊敗了國(guó)際象棋大師Garry Kasparov,這標(biāo)志著思維機(jī)器的一個(gè)里程碑。19年后,Google DeepMind的AlphaGo在對(duì)戰(zhàn)前圍棋冠軍李世石的五局比賽中贏得四局,揭示了另一個(gè)人類(lèi)不再稱(chēng)霸的競(jìng)技場(chǎng)。[4]此外,機(jī)器還在跳棋、雙人撲克及其他零和游戲中超越了人類(lèi),這些游戲中一方的勝利必然意味著另一方的失敗。

而對(duì)AI研究者來(lái)說(shuō),更大的挑戰(zhàn)來(lái)自于“外交”博弈——這是像約翰·肯尼迪和亨利·基辛格這樣的政治家所喜愛(ài)的。這款游戲不僅僅是兩個(gè)對(duì)手,而是涉及七名玩家,他們的動(dòng)機(jī)難以捉摸。為了獲勝,玩家必須進(jìn)行談判,建立可以隨時(shí)被違背的合作關(guān)系。外交游戲的復(fù)雜性極高,以至于當(dāng)Meta一個(gè)團(tuán)隊(duì)編寫(xiě)的AI程序Cicero2022年在40場(chǎng)比賽中達(dá)到“人類(lèi)水平”時(shí)也表示滿(mǎn)意。雖未擊敗世界冠軍,但該程序在對(duì)抗人類(lèi)參與者中的表現(xiàn)足以排在前10%。

在該項(xiàng)目中,Meta團(tuán)隊(duì)的成員Jacob注意到Cicero依賴(lài)語(yǔ)言模型來(lái)與其他玩家進(jìn)行對(duì)話(huà)。他意識(shí)到了尚未開(kāi)發(fā)的潛能。他表示,團(tuán)隊(duì)的目標(biāo)是“為這個(gè)博弈而構(gòu)建的他們所能做到的最佳語(yǔ)言模型。”如果轉(zhuǎn)而專(zhuān)注于創(chuàng)建能夠最大化提升大型語(yǔ)言模型性能的博弈會(huì)怎樣呢?

兩廂情愿的互動(dòng)

在2023年,Jacob在麻省理工學(xué)院繼續(xù)探索他的研究課題,與Yikang Shen、Gabriele Farina和指導(dǎo)教授Jacob Andreas合作,開(kāi)發(fā)了一種名為共識(shí)博弈的新模式。[5-7]這個(gè)游戲的核心概念是將兩人之間的對(duì)話(huà)視作一種合作性游戲,其中成功的關(guān)鍵在于聽(tīng)者是否能理解說(shuō)話(huà)者想要表達(dá)的內(nèi)容。具體來(lái)說(shuō),共識(shí)博弈旨在調(diào)和語(yǔ)言模型中負(fù)責(zé)生成問(wèn)題的生成器和處理判別問(wèn)題的鑒別器兩大系統(tǒng)。

經(jīng)過(guò)數(shù)月的起起落落,團(tuán)隊(duì)最終將這一理念發(fā)展成完整的游戲。游戲開(kāi)始時(shí),生成器首先接收一個(gè)問(wèn)題,這個(gè)問(wèn)題可能來(lái)自人類(lèi)或是預(yù)設(shè)的問(wèn)題列表。例如:“巴拉克·奧巴馬出生在哪里?”隨后,生成器會(huì)收到幾個(gè)可能的回答,如檀香山、芝加哥和內(nèi)羅畢,這些答案可能來(lái)自人類(lèi)、列表或是模型自身的搜索。

在給出回答前,生成器還需要根據(jù)一次公平的硬幣拋擲,來(lái)決定其回答應(yīng)正確還是錯(cuò)誤。

如果硬幣正面朝上,生成器則嘗試給出正確答案,并將問(wèn)題及其選定的答案發(fā)送給鑒別器。如果鑒別器認(rèn)為生成器有意提供了正確答案,則雙方各獲得一分作為獎(jiǎng)勵(lì)。

如果硬幣反面朝上,生成器則提供一個(gè)錯(cuò)誤答案。若鑒別器判斷該答案是有意提供的錯(cuò)誤答案,他們?cè)俅胃鞯靡环?。這樣做的目的是為了鼓勵(lì)雙方達(dá)成一致。Jacob解釋說(shuō):“這就像訓(xùn)練狗狗做動(dòng)作,做對(duì)了就給予獎(jiǎng)勵(lì)。”

生成器和鑒別器在游戲開(kāi)始時(shí)各自設(shè)定了一些“初始信念”,這些信念以概率分布的形式存在,關(guān)聯(lián)到不同的選擇。例如,基于從互聯(lián)網(wǎng)上獲取的信息,生成器可能認(rèn)為奧巴馬在檀香山出生的可能性為80%,在芝加哥的可能性為 10%,在內(nèi)羅畢的可能性為5%,其他地方為 5%。

鑒別器可能會(huì)有不同的初始概率分布。盡管兩名“玩家”通過(guò)達(dá)成一致來(lái)獲得獎(jiǎng)勵(lì),他們?nèi)绻x最初的信念過(guò)遠(yuǎn),也會(huì)受到懲罰。這種設(shè)置鼓勵(lì)他們將對(duì)世界的認(rèn)知——再次通過(guò)互聯(lián)網(wǎng)獲得——融入到他們的回答中,這能夠提升模型的準(zhǔn)確性。如果沒(méi)有這種機(jī)制,他們可能會(huì)在一個(gè)完全錯(cuò)誤的答案上達(dá)成一致,如德里,但仍然能夠得分。

?圖源:Matt Chinworth

在每個(gè)問(wèn)題上,這兩個(gè)系統(tǒng)將進(jìn)行大約1,000輪的對(duì)決。通過(guò)這些重復(fù)的游戲,雙方逐步了解對(duì)方的信念并調(diào)整自己的策略。

最終,生成器和鑒別器通過(guò)逐漸適應(yīng)達(dá)到了所謂的納什均衡。這是博弈論中的核心概念,它代表了游戲中的一種平衡狀態(tài),即任何玩家通過(guò)改變策略都無(wú)法改善自己的個(gè)人結(jié)果。例如,在石頭、剪刀、布游戲中,當(dāng)玩家均衡地選擇每個(gè)選項(xiàng)時(shí)表現(xiàn)最佳,而任何其他策略都會(huì)導(dǎo)致更差的結(jié)果。

在共識(shí)博弈中,這種平衡可以通過(guò)多種方式體現(xiàn)。例如,鑒別器可能發(fā)現(xiàn)每次生成器發(fā)送“檀香山”作為奧巴馬出生地時(shí),它都能得分。經(jīng)過(guò)反復(fù)的游戲,生成器和鑒別器將學(xué)會(huì)通過(guò)繼續(xù)這樣做來(lái)獲取獎(jiǎng)勵(lì),他們也沒(méi)有動(dòng)機(jī)去嘗試其他任何事情。這種共識(shí)是針對(duì)這個(gè)問(wèn)題可能的納什均衡的眾多示例之一。MIT團(tuán)隊(duì)還利用了一種修改版的納什均衡,這種均衡考慮了玩家的先驗(yàn)信念,有助于確保他們的回答更加貼近現(xiàn)實(shí)。

研究人員觀察到的總體效果是,參與這種游戲的語(yǔ)言模型變得更加準(zhǔn)確,無(wú)論問(wèn)題如何提出,都更可能給出一致的答案。為了測(cè)試共識(shí)游戲的效果,團(tuán)隊(duì)對(duì)幾個(gè)參數(shù)在7億到13億之間的中等規(guī)模語(yǔ)言模型進(jìn)行了一系列標(biāo)準(zhǔn)問(wèn)題的測(cè)試。這些模型在正確回答的比例上常常超過(guò)了未參與游戲的模型,即使是那些參數(shù)高達(dá) 540億的大型模型也是如此。參與游戲還提升了模型的內(nèi)部一致性。

原則上,任何LLM都能從與自身進(jìn)行博弈的過(guò)程中獲益,而在標(biāo)準(zhǔn)筆記本電腦上進(jìn)行的 1,000輪游戲僅需幾毫秒。Omidshafiei指出:“這種方法的一個(gè)顯著優(yōu)點(diǎn)是它的計(jì)算需求非常低,不需要對(duì)基礎(chǔ)語(yǔ)言模型進(jìn)行訓(xùn)練或修改。

用語(yǔ)言玩游戲

獲得初步的成功之后,Jacob現(xiàn)在正探索其他將博弈論融入LLM研究的方式。初步的結(jié)果顯示,通過(guò)與多個(gè)小型模型一同參與一個(gè)名為集成博弈的游戲,已經(jīng)表現(xiàn)強(qiáng)大的LLM能夠進(jìn)一步提升性能。在這個(gè)游戲中,主要的LLM至少有一個(gè)小模型作為盟友,至少有一個(gè)扮演敵對(duì)角色。例如,當(dāng)主要LLM被問(wèn)及美國(guó)總統(tǒng)是誰(shuí)時(shí),如果其答案與盟友一致,則獲得一分;如果答案與對(duì)手不同,也同樣獲得一分。這種與小型模型的互動(dòng)不僅能提升LLM的性能,而且無(wú)需額外訓(xùn)練或更改參數(shù)即可實(shí)現(xiàn)。

這只是一個(gè)開(kāi)始。Google DeepMind的研究科學(xué)家 Ian Gemp表示,由于許多情境都可以視為游戲,博弈論的工具可以在多種現(xiàn)實(shí)世界的情境中得到應(yīng)用。在他與同事們于2024年2月發(fā)表的一篇論文中,他們研究了需要比簡(jiǎn)單問(wèn)答更復(fù)雜交流的談判場(chǎng)景。“這個(gè)項(xiàng)目的主要目標(biāo)是讓語(yǔ)言模型具備更多的策略性。”

?Gemp, Ian, et al. "States as Strings as Strategies: Steering Language Models with Game-Theoretic Solvers." arXiv preprint arXiv:2402.01704 (2024).

他在一個(gè)學(xué)術(shù)會(huì)議上討論的一個(gè)例子是期刊或會(huì)議的論文審查過(guò)程,尤其在最初提交被嚴(yán)厲批評(píng)后。鑒于語(yǔ)言模型能夠?yàn)椴煌幕貞?yīng)分配概率,研究者可以構(gòu)建類(lèi)似于撲克游戲的游戲樹(shù),圖示出可選的策略及其可能的結(jié)果。"做到這一點(diǎn)后,你就可以開(kāi)始計(jì)算納什均衡,并對(duì)各種反駁進(jìn)行排序,"Gemp說(shuō)。模型本質(zhì)上是在指導(dǎo)你應(yīng)該怎樣回應(yīng)。

得益于博弈論的洞察,語(yǔ)言模型未來(lái)能夠處理更加復(fù)雜的互動(dòng),而不再僅限于問(wèn)答問(wèn)題。“未來(lái)的重大進(jìn)展將關(guān)注更長(zhǎng)的對(duì)話(huà)。”Andreas 說(shuō)。“下一步是讓人工智能與人而非僅與另一個(gè)語(yǔ)言模型進(jìn)行交互。”

Jacob將DeepMind的工作視為共識(shí)博弈及集成博弈的補(bǔ)充。“從更高層次看,這兩種方法都是在結(jié)合語(yǔ)言模型與博弈論。”他說(shuō),盡管各自的目標(biāo)略有不同。雖然Gemp小組正通過(guò)游戲化常見(jiàn)場(chǎng)景來(lái)協(xié)助戰(zhàn)略決策,Jacob表示,“我們正在利用我們對(duì)博弈論的了解來(lái)改進(jìn)一般任務(wù)中的語(yǔ)言模型。”

Jacob表示,這些努力目前呈現(xiàn)為“同一棵樹(shù)上的兩個(gè)分支”——利用兩種不同的方法來(lái)增強(qiáng)語(yǔ)言模型的功能。“我們希望在未來(lái)一到兩年內(nèi),這兩個(gè)分支能夠得到融合。”

參考文獻(xiàn):

本文系作者 追問(wèn)nextquestion 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶(hù)分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

10:24

騰訊湯道生:Harness工程能力是AI落地關(guān)鍵變量

10:18

商業(yè)航天概念震蕩拉升,神劍股份2連板

10:15

創(chuàng)新藥概念持續(xù)走高,科拓生物20cm漲停

10:11

滬指翻紅,上漲個(gè)股近3800只

10:07

創(chuàng)新奇智發(fā)布AInnoGC工業(yè)本體智能體平臺(tái)

10:04

WTI原油期貨跌幅擴(kuò)大至2%

10:02

特朗普將簽署行政令向機(jī)場(chǎng)安檢人員發(fā)薪

09:59

連連數(shù)字年報(bào):營(yíng)收同比增31.9%,凈利潤(rùn)16.62億

09:59

2026年3季度存儲(chǔ)產(chǎn)品漲幅將放緩

09:55

大消費(fèi)板塊震蕩反彈,樂(lè)惠國(guó)際、均瑤健康漲停

09:51

20條“嚴(yán)禁”,為基礎(chǔ)教育辦學(xué)劃紅線,教育部發(fā)布負(fù)面清單

09:48

國(guó)家統(tǒng)計(jì)局:1—2月半導(dǎo)體產(chǎn)業(yè)快速發(fā)展帶動(dòng)鏈條行業(yè)利潤(rùn)增長(zhǎng)較快

09:47

鋰電材料股延續(xù)強(qiáng)勢(shì),電解液、鋰鹽方向領(lǐng)漲

09:44

創(chuàng)新藥概念表現(xiàn)活躍,聯(lián)環(huán)藥業(yè)觸及漲停

09:42

國(guó)家統(tǒng)計(jì)局:1—2月新動(dòng)能對(duì)相關(guān)原材料制造業(yè)利潤(rùn)帶動(dòng)明顯

09:41

算力租賃概念局部異動(dòng),廣電網(wǎng)絡(luò)直線漲停

09:39

電力板塊局部反復(fù)活躍,晉控電力、廣西能源雙雙漲停

09:39

國(guó)家統(tǒng)計(jì)局:1—2月份規(guī)模以上工業(yè)企業(yè)實(shí)現(xiàn)營(yíng)業(yè)收入20.84萬(wàn)億元,同比增長(zhǎng)5.3%

09:38

農(nóng)藥板塊盤(pán)初沖高,蘇利股份直線漲停

09:37

軍工板塊盤(pán)初拉升,建設(shè)工業(yè)漲停

掃描下載App