男女palyav,三级无码黄片视频

?Jacob, Athul Paul, et al. "The consensus game: Language model generation via equilibrium search." arXiv preprint arXiv:2310.09139 (2023).

“針對(duì)這些模型內(nèi)部一致性的研究非常有限，”機(jī)器人公司Field AI的首席科學(xué)官Shayegan Omidshafiei說(shuō)。“這篇論文是第一批巧妙而系統(tǒng)地解決這個(gè)問(wèn)題的論文之一，它為語(yǔ)言模型創(chuàng)建了一個(gè)可以自我博弈的游戲。”^[3]

“這確實(shí)是一項(xiàng)非常激動(dòng)人心的研究，”Google Research的研究科學(xué)家Ahmad Beirami說(shuō)。他指出，多年來(lái)，語(yǔ)言模型對(duì)提示的響應(yīng)方式一直沒(méi)有變化。“麻省理工學(xué)院的研究團(tuán)隊(duì)通過(guò)引入博弈機(jī)制，為這一流程帶來(lái)了全新的范式，可能會(huì)催生許多新的應(yīng)用場(chǎng)景。”

將博弈融入研究

這項(xiàng)新的研究利用博弈來(lái)提升人工智能，與過(guò)去通過(guò)游戲來(lái)衡量人工智能成功與否的方式形成對(duì)比。

例如1997年，IBM的“深藍(lán)”計(jì)算機(jī)擊敗了國(guó)際象棋大師Garry Kasparov，這標(biāo)志著思維機(jī)器的一個(gè)里程碑。19年后，Google DeepMind的AlphaGo在對(duì)戰(zhàn)前圍棋冠軍李世石的五局比賽中贏得四局，揭示了另一個(gè)人類(lèi)不再稱(chēng)霸的競(jìng)技場(chǎng)。^[4]此外，機(jī)器還在跳棋、雙人撲克及其他零和游戲中超越了人類(lèi)，這些游戲中一方的勝利必然意味著另一方的失敗。

而對(duì)AI研究者來(lái)說(shuō)，更大的挑戰(zhàn)來(lái)自于“外交”博弈——這是像約翰·肯尼迪和亨利·基辛格這樣的政治家所喜愛(ài)的。這款游戲不僅僅是兩個(gè)對(duì)手，而是涉及七名玩家，他們的動(dòng)機(jī)難以捉摸。為了獲勝，玩家必須進(jìn)行談判，建立可以隨時(shí)被違背的合作關(guān)系。外交游戲的復(fù)雜性極高，以至于當(dāng)Meta一個(gè)團(tuán)隊(duì)編寫(xiě)的AI程序Cicero2022年在40場(chǎng)比賽中達(dá)到“人類(lèi)水平”時(shí)也表示滿(mǎn)意。雖未擊敗世界冠軍，但該程序在對(duì)抗人類(lèi)參與者中的表現(xiàn)足以排在前10%。

在該項(xiàng)目中，Meta團(tuán)隊(duì)的成員Jacob注意到Cicero依賴(lài)語(yǔ)言模型來(lái)與其他玩家進(jìn)行對(duì)話(huà)。他意識(shí)到了尚未開(kāi)發(fā)的潛能。他表示，團(tuán)隊(duì)的目標(biāo)是“為這個(gè)博弈而構(gòu)建的他們所能做到的最佳語(yǔ)言模型。”如果轉(zhuǎn)而專(zhuān)注于創(chuàng)建能夠最大化提升大型語(yǔ)言模型性能的博弈會(huì)怎樣呢？

兩廂情愿的互動(dòng)

在2023年，Jacob在麻省理工學(xué)院繼續(xù)探索他的研究課題，與Yikang Shen、Gabriele Farina和指導(dǎo)教授Jacob Andreas合作，開(kāi)發(fā)了一種名為共識(shí)博弈的新模式。^[5-7]這個(gè)游戲的核心概念是將兩人之間的對(duì)話(huà)視作一種合作性游戲，其中成功的關(guān)鍵在于聽(tīng)者是否能理解說(shuō)話(huà)者想要表達(dá)的內(nèi)容。具體來(lái)說(shuō)，共識(shí)博弈旨在調(diào)和語(yǔ)言模型中負(fù)責(zé)生成問(wèn)題的生成器和處理判別問(wèn)題的鑒別器兩大系統(tǒng)。

經(jīng)過(guò)數(shù)月的起起落落，團(tuán)隊(duì)最終將這一理念發(fā)展成完整的游戲。游戲開(kāi)始時(shí)，生成器首先接收一個(gè)問(wèn)題，這個(gè)問(wèn)題可能來(lái)自人類(lèi)或是預(yù)設(shè)的問(wèn)題列表。例如：“巴拉克·奧巴馬出生在哪里？”隨后，生成器會(huì)收到幾個(gè)可能的回答，如檀香山、芝加哥和內(nèi)羅畢，這些答案可能來(lái)自人類(lèi)、列表或是模型自身的搜索。

在給出回答前，生成器還需要根據(jù)一次公平的硬幣拋擲，來(lái)決定其回答應(yīng)正確還是錯(cuò)誤。

如果硬幣正面朝上，生成器則嘗試給出正確答案，并將問(wèn)題及其選定的答案發(fā)送給鑒別器。如果鑒別器認(rèn)為生成器有意提供了正確答案，則雙方各獲得一分作為獎(jiǎng)勵(lì)。

如果硬幣反面朝上，生成器則提供一個(gè)錯(cuò)誤答案。若鑒別器判斷該答案是有意提供的錯(cuò)誤答案，他們?cè)俅胃鞯靡环?。這樣做的目的是為了鼓勵(lì)雙方達(dá)成一致。Jacob解釋說(shuō)：“這就像訓(xùn)練狗狗做動(dòng)作，做對(duì)了就給予獎(jiǎng)勵(lì)。”

生成器和鑒別器在游戲開(kāi)始時(shí)各自設(shè)定了一些“初始信念”，這些信念以概率分布的形式存在，關(guān)聯(lián)到不同的選擇。例如，基于從互聯(lián)網(wǎng)上獲取的信息，生成器可能認(rèn)為奧巴馬在檀香山出生的可能性為80%，在芝加哥的可能性為 10%，在內(nèi)羅畢的可能性為5%，其他地方為 5%。

鑒別器可能會(huì)有不同的初始概率分布。盡管兩名“玩家”通過(guò)達(dá)成一致來(lái)獲得獎(jiǎng)勵(lì)，他們?nèi)绻x最初的信念過(guò)遠(yuǎn)，也會(huì)受到懲罰。這種設(shè)置鼓勵(lì)他們將對(duì)世界的認(rèn)知——再次通過(guò)互聯(lián)網(wǎng)獲得——融入到他們的回答中，這能夠提升模型的準(zhǔn)確性。如果沒(méi)有這種機(jī)制，他們可能會(huì)在一個(gè)完全錯(cuò)誤的答案上達(dá)成一致，如德里，但仍然能夠得分。

在每個(gè)問(wèn)題上，這兩個(gè)系統(tǒng)將進(jìn)行大約1,000輪的對(duì)決。通過(guò)這些重復(fù)的游戲，雙方逐步了解對(duì)方的信念并調(diào)整自己的策略。

最終，生成器和鑒別器通過(guò)逐漸適應(yīng)達(dá)到了所謂的納什均衡。這是博弈論中的核心概念，它代表了游戲中的一種平衡狀態(tài)，即任何玩家通過(guò)改變策略都無(wú)法改善自己的個(gè)人結(jié)果。例如，在石頭、剪刀、布游戲中，當(dāng)玩家均衡地選擇每個(gè)選項(xiàng)時(shí)表現(xiàn)最佳，而任何其他策略都會(huì)導(dǎo)致更差的結(jié)果。

在共識(shí)博弈中，這種平衡可以通過(guò)多種方式體現(xiàn)。例如，鑒別器可能發(fā)現(xiàn)每次生成器發(fā)送“檀香山”作為奧巴馬出生地時(shí)，它都能得分。經(jīng)過(guò)反復(fù)的游戲，生成器和鑒別器將學(xué)會(huì)通過(guò)繼續(xù)這樣做來(lái)獲取獎(jiǎng)勵(lì)，他們也沒(méi)有動(dòng)機(jī)去嘗試其他任何事情。這種共識(shí)是針對(duì)這個(gè)問(wèn)題可能的納什均衡的眾多示例之一。MIT團(tuán)隊(duì)還利用了一種修改版的納什均衡，這種均衡考慮了玩家的先驗(yàn)信念，有助于確保他們的回答更加貼近現(xiàn)實(shí)。

研究人員觀察到的總體效果是，參與這種游戲的語(yǔ)言模型變得更加準(zhǔn)確，無(wú)論問(wèn)題如何提出，都更可能給出一致的答案。為了測(cè)試共識(shí)游戲的效果，團(tuán)隊(duì)對(duì)幾個(gè)參數(shù)在7億到13億之間的中等規(guī)模語(yǔ)言模型進(jìn)行了一系列標(biāo)準(zhǔn)問(wèn)題的測(cè)試。這些模型在正確回答的比例上常常超過(guò)了未參與游戲的模型，即使是那些參數(shù)高達(dá) 540億的大型模型也是如此。參與游戲還提升了模型的內(nèi)部一致性。

原則上，任何LLM都能從與自身進(jìn)行博弈的過(guò)程中獲益，而在標(biāo)準(zhǔn)筆記本電腦上進(jìn)行的 1,000輪游戲僅需幾毫秒。Omidshafiei指出：“這種方法的一個(gè)顯著優(yōu)點(diǎn)是它的計(jì)算需求非常低，不需要對(duì)基礎(chǔ)語(yǔ)言模型進(jìn)行訓(xùn)練或修改。”

用語(yǔ)言玩游戲

獲得初步的成功之后，Jacob現(xiàn)在正探索其他將博弈論融入LLM研究的方式。初步的結(jié)果顯示，通過(guò)與多個(gè)小型模型一同參與一個(gè)名為集成博弈的游戲，已經(jīng)表現(xiàn)強(qiáng)大的LLM能夠進(jìn)一步提升性能。在這個(gè)游戲中，主要的LLM至少有一個(gè)小模型作為盟友，至少有一個(gè)扮演敵對(duì)角色。例如，當(dāng)主要LLM被問(wèn)及美國(guó)總統(tǒng)是誰(shuí)時(shí)，如果其答案與盟友一致，則獲得一分；如果答案與對(duì)手不同，也同樣獲得一分。這種與小型模型的互動(dòng)不僅能提升LLM的性能，而且無(wú)需額外訓(xùn)練或更改參數(shù)即可實(shí)現(xiàn)。

這只是一個(gè)開(kāi)始。Google DeepMind的研究科學(xué)家 Ian Gemp表示，由于許多情境都可以視為游戲，博弈論的工具可以在多種現(xiàn)實(shí)世界的情境中得到應(yīng)用。在他與同事們于2024年2月發(fā)表的一篇論文中，他們研究了需要比簡(jiǎn)單問(wèn)答更復(fù)雜交流的談判場(chǎng)景。“這個(gè)項(xiàng)目的主要目標(biāo)是讓語(yǔ)言模型具備更多的策略性。”

?Gemp, Ian, et al. "States as Strings as Strategies: Steering Language Models with Game-Theoretic Solvers." arXiv preprint arXiv:2402.01704 (2024).

他在一個(gè)學(xué)術(shù)會(huì)議上討論的一個(gè)例子是期刊或會(huì)議的論文審查過(guò)程，尤其在最初提交被嚴(yán)厲批評(píng)后。鑒于語(yǔ)言模型能夠?yàn)椴煌幕貞?yīng)分配概率，研究者可以構(gòu)建類(lèi)似于撲克游戲的游戲樹(shù)，圖示出可選的策略及其可能的結(jié)果。"做到這一點(diǎn)后，你就可以開(kāi)始計(jì)算納什均衡，并對(duì)各種反駁進(jìn)行排序，"Gemp說(shuō)。模型本質(zhì)上是在指導(dǎo)你應(yīng)該怎樣回應(yīng)。

得益于博弈論的洞察，語(yǔ)言模型未來(lái)能夠處理更加復(fù)雜的互動(dòng)，而不再僅限于問(wèn)答問(wèn)題。“未來(lái)的重大進(jìn)展將關(guān)注更長(zhǎng)的對(duì)話(huà)。”Andreas 說(shuō)。“下一步是讓人工智能與人而非僅與另一個(gè)語(yǔ)言模型進(jìn)行交互。”

Jacob將DeepMind的工作視為共識(shí)博弈及集成博弈的補(bǔ)充。“從更高層次看，這兩種方法都是在結(jié)合語(yǔ)言模型與博弈論。”他說(shuō)，盡管各自的目標(biāo)略有不同。雖然Gemp小組正通過(guò)游戲化常見(jiàn)場(chǎng)景來(lái)協(xié)助戰(zhàn)略決策，Jacob表示，“我們正在利用我們對(duì)博弈論的了解來(lái)改進(jìn)一般任務(wù)中的語(yǔ)言模型。”

Jacob表示，這些努力目前呈現(xiàn)為“同一棵樹(shù)上的兩個(gè)分支”——利用兩種不同的方法來(lái)增強(qiáng)語(yǔ)言模型的功能。“我們希望在未來(lái)一到兩年內(nèi)，這兩個(gè)分支能夠得到融合。”

本文系作者追問(wèn)nextquestion 授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào)，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶(hù)分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

快報(bào)