圖片來(lái)源@視覺(jué)中國(guó)
文 | 牛透社,作者|鞏周周
又一次,GPT-4 斂住所有老牌科企的光彩。
在 ChatGPT 被譽(yù)為范式轉(zhuǎn)變之作的第 3 個(gè)月,谷歌推出 PaLM-E 視覺(jué)語(yǔ)言模型 (VLM)。功能上,除去讓 AI 獲得理解文字、圖片的能力外,額外增添了輸出指令生成機(jī)器人行動(dòng)計(jì)劃的控制回路。
谷歌顯然急了。在 OpenAI 和微軟的左右?jiàn)A擊下,他直接甩出大招。
這場(chǎng)相似的戲碼他太熟悉。移動(dòng)互聯(lián)網(wǎng)時(shí)代的手機(jī)系統(tǒng)之戰(zhàn),以操作系統(tǒng)起家的微軟沒(méi)能在智能手機(jī)發(fā)展初期抓住生態(tài)切入點(diǎn),敗北后起新秀谷歌安卓。如今,緊鑼密鼓研發(fā)大模型的谷歌被后起之浪 OpenAI 的突然成功打了個(gè)措手不及。
但即使谷歌發(fā)布出參數(shù)量高達(dá) 5620 億、目前世界上最大的視覺(jué)語(yǔ)言模型 (VLM) PaLM-E,也沒(méi)能擋住 GPT-4 打破戈?duì)柕现Y(jié)。
回溯 2015 年,馬斯克和山姆·奧特曼大概誰(shuí)都不會(huì)想到,OpenAI 這家非盈利組織能夠十年內(nèi)追平谷歌的技術(shù)進(jìn)展,撞破 AI 核心技術(shù)巨頭壟斷格局。GPT 的先發(fā)公測(cè)且開(kāi)源底層平臺(tái)也意味著更多更廣的技術(shù)會(huì)以此為基礎(chǔ)進(jìn)行開(kāi)發(fā),這是個(gè)穩(wěn)賺的開(kāi)端。
任何成功的背后都是復(fù)雜的,自然語(yǔ)言處理技術(shù)跨越了三個(gè)階段,到現(xiàn)在終于迎來(lái)變革。接下來(lái),你會(huì)從當(dāng)下回到過(guò)去,看到:
1. 自然語(yǔ)言處理的兩次重要轉(zhuǎn)折
2. Bert 和 GPT 模型的應(yīng)用差異及成因
3. GPT 沒(méi)有出現(xiàn)在中國(guó)的兩個(gè)原因
4. 科技發(fā)展是技術(shù)在前應(yīng)用在后
5. 自然語(yǔ)言處理:AGI 最重要的基礎(chǔ)
我們把時(shí)間線拉到 20 年前——
2003 年,Yoshua Bengio 正式提出神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型 (Neural Network Language Model,NNLM),而 NNLM 依賴的核心概念就是詞向量 (Word Embedding)。
如果說(shuō) GPS 是物理世界的位置符號(hào),那么 Word Embedding 是語(yǔ)言世界的距離符號(hào)。
2010 年,Tomas Mikolov (谷歌團(tuán)隊(duì)) 對(duì) Bengio 提出的 NNLM 進(jìn)行改進(jìn),提出 RNNLM (Recurrent Neural Network based Language Model),目標(biāo)是利用所有上文信息來(lái)預(yù)測(cè)下一個(gè)詞語(yǔ)。
但 RNN 存在長(zhǎng)距離梯度消失問(wèn)題,上下文記憶能力有限,很難追溯更遠(yuǎn)時(shí)間的信息。而且,只通過(guò)孤立單詞或上文信息不足以讓機(jī)器感知到特定環(huán)境下的單詞含義。
于是,2013 年 Mikolov (谷歌團(tuán)隊(duì)) 提出 Word2vec,他們把這個(gè)方法稱作“單詞到向量”。Word2vec 的目標(biāo)不再專注于建模語(yǔ)言模型,而是利用語(yǔ)言模型學(xué)習(xí)每個(gè)單詞的語(yǔ)義化向量。
在 1986 年出版的《并行分布式處理》里有談過(guò)這樣的觀點(diǎn):“人類比當(dāng)今的計(jì)算機(jī)更聰明,是因?yàn)槿说拇竽X采用了一種更適合于人類完成他們所擅長(zhǎng)的自然信息處理任務(wù)的基本計(jì)算架構(gòu),例如,‘感知’自然場(chǎng)景中的物體并厘清它們之間的關(guān)系......理解語(yǔ)言,并從記憶中檢索上下文恰當(dāng)?shù)男畔ⅰ?rdquo;
研究人員想到,如果能夠把每個(gè)詞匯都標(biāo)注為數(shù)字,以編碼形式輸入,那么編碼器網(wǎng)絡(luò)就可以通過(guò)反向傳播在這些樣本上訓(xùn)練。但是,一個(gè)非常重要的問(wèn)題是,機(jī)器無(wú)法像人類一樣獲取單詞或短語(yǔ)之間的語(yǔ)義關(guān)系。
語(yǔ)言學(xué)家約翰·費(fèi)斯在 1957 年把這一思想表達(dá)為:你會(huì)通過(guò)與一個(gè)單詞一同出現(xiàn)的詞來(lái)認(rèn)識(shí)它。比如生氣往往和憤怒出現(xiàn)在同一語(yǔ)境,大笑和愉悅也常被放在同一語(yǔ)境。
研究人員“詞匯表”發(fā)現(xiàn)在使用大量英文語(yǔ)料訓(xùn)練詞向量后,queen 和 king 的詞向量做差得到的向量與 woman 與 man 做差得到的向量幾乎一樣。于是得到一個(gè)等式:queen-king+man=woman
這就是著名的“國(guó)王和女王”的例子,也是自然語(yǔ)言處理向理解語(yǔ)言進(jìn)步的重要標(biāo)志。
word2vec,包含 CBOW 和 Skip-gram 兩組模型,分別根據(jù)上下文預(yù)測(cè)中心詞以及根據(jù)中心詞來(lái)預(yù)測(cè)上下文,簡(jiǎn)化網(wǎng)格結(jié)構(gòu)。使用 Hierarchical Softmax、Negative Sampling 兩種算法提升訓(xùn)練效率,優(yōu)化詞向量和語(yǔ)義方面能力。
在對(duì)機(jī)器進(jìn)行詞語(yǔ)、對(duì)話或是理念傳達(dá)時(shí),不同的語(yǔ)言使用方式和環(huán)境密不可分,因此,要消解機(jī)器對(duì)于模糊詞、隱喻等困惑,構(gòu)建機(jī)器對(duì)世界的認(rèn)知系統(tǒng),數(shù)據(jù)和模型在這種體系中格外重要。
當(dāng)單詞可以用坐標(biāo)作為數(shù)字輸入時(shí),就大大提高了神經(jīng)網(wǎng)絡(luò)在 NLP 中的性能。RNN 語(yǔ)言模型雖然也能獲得單詞的分布式表達(dá),但為了更好應(yīng)對(duì)詞匯量的增加、提高分布式表示的質(zhì)量,word2vec 很快成為主流。
再把時(shí)間線拉到 5 年內(nèi)——
2017 年,谷歌團(tuán)隊(duì)在論文《Attention is All You Need》中首次提出的 Transformer 架構(gòu),造就了一場(chǎng)關(guān)乎 NLP 研究的始發(fā)性變革。
深度學(xué)習(xí)時(shí)代,自然語(yǔ)言處理準(zhǔn)確率的提升帶來(lái)模型對(duì)有標(biāo)注數(shù)據(jù)的高度依賴。因?yàn)閿?shù)據(jù)稀缺和人力成本高昂,大型 NLP 語(yǔ)言模型訓(xùn)練進(jìn)入瓶頸。
Transformer 預(yù)訓(xùn)練模型主要分為兩段訓(xùn)練,先在大規(guī)模未標(biāo)注語(yǔ)料庫(kù)預(yù)先訓(xùn)練一個(gè)初始模型,然后在下游任務(wù)中利用標(biāo)注數(shù)據(jù)對(duì)模型再次進(jìn)行精調(diào)。相對(duì)而言,預(yù)訓(xùn)練模型效能更高,所需標(biāo)注數(shù)據(jù)也更低。
很快,預(yù)訓(xùn)練語(yǔ)言模型成為自然語(yǔ)言理解任務(wù)中的基準(zhǔn)模型。
GPT 和 BERT,這兩個(gè)代表現(xiàn)代 NLP 技術(shù)發(fā)展的模型都建立在 Transformer 架構(gòu)上。谷歌團(tuán)隊(duì)把這個(gè)語(yǔ)言架構(gòu)濃縮成一句話:“Attention is All You Need.”
2018 年 10 月,谷歌團(tuán)隊(duì)發(fā)布的 Bert 語(yǔ)言模型讓這項(xiàng)技術(shù)從理論走向?qū)嵱玫耐懽儭?/p>
這是 NLP 一場(chǎng)全領(lǐng)域的狂歡。同時(shí)也預(yù)示著自然語(yǔ)言處理有史以來(lái)最強(qiáng)烈的一次進(jìn)化即將開(kāi)啟。
在過(guò)往許多研究 AI、NLP、AGI 技術(shù)的書(shū)籍中都提到過(guò)一個(gè)詞,叫“意義的障礙”。機(jī)器和人類間存在著交流溝渠,所以創(chuàng)造出一種讓機(jī)器理解人類寫(xiě)作、說(shuō)話方式的能力進(jìn)而協(xié)助人類,是 NLP 的初衷。
人類擁有的能力之一,是感知并反思自己的思維方式,即透過(guò)現(xiàn)象以某種本質(zhì)深刻的方式來(lái)理解周圍情景,機(jī)器并不具備這種理解能力。NLP 的目標(biāo)就是讓機(jī)器在理解語(yǔ)言上像人類一樣智能,彌補(bǔ)人類交流 (自然語(yǔ)言) 和計(jì)算機(jī)理解 (機(jī)器語(yǔ)言) 之間的差距。
但語(yǔ)言這種具象表達(dá)方式,從標(biāo)引符號(hào)演變?yōu)橄笳鞣?hào),再演變?yōu)檎Z(yǔ)法,是個(gè)漫長(zhǎng)的過(guò)程。自然語(yǔ)言是一種“活著”的語(yǔ)言,它在不斷在向前演進(jìn)、生長(zhǎng)。從過(guò)去到現(xiàn)在,有許多俚語(yǔ)不斷被淘汰,又有許多詞語(yǔ)生成出來(lái)。基于此,這種可以擇世生存的自然語(yǔ)言處理技術(shù)研發(fā)變得相當(dāng)困難。
在 Bert 發(fā)布前,大部分 NLP 任務(wù)是基于 word2vec+RNN 的基本架構(gòu)。由于數(shù)據(jù)匱乏,NLP 進(jìn)展一直不像 CV 那么順利,于是有些學(xué)者就將基于 CV 的思想應(yīng)用到預(yù)訓(xùn)練+微調(diào)的架構(gòu)上,ELMo 和 GPT 就是采用這種方式。
Bert 在兩個(gè)方向進(jìn)行創(chuàng)新。首先提出兩階段模型,第一階段雙向語(yǔ)言模型預(yù)訓(xùn)練,第二階段具體任務(wù) Fine-tuning;其次特征提取器變?yōu)?Transformer。幾乎所有的 NLP 任務(wù)都可以采用 Bert 兩階段訓(xùn)練思路,所以此后的幾年,幾乎所有企業(yè)都在以 Bert 為基礎(chǔ)進(jìn)行改進(jìn),研發(fā)方向的轉(zhuǎn)折也就此開(kāi)始。
從自然語(yǔ)言角度出發(fā),自然語(yǔ)言處理大致可分為自然語(yǔ)言理解和自然語(yǔ)言生成兩個(gè)部分。
自然語(yǔ)言理解:讓計(jì)算機(jī)能夠理解文本意義,核心是“理解”。具象來(lái)說(shuō),就是把語(yǔ)言表示成可分解的符號(hào)或語(yǔ)音,從中提取有用的信息用于下游任務(wù)。研究方向包含語(yǔ)言結(jié)構(gòu)、信息抽取、信息檢索、詞性標(biāo)注和句法分析。
自然語(yǔ)言生成:它是按照一定語(yǔ)法和語(yǔ)義規(guī)則生成自然語(yǔ)言文本、圖表、音視頻,即對(duì)語(yǔ)義信息以人類可讀形式進(jìn)行表達(dá),簡(jiǎn)單來(lái)說(shuō)是從文本規(guī)劃到語(yǔ)句規(guī)劃再到實(shí)現(xiàn)。主體分為三大類,文本到文本 (Text to Text)、文本到其他 (Text to Other)、其他到文本 (Other to Text)。
以 BERT 和 GPT 為例,即使都屬于預(yù)訓(xùn)練模型,但在技術(shù)研發(fā)方向存在分流:
BERT(Bidirectional Encoder Representations from Transformers)
雙向語(yǔ)言模型,可以同時(shí)利用上下文信息進(jìn)行預(yù)測(cè),是自然語(yǔ)言理解任務(wù)中的基準(zhǔn)模型。Transformer 的 Encoder 模塊構(gòu)成,采用預(yù)訓(xùn)練和微調(diào)兩階段模型訓(xùn)練,屬于半監(jiān)督學(xué)習(xí)模型,即在預(yù)訓(xùn)練時(shí)使用大量無(wú)標(biāo)注數(shù)據(jù),屬于自監(jiān)督訓(xùn)練,而微調(diào)時(shí)采用少量有標(biāo)簽數(shù)據(jù),屬于有監(jiān)督訓(xùn)練。
Bert 的預(yù)訓(xùn)練包含掩碼語(yǔ)言模型 (Masked Language Model, MLM) 和下一句預(yù)測(cè) (Next Sentence Prediction, NSP) 兩個(gè)任務(wù),引入基于自編碼的預(yù)訓(xùn)練任務(wù)進(jìn)行訓(xùn)練。
這種訓(xùn)練方式讓 BERT 可以有效捕捉文本中的語(yǔ)義信息,因此被廣泛用于文本分類任務(wù),如機(jī)器翻譯、情感分析、垃圾郵件識(shí)別、新聞分類、問(wèn)答系統(tǒng)、語(yǔ)義匹配等方向。
GPT (Generative Pre-Training)
單向語(yǔ)言模型,自回歸語(yǔ)言建模方式,兩段訓(xùn)練:生成式預(yù)訓(xùn)練+判別式任務(wù)精調(diào)。
第一階段,利用大規(guī)模數(shù)據(jù)訓(xùn)練出基于深層 Transformer 的語(yǔ)言模型;第二階段,在通用語(yǔ)意表示的基礎(chǔ)上,根據(jù)下游任務(wù)特性進(jìn)行領(lǐng)域適配。微調(diào)通常是在一個(gè)較小的數(shù)據(jù)集上進(jìn)行的,因此可以使用較小的學(xué)習(xí)率和少量的訓(xùn)練迭代次數(shù)來(lái)進(jìn)行訓(xùn)練。
單向訓(xùn)練方式只能利用之前的文本進(jìn)行預(yù)測(cè),因此適用于自然語(yǔ)言生成、問(wèn)答系統(tǒng)、機(jī)器翻譯等任務(wù)。
表征和表達(dá)能力上,相對(duì)單向語(yǔ)言模型 (GPT),雙向語(yǔ)言模型 (Bert) 能力更強(qiáng)。因?yàn)閱蜗蛘Z(yǔ)言模型中,只能依賴于前詞,而無(wú)法獲取后詞信息,在處理復(fù)雜自然語(yǔ)言任務(wù)時(shí),可能會(huì)由于無(wú)法充分捕捉上下文信息,影響模型的性能。反之,雙向語(yǔ)言模型優(yōu)勢(shì)明顯。
但是,BERT 的雙向性增強(qiáng)了它的理解能力,但在一定程度上限制了生成能力,相較于單向模型僅通過(guò)上文即可進(jìn)行續(xù)寫(xiě)生成,雙向模型在缺乏下文語(yǔ)境時(shí)的生成能力受限。對(duì)整個(gè)句子進(jìn)行雙向處理,也意味著模型較大,訓(xùn)練和推理時(shí)間長(zhǎng),所需計(jì)算資源和存儲(chǔ)空間更多。GPT 在簡(jiǎn)化程度、訓(xùn)練及推理速度上更快,更加適用于實(shí)時(shí)性要求高的場(chǎng)景。
相對(duì)于 GPT 這種單向語(yǔ)言模型,BERT 的雙向語(yǔ)言模型雖然存在缺點(diǎn),但在實(shí)際應(yīng)用中更加靈活和具有表達(dá)能力,也更容易遷移和擴(kuò)展。在模型研發(fā)方面,BERT 更注重模型的可復(fù)用性和通用性,適用于多種自然語(yǔ)言處理任務(wù)的應(yīng)用。
研發(fā)上,BERT 引入了 Transformer Encoder 的網(wǎng)絡(luò)結(jié)構(gòu),用于對(duì)輸入的序列進(jìn)行編碼;而 GPT 則采用 Transformer Decoder 的網(wǎng)絡(luò)結(jié)構(gòu),用于生成自然語(yǔ)言文本。
模型復(fù)雜度方面,BERT 比 GPT 的模型架構(gòu)更加復(fù)雜,訓(xùn)練方式上,Bert 需要在自定義數(shù)據(jù)上進(jìn)一步微調(diào),相比之下,BERT 來(lái)說(shuō)更加復(fù)雜和繁瑣。
“梅須遜雪三分白, 雪卻輸梅一段香。”總的來(lái)說(shuō),BERT 和 GPT 兩者各有千秋,設(shè)計(jì)和應(yīng)用方向的差別,決定它們適用于不同應(yīng)用環(huán)境。
Bert 語(yǔ)言模型提出后的一年內(nèi),涌現(xiàn)了許多對(duì)其進(jìn)行擴(kuò)展的模型,其中包含 XLNet 模型、RoBERTa 模型、ELECTRA 模型等。并且,大多數(shù) NLP 子領(lǐng)域研發(fā)模式切換為:預(yù)訓(xùn)練+應(yīng)用微調(diào)/應(yīng)用 Zero 、Few Shot Prompt 模式。
XLNet 模型
使用 Transforner-XL 代替 Transformer 作為基礎(chǔ)模型,XLNet 提出了一個(gè)新的預(yù)訓(xùn)練語(yǔ)言任務(wù):Permutation Language Modeling (排列語(yǔ)言模型),模型將句子內(nèi)的詞語(yǔ)打亂順序,從而使得預(yù)測(cè)當(dāng)前詞語(yǔ)時(shí)可以利用雙向信息。XLNet 相對(duì) BERT 也使用了更多的語(yǔ)料。
RoBERTa 模型
RoBERTa 采用了與 BERT 具有相同的模型結(jié)構(gòu),同樣采用了屏蔽語(yǔ)言模型任務(wù)進(jìn)行預(yù)訓(xùn)練,但舍棄了 BERT 中下句預(yù)測(cè)模型。此外,RoBERTa 采用了更大規(guī)模的數(shù)據(jù)和更魯棒的優(yōu)化方法,從而取得了更好的表現(xiàn)。
GPT目前已經(jīng)發(fā)布五代,從 GPT-3 代起與 Bert 逐漸拉開(kāi)差距。實(shí)際上,它不僅僅是一項(xiàng)具體的技術(shù),更多是體現(xiàn)出關(guān)于 LLM 的發(fā)展理念的不同。
ChatGPT 是從生成式預(yù)訓(xùn)練 Transformer,即 GPT-3.5 在文本和代碼的混合語(yǔ)料訓(xùn)練后,再微調(diào)得到的,使用了來(lái)自人類反饋的強(qiáng)化學(xué)習(xí) (RLHF) 技術(shù),即帶有搜索啟發(fā)式的強(qiáng)化學(xué)習(xí),它將兩種目的緊密結(jié)合,用以解決復(fù)雜的搜索問(wèn)題,也是目前大型 LLM 與人類意圖較匹配的方法。
反觀自然語(yǔ)言處理的發(fā)展史,谷歌的模型升級(jí)更迭貫穿始終,競(jìng)爭(zhēng)力較強(qiáng),但 DeepMind 一直以來(lái)的重心在強(qiáng)化學(xué)習(xí)和 AI 技術(shù)方面,在生成式模型研發(fā)押注不夠。
以往,GPT 的可商用場(chǎng)景不明確,但 Bert 的商用趨勢(shì)卻十分明顯,因此語(yǔ)義理解精準(zhǔn)度一直是領(lǐng)域發(fā)展重點(diǎn),國(guó)內(nèi)外大部分企業(yè)也是以 Bert 模型路線進(jìn)發(fā)。盡管谷歌反應(yīng)夠快,2022 年 4 月便發(fā)布出 PaLM 和 Pathways,全力追趕 LLM 技術(shù),但仍是入局尚晚。
經(jīng)不完全統(tǒng)計(jì),我國(guó)自然語(yǔ)言處理布局目前有 52 家,大部分布局重心在前端,即應(yīng)用端,虛擬人、智能語(yǔ)音、翻譯及基于 NLP 技術(shù)的 RPA 這幾類發(fā)展較為靠前??萍妓^技術(shù)在前、應(yīng)用在后,在我國(guó)似乎體現(xiàn)不明顯。
不過(guò),不只是我國(guó),谷歌尚且在 LLM 上落后一線,這只能說(shuō)明在之前的研發(fā)理念上存在分歧。目前來(lái)看,百度、阿里、華為、訊飛等企業(yè)的大語(yǔ)言模型研發(fā)能力存在潛力,數(shù)據(jù)、技術(shù)積淀上在國(guó)內(nèi)有相對(duì)優(yōu)勢(shì)。
我國(guó)在發(fā)展新技術(shù)時(shí)往往會(huì)首先看商用化可行性,這與國(guó)內(nèi)創(chuàng)業(yè)環(huán)境有關(guān),包含醫(yī)藥研發(fā)在內(nèi),幾乎所有領(lǐng)域都會(huì)考慮短線收益,這種方式并不適合新技術(shù)的產(chǎn)生。
從整體走向局部,從應(yīng)用走向基礎(chǔ),著眼算力、芯片、框架邏輯、理念意識(shí)才是關(guān)鍵。決定技術(shù)進(jìn)展的往往是基礎(chǔ)力,彎道超車無(wú)異于拔苗助長(zhǎng),于核心技術(shù)進(jìn)展無(wú)益。
GPT-4 出現(xiàn)讓自然語(yǔ)言處理社團(tuán)分成兩股:相信 AGI 和不信的。
進(jìn)入大模型時(shí)代,范式改變給 NLP 帶來(lái)內(nèi)核上的轉(zhuǎn)變,許多獨(dú)立存在的子領(lǐng)域被納入 LLM,不再獨(dú)立存在,LLM 熱度空前。
2 月 25 日,OpenAI 薩姆·奧特曼在博客中分享其對(duì) AGI 的當(dāng)前和后續(xù)規(guī)劃,以及 OpenAI 駕馭 AI 的風(fēng)險(xiǎn)。
他的短期計(jì)劃是使用 AI 來(lái)幫助人類評(píng)估更復(fù)雜模型的輸出和監(jiān)控復(fù)雜系統(tǒng);長(zhǎng)期計(jì)劃是使用 AI 來(lái)幫助提出新的想法以實(shí)現(xiàn)更好的對(duì)齊技術(shù)。他認(rèn)為,一個(gè)錯(cuò)位的 AGI 可能會(huì)對(duì)世界造成嚴(yán)重傷害,一個(gè)擁有決定性超級(jí)智能領(lǐng)導(dǎo)的專制政權(quán)也可以做到這一點(diǎn)。
在微軟 3 月發(fā)布的長(zhǎng)篇報(bào)告中,微軟說(shuō):“考慮到 GPT-4 功能具有的廣度和深度,我們認(rèn)為可以合理地認(rèn)為它是通用人工智能 (AGI) 系統(tǒng)的早期(但仍不完善的)版本。”
不過(guò),他們也承認(rèn),“雖然GPT-4 ‘對(duì)處理許多任務(wù)而言達(dá)到或超過(guò)人類的水’,但其整體‘智能模式顯然不像人類’。所以,大致來(lái)講,即使它確實(shí)表現(xiàn)出色,但仍然不能完全像人類一樣思考。”
微軟提到了一個(gè)詞——“思考”。
有許多哲學(xué)家認(rèn)為,即使通過(guò)圖靈測(cè)試的機(jī)器也不會(huì)實(shí)際上思考,而只是對(duì)思考的模擬。
斯坦福大學(xué)教授克里斯托弗·曼寧在 2017 年提出:到目前為止,深度學(xué)習(xí)已經(jīng)使得語(yǔ)音識(shí)別和物體識(shí)別的錯(cuò)誤率大幅下降,但其在高級(jí)別的語(yǔ)言處理任務(wù)中并沒(méi)有產(chǎn)生同等效用。
人類語(yǔ)言往往依賴于常識(shí)及對(duì)世界的理解,要機(jī)器處理更高級(jí)別的語(yǔ)言任務(wù)。就要讓它完全理解人類語(yǔ)言,具備人類的常識(shí)和無(wú)意識(shí)行為。目前的 LLM 還很難做到。
不過(guò),20 世紀(jì) 90 年代,發(fā)明家、未來(lái)學(xué)家雷·庫(kù)茲韋爾發(fā)現(xiàn)這樣一個(gè)規(guī)律:一旦技術(shù)變得數(shù)字化,或者它可以被編輯為以 0 和 1 表示的計(jì)算機(jī)代碼,它就能夠脫離摩爾定律的束縛,開(kāi)始呈指數(shù)級(jí)加速發(fā)展。
簡(jiǎn)單來(lái)說(shuō),技術(shù)發(fā)展后的產(chǎn)物會(huì)被用來(lái)加速產(chǎn)物升級(jí),這就創(chuàng)造了一個(gè)正反饋循環(huán)。根據(jù)該理論,技術(shù)改良以過(guò)去的成就為基礎(chǔ),每十年革新步調(diào)就會(huì)加倍。
傳說(shuō)西塔發(fā)明了國(guó)際象棋而使國(guó)王十分高興,他決定要重賞西塔,西塔說(shuō):“我不要你的重賞 ,陛下,只要你在我的棋盤上賞一些麥子就行了。在棋盤的第 1 個(gè)格子里放 1 粒,在第 2 個(gè)格子里放 2 粒,在第 3 個(gè)格子里放4粒,在第 4 個(gè)格子里放 8 粒,依此類推,以后每一個(gè)格子里放的麥粒數(shù)都是前一個(gè)格子里放的麥粒數(shù)的 2 倍,直到放滿第 64 個(gè)格子就行了”。區(qū)區(qū)小數(shù),幾粒麥子,這有何難,“來(lái)人”,國(guó)王令人如數(shù)付給西塔。計(jì)數(shù)麥粒的工作開(kāi)始了,第一格內(nèi)放 1 粒,第二格內(nèi)放 2 粒第三格內(nèi)放 2’ 粒,…還沒(méi)有到第二十格,一袋麥子已經(jīng)空了。一袋又一袋的麥子被扛到國(guó)王面前來(lái)。但是,麥粒數(shù)一格接一格飛快增長(zhǎng)著,國(guó)王很快就看出,即便拿出全國(guó)的糧食,也兌現(xiàn)不了他對(duì)西塔的諾言。
獨(dú)立指數(shù)技術(shù)加速浪潮,已經(jīng)開(kāi)始呈現(xiàn)出與其余獨(dú)立指數(shù)技術(shù)加速浪潮融合的趨勢(shì)。比如,自然語(yǔ)言處理技術(shù)的加速發(fā)展,不僅僅是因?yàn)?NLP 或 LLM 的單項(xiàng)技術(shù),還因?yàn)?AI、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等正加速發(fā)展的技術(shù)在向這個(gè)范圍靠攏。
2000 年,互聯(lián)網(wǎng)創(chuàng)始人提姆·伯納斯-李提出“語(yǔ)義網(wǎng)”概念。他希望建立一個(gè)“本體”為基礎(chǔ)的、具有語(yǔ)義特征的智能互聯(lián)網(wǎng),不僅能夠理解語(yǔ)義概念,還能夠理解之間的邏輯。突破單句限制,根據(jù)整個(gè)動(dòng)態(tài)交互過(guò)程中的語(yǔ)義和語(yǔ)境的變化情況,對(duì)用戶實(shí)時(shí)輸入的語(yǔ)句進(jìn)行處理并生成結(jié)果,是實(shí)現(xiàn)語(yǔ)義網(wǎng)的基礎(chǔ)。
正常的發(fā)展邏輯是首先通過(guò)解決語(yǔ)義表達(dá),讓計(jì)算機(jī)利用對(duì)現(xiàn)有信息的經(jīng)驗(yàn)積累和理解,上升到更深層次。這也意味,AI 時(shí)代,語(yǔ)義處理會(huì)成為操作系統(tǒng)的核心,所有軟件技術(shù)都會(huì)基于語(yǔ)義技術(shù)的進(jìn)展而確立上限。
語(yǔ)言處理的進(jìn)展,目前主要通過(guò)大數(shù)據(jù)和模型框架及訓(xùn)練模式的互補(bǔ)和變化來(lái)構(gòu)建。數(shù)據(jù)存在歧義性。LLM 時(shí)代,數(shù)據(jù)成為重要核心,機(jī)器在進(jìn)行詞語(yǔ)、對(duì)話或理念傳達(dá)時(shí),使用環(huán)境和使用方式可以左右最終成果。因此,要消解機(jī)器對(duì)于模糊詞、隱喻等困惑,構(gòu)建機(jī)器對(duì)世界的認(rèn)知系統(tǒng),人,在這種體系中格外重要。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論
任何成功的背后都是復(fù)雜的
有許多哲學(xué)家認(rèn)為,即使通過(guò)圖靈測(cè)試的機(jī)器也不會(huì)實(shí)際上思考,而只是對(duì)思考的模擬
自然語(yǔ)言處理正發(fā)生的第三次轉(zhuǎn)折
我國(guó)在發(fā)展新技術(shù)時(shí)往往會(huì)首先看商用化可行性,這與國(guó)內(nèi)創(chuàng)業(yè)環(huán)境有關(guān)
文章還真是高深啊
又一次,GPT-4 斂住所有老牌科企的光彩
GPT 沒(méi)有出現(xiàn)在中國(guó)有兩個(gè)原因