“大家都在談?wù)揂GI,但什么是AGI,應(yīng)該如何評(píng)估是否到達(dá)AGI了?”字節(jié)跳動(dòng)技術(shù)副總裁楊震原日前出席第五屆字節(jié)跳動(dòng)獎(jiǎng)學(xué)金頒獎(jiǎng)典禮時(shí)談及AGI。
他坦承,團(tuán)隊(duì)2021年曾誤判大模型價(jià)值,將早期LLM應(yīng)用于搜索相關(guān)性任務(wù)時(shí)未見(jiàn)顯著提升,“不過(guò)公司調(diào)整的很快,在2022年,我們?cè)谶@個(gè)方向上開(kāi)始投入?,F(xiàn)在,也取得了一些成果”。
現(xiàn)場(chǎng)在談及大模型的未來(lái)時(shí),楊震原對(duì)“何為AGI(通用人工智能)”這一終極問(wèn)題提出了一個(gè)極具啟發(fā)性的評(píng)估框架。他認(rèn)為,評(píng)估AGI的關(guān)鍵在于其完成人類工作的普適性程度。? 一個(gè)具體的衡量標(biāo)準(zhǔn)是“如果95%的工作AI全部都能完成,我們可能就可以說(shuō)真的達(dá)到AGI了。”
他對(duì)比了兩個(gè)極端的例子,如今的大模型已經(jīng)能夠在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中奪金,這超越了99.9%的人類,但在許多看似簡(jiǎn)單的任務(wù)上,比如一個(gè)初中生就能勝任的電話客服工作,AI反而表現(xiàn)不佳。這或許表明,? AGI之路上的核心挑戰(zhàn)并非攻克尖端難題,而是補(bǔ)齊作為通用智能基礎(chǔ)的“短板”。他補(bǔ)充表示,未來(lái)技術(shù)攻堅(jiān)的關(guān)鍵方向在于兩個(gè)“能力”的提升,即提升AI的持續(xù)學(xué)習(xí)能力和與現(xiàn)實(shí)世界的交互(IO)能力。
楊震原也首次系統(tǒng)回顧了公司近十年四大技術(shù)攻堅(jiān)階段的探索歷程。面對(duì)來(lái)自清華、北大、新加坡國(guó)立大學(xué)等高校的20名獲獎(jiǎng)學(xué)子,他首度披露XR設(shè)備自研芯片已實(shí)現(xiàn)12毫秒超低延遲、科學(xué)計(jì)算成果正通過(guò)比亞迪聯(lián)合實(shí)驗(yàn)室推動(dòng)電池材料研發(fā)等關(guān)鍵進(jìn)展。其將字節(jié)跳動(dòng)的技術(shù)演進(jìn)劃分為四個(gè)階段:
2014年:“激進(jìn)目標(biāo)”,啟動(dòng)構(gòu)建萬(wàn)億特征推薦系統(tǒng)。
2020年:用AI重構(gòu)科學(xué)計(jì)算范式,讓AI從海量數(shù)據(jù)中“領(lǐng)悟”底層規(guī)律。
2021年:XR技術(shù)的底層破局,PICO路線“二選一”。
2023年:大模型的反思與超越。
楊震原表示,2014年,在僅有5人團(tuán)隊(duì)時(shí),字節(jié)以“激進(jìn)目標(biāo)”啟動(dòng)萬(wàn)億級(jí)特征規(guī)模的機(jī)器學(xué)習(xí)系統(tǒng)研發(fā)。在優(yōu)化器選擇上同時(shí)推進(jìn)SGD-FTRL和CDN兩套方案,最終FTRL方案僅用數(shù)月成功上線,成為支撐抖音、今日頭條等產(chǎn)品爆發(fā)的基礎(chǔ)架構(gòu)。
值得注意的是,在早期推薦系統(tǒng)的攻堅(jiān)中,“CDN優(yōu)化器”這個(gè)被“預(yù)判比較有潛力”的項(xiàng)目,在長(zhǎng)達(dá)兩年的探索后并未能超越并行的SGD-FTRL方案,最終被中止。然而,與許多公司對(duì)“失敗項(xiàng)目”的常見(jiàn)處理方式不同,字節(jié)將這支擁有“失敗”經(jīng)驗(yàn)但能力突出的團(tuán)隊(duì),整體轉(zhuǎn)崗至公司其他重要的機(jī)器學(xué)習(xí)業(yè)務(wù)方向,這些成員“后來(lái)負(fù)責(zé)公司很重要的業(yè)務(wù)”。
大概 2019 年底到 2020 年,字節(jié)內(nèi)部討論過(guò)未來(lái)AI還能夠如何發(fā)展,通過(guò)鄂維南院士提出的多尺度計(jì)算圖譜,字節(jié)將機(jī)器學(xué)習(xí)應(yīng)用于量子化學(xué)、分子動(dòng)力學(xué)等領(lǐng)域。在神經(jīng)網(wǎng)絡(luò)量子蒙特卡洛NNQMC方向?qū)崿F(xiàn)突破,發(fā)現(xiàn)其與大模型相似的Scaling Law規(guī)律,并首創(chuàng)適用于固體材料的DeepSolid方法。當(dāng)前已實(shí)現(xiàn)GPU加速DFT計(jì)算1GPU≈500-1000CPU核心的效能提升,相關(guān)技術(shù)正通過(guò)比亞迪聯(lián)合實(shí)驗(yàn)室開(kāi)展電池材料產(chǎn)業(yè)化落地。
字節(jié)跳動(dòng)的發(fā)展離不開(kāi)硬件的革新和進(jìn)步,大屏手機(jī)、高清camera是抖音、tiktok這樣產(chǎn)品發(fā)展的土壤。那接下來(lái)還有什么交互體驗(yàn)可以超過(guò)視頻呢?字節(jié)認(rèn)為XR是有潛力能帶來(lái)全新的體驗(yàn)。于是,2021年,字節(jié)收購(gòu)了Pico團(tuán)隊(duì)。當(dāng)時(shí)有兩個(gè)產(chǎn)品路線在同時(shí)推進(jìn)。一個(gè)是,以當(dāng)前的產(chǎn)品形態(tài)為主,同時(shí)投入資源運(yùn)營(yíng)視頻、直播等內(nèi)容,較為激進(jìn)的營(yíng)銷。路線二,是投資基礎(chǔ)技術(shù),追求核心體驗(yàn)上一個(gè)大臺(tái)階。
2023年,字節(jié)最終選擇了“減少營(yíng)銷投入,強(qiáng)化技術(shù)攻堅(jiān)”的路徑。“這個(gè)調(diào)整當(dāng)時(shí)還帶來(lái)了一些誤解,不少人說(shuō)字節(jié)不做這個(gè)方向了。其實(shí)恰恰相反,23年開(kāi)始,我們?cè)赬R上的技術(shù)投入比以前更多。”楊震原表示。
后來(lái),通過(guò)定制近4000 PPI MicroOLED屏幕(達(dá)iPhone 17 Pro Max的9倍),配合微透鏡技術(shù)攻克亮度難題,使PPD提升至40+。更關(guān)鍵的是自研頭顯專用芯片于2024年回片目前已量產(chǎn),將系統(tǒng)延遲壓至12毫秒,較行業(yè)軟件方案提升一倍以上。為提升交互精度,公司專門建設(shè)了高精度6DoF測(cè)試、手勢(shì)數(shù)據(jù)采集系統(tǒng)等基礎(chǔ)設(shè)施。
大家好,很高興在字節(jié)技術(shù)獎(jiǎng)學(xué)金,這樣一個(gè)場(chǎng)合見(jiàn)到大家。我自己是一個(gè)技術(shù)愛(ài)好者,2014年我加入字節(jié)跳動(dòng)。從最初負(fù)責(zé)搭建新的推薦系統(tǒng)開(kāi)始,到現(xiàn)在已經(jīng)有快12年了。這些年來(lái),也一路參與了字節(jié)很多的技術(shù)探索。
說(shuō)起字節(jié),多數(shù)人比較熟悉的還是我們的產(chǎn)品,比如抖音、今日頭條、TikTok等。
我的視角可能更技術(shù)一些,今天這個(gè)機(jī)會(huì),我來(lái)以我的視角分享一些大家可能沒(méi)那么熟悉的技術(shù)故事。
第一版就計(jì)劃做到萬(wàn)億(T)級(jí)別的特征規(guī)模。
最初,創(chuàng)始人張一鳴找到我,跟我說(shuō),他想用大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)來(lái)搭建推薦系統(tǒng)。來(lái)解決各種媒體形式,包括圖片、文字、視頻的推薦。他這個(gè)想法很吸引我。
2014年,工業(yè)界最大規(guī)模的機(jī)器學(xué)習(xí)系統(tǒng),是搜索廣告中已經(jīng)成熟使用的大規(guī)模離散LR(Logistic regression)。把這套原理用在推薦系統(tǒng)上,挑戰(zhàn)可不小。那時(shí)同時(shí)熟悉大規(guī)模軟硬件工程和機(jī)器學(xué)習(xí)的人不多,而且,除了能夠掙到很多錢的搜索廣告會(huì)使用;其他領(lǐng)域,大家都不愿意花這么大的硬件成本去做計(jì)算。
我們第一版就定了一個(gè)非常激進(jìn)的目標(biāo):計(jì)劃2014年做到萬(wàn)億(T)級(jí)別的特征規(guī)模。
這里有非常多的挑戰(zhàn),比如系統(tǒng)建模,處理好推薦的優(yōu)化目標(biāo)。工程上,存儲(chǔ)和計(jì)算是最前期的門檻。另外我們也要做好算法的優(yōu)化。構(gòu)建目標(biāo),做好存儲(chǔ)的挑戰(zhàn),以前都分享過(guò)了,今天說(shuō)說(shuō)優(yōu)化算法。
![]()
LR的優(yōu)化是成熟技術(shù),但不同的方法效率、效果差異巨大。尤其是超大規(guī)模之后。今天很多同學(xué)可能不知道當(dāng)年的優(yōu)化器的情況。今天 SGD系的方法是主流,但2014年,我們搞非常大規(guī)模稀疏的邏輯回歸的時(shí)候,并不是這樣。當(dāng)時(shí)CD系的一些方法用的更多。另外,百度的搜索廣告使用的優(yōu)化器是OWL-QN。
我們當(dāng)時(shí)一共就5個(gè)人,還有人要去做工程,優(yōu)化器準(zhǔn)備了2套方案。1、SGD-FTRL;2、CDN(Coordinate Descent Newton )。就選了兩個(gè)人分別負(fù)責(zé),同步進(jìn)行調(diào)研。
CDN 優(yōu)化器項(xiàng)目,我們當(dāng)時(shí)預(yù)判比較有潛力,初期進(jìn)展也不錯(cuò),但最初的上線發(fā)現(xiàn)又不太行,就一直改進(jìn)。2年中,始終有一個(gè)小組持續(xù)在做。直到SGD的方法都開(kāi)始找到更多的應(yīng)用方式后,才終于停了這個(gè)項(xiàng)目。CDN優(yōu)化器項(xiàng)目組里的同學(xué),后來(lái)轉(zhuǎn)到了機(jī)器學(xué)習(xí)的其他方向,負(fù)責(zé)公司很重要的業(yè)務(wù)。雖然項(xiàng)目并不成功,公司還是很認(rèn)可他們的探索。
FTRL現(xiàn)在提到的都比較少了,可以認(rèn)為是基于累計(jì)梯度的,基于AdaGrad風(fēng)格自適應(yīng)的,L1正則的SGD。這個(gè)項(xiàng)目我們進(jìn)展很快,幾個(gè)月上線,成功實(shí)現(xiàn)了稀疏化萬(wàn)億特征的目標(biāo),并且框架非常靈活。
14年底,我們逐漸引入了FM類算法,后來(lái)演化成了更通用的deep learning體系。而且從我們上線的第一天,它就是一個(gè)streaming training的系統(tǒng)。
到今天,我們發(fā)現(xiàn)streaming更新(training only)的、較淺層的神經(jīng)網(wǎng)絡(luò)算法在推薦中依然有著不錯(cuò)的效果。它可能和現(xiàn)在 test-time training中的一些問(wèn)題相關(guān),也許是更近似RNN的一個(gè)實(shí)現(xiàn)。
求解薛定諤方程,就可以模擬世界絕大部分的現(xiàn)象。
大概 2019 年底到 2020 年,我們討論過(guò)一次,未來(lái)AI還能夠怎么發(fā)展,如何在全社會(huì)發(fā)揮更加重要的價(jià)值?
當(dāng)時(shí)的思考是,只有很大規(guī)模的有價(jià)值的數(shù)據(jù),才能夠產(chǎn)生足夠有價(jià)值的模型和算法。線上世界,推薦、搜索、廣告是主流應(yīng)用。那么,還有什么場(chǎng)景能夠產(chǎn)生很多有價(jià)值的數(shù)據(jù)呢?顯而易見(jiàn)是現(xiàn)實(shí)世界。但現(xiàn)實(shí)世界的數(shù)據(jù)搜集與應(yīng)用會(huì)比較復(fù)雜,涉及到無(wú)人車、機(jī)器人等領(lǐng)域。除了現(xiàn)實(shí)世界,我們還想到一點(diǎn),那就是科學(xué)計(jì)算。
我們這個(gè)世界雖然紛繁復(fù)雜,但底層的物理規(guī)律是特別簡(jiǎn)潔的。從量子力學(xué)的角度來(lái)講,如果今天有一臺(tái)計(jì)算能力沒(méi)有上限的機(jī)器,我們確實(shí)可以從薛定諤方程中解出當(dāng)前世界中絕大部分的現(xiàn)象(不考慮重力的情況下)。大量的simulation會(huì)得到有價(jià)值的數(shù)據(jù),指導(dǎo)machine learning去進(jìn)步。得到更好的結(jié)果,反過(guò)來(lái),又可以改進(jìn)simulation。
這張圖是我們當(dāng)時(shí)的顧問(wèn)鄂維南院士分享過(guò)的一張圖,我貼過(guò)來(lái)了,講的是不同尺度科學(xué)計(jì)算的分類。
![]()
大家可以看,橫坐標(biāo)代表了空間尺度,縱坐標(biāo)是時(shí)間尺度。這張圖代表了物理和科學(xué)計(jì)算的一些問(wèn)題。比如最左下角的是第一性原理計(jì)算,它包括CCSD、 QMC 等方法,它需要去計(jì)算多電子的波函數(shù)。再上走,分別是做了近似的DFT(密度泛函)。再往上走,不再去描繪波函數(shù)。而是使用粒子來(lái)做抽象,也就是分子動(dòng)力學(xué)MD(Molecular dynamics),再往上抽象到粒子團(tuán)簇;最上面抽象的流體力學(xué)、有限元等更高抽象的層次。
那機(jī)器學(xué)習(xí)在其中的價(jià)值是什么呢?圖中的L1、L2、L3、L4的意思是,在這些不同尺度的問(wèn)題上,都可以通過(guò)機(jī)器學(xué)習(xí)的方法更好地求解。例如,在最下面量子化學(xué)計(jì)算角度,采用神經(jīng)網(wǎng)絡(luò)來(lái)擬合多電子波函數(shù)。盡管這些物理規(guī)律描述起來(lái)特別簡(jiǎn)單,但計(jì)算起來(lái)卻異常復(fù)雜,所以機(jī)器學(xué)習(xí)能夠發(fā)揮非常大的價(jià)值。
我們從 2020 年開(kāi)始在這個(gè)方向持續(xù)投入。這里有一張同事提供的圖,展示了我們?cè)谶@方面做的一些工作。
![]()
圖中的橫坐標(biāo)指的是時(shí)間,這個(gè)領(lǐng)域早期代表性的工作是DeepMind的FermiNet等,2019 年我們幾個(gè)人在會(huì)議室里就討論過(guò)這項(xiàng)工作。這個(gè)領(lǐng)域叫做NNQMC(神經(jīng)網(wǎng)絡(luò)量子蒙特卡洛方法)。大概是什么意思呢? QMC 是量子蒙特卡洛,根據(jù)變分原理,任何試驗(yàn)波函數(shù) 計(jì)算得到的系統(tǒng)能量 總是大于或等于真實(shí)基態(tài)能量。于是,我們就可以用神經(jīng)網(wǎng)絡(luò)去表示一個(gè)波函數(shù),然后,在這個(gè)波函數(shù)上進(jìn)行采樣并計(jì)算系統(tǒng)能量。然后,我們就可以按照能量更小方向的梯度去更新神經(jīng)網(wǎng)絡(luò),最終得到一個(gè)更優(yōu)的波函數(shù)表示。
粉色部分是我們?cè)?2021 年之后的幾項(xiàng)工作,我們基本上在業(yè)界已經(jīng)做到前沿。
這張圖的縱坐標(biāo)指的是仿真精度,就是與物理實(shí)驗(yàn)的接近程度。仿真越接近真實(shí),應(yīng)用前景就越好。圓的大小表明了仿真體系電子的數(shù)量,這個(gè)圓越大,也就意味著它有更大的實(shí)用價(jià)值。
最右上角有一個(gè)Scaling Laws with LAVA,這是我們最新的一個(gè)成果。我們發(fā)現(xiàn),這個(gè)問(wèn)題和大模型一樣表現(xiàn)出Scaling Law,如果我們使用更多參數(shù),就會(huì)看到它的仿真精度是持續(xù)上升的。這是一個(gè)很好的信號(hào),說(shuō)明我們可能在實(shí)用性方面還有很大的突破潛力。
在處理體系范圍上,我們提出了首個(gè)能使用于固體體系的NNQMC方法,DeepSolid。同時(shí)在二維轉(zhuǎn)角材料的研究上也進(jìn)行了一系列研究。今年的一個(gè)重點(diǎn)工作就是將NNQMC用于研究拓?fù)浣^緣體。
拓?fù)浣^緣體具有特別的電學(xué)性質(zhì),通電后,器件內(nèi)部沒(méi)有電流,但在器件邊緣產(chǎn)生電流。器件幾乎不發(fā)熱。
拓?fù)浣^緣體“不發(fā)熱”這個(gè)電學(xué)性質(zhì)十分誘人。因?yàn)楝F(xiàn)在用的CPU,GPU都會(huì)大量發(fā)熱,造成能源損耗。如果真能用拓?fù)浣^緣體替代,也許可以制造超級(jí)計(jì)算機(jī)。
怎么找拓?fù)浣^緣體呢?應(yīng)用上面的方法,我們就可以根據(jù)材料的描述,來(lái)仿真計(jì)算得到材料的性質(zhì)。從而大大提高實(shí)驗(yàn)的效率。我們具體計(jì)算了 這種二維材料,發(fā)現(xiàn)其在特定的密度和旋轉(zhuǎn)角度下會(huì)變?yōu)橥負(fù)浣^緣體,并且與實(shí)驗(yàn)結(jié)果一致。
![]()
我們?cè)诜肿觿?dòng)力學(xué)上也有很多探索。MD(分子動(dòng)力學(xué))在鄂維南老師的圖中是classic MD這個(gè)位置。我們的思路是,先改進(jìn)正問(wèn)題。使用更高精度的仿真來(lái)給機(jī)器學(xué)習(xí)MD的力場(chǎng)提供更精準(zhǔn)的label。DFT(密度泛函分析),是一個(gè)合理的層次。我們首先做了DFT的GPU加速工作。我們的GPU4PySCF,實(shí)現(xiàn)了GPU加速DFT計(jì)算的業(yè)界SOTA。相比傳統(tǒng)CPU計(jì)算程序,實(shí)現(xiàn)速度1GPU500~1000CPU core的加速,完成相同計(jì)算任務(wù)算力成本降低1個(gè)數(shù)量級(jí)。
有了更好的label,我們就可以獲得更準(zhǔn)確的力場(chǎng)模型,進(jìn)而可以做更準(zhǔn)的MD仿真,來(lái)做更好的性質(zhì)預(yù)測(cè)。
當(dāng)我們做了很多正問(wèn)題后,我們就可以再次訓(xùn)練模型,去直接生成可能滿足某些性質(zhì)的小分子的候選,這就是逆問(wèn)題。這個(gè)問(wèn)題,就是若干工業(yè)領(lǐng)域(能源、制藥)的核心問(wèn)題了。我們的團(tuán)隊(duì)開(kāi)發(fā)了Bamboo-MLFF和ByteFF兩類分子動(dòng)力學(xué)力場(chǎng),對(duì)分子、固體體系的性質(zhì)進(jìn)行準(zhǔn)確預(yù)測(cè)。其中ByteFF-Pol目前在無(wú)實(shí)驗(yàn)數(shù)據(jù)zeroshot預(yù)測(cè)電解液性質(zhì)上實(shí)現(xiàn)了業(yè)界SOTA的精度。
這些工作不僅僅只在我們的實(shí)驗(yàn)里。我們今年已經(jīng)和BYD成立了聯(lián)合實(shí)驗(yàn)室,會(huì)將高通量自動(dòng)化實(shí)驗(yàn)與科學(xué)計(jì)算算法結(jié)合,探索AI for Science在電池材料領(lǐng)域的工業(yè)落地應(yīng)用。目前,GPU加速DFT計(jì)算、力場(chǎng)+分子動(dòng)力學(xué)模擬、預(yù)測(cè)+設(shè)計(jì)模型均已投入企業(yè)合作伙伴的實(shí)際應(yīng)用。
更多投資基礎(chǔ)技術(shù),追求核心體驗(yàn)上大臺(tái)階。
字節(jié)跳動(dòng)的發(fā)展離不開(kāi)硬件的革新和進(jìn)步。大屏手機(jī)、高清camera是抖音、tiktok這樣產(chǎn)品發(fā)展的土壤。那,接下來(lái)還有什么交互體驗(yàn)可以超過(guò)視頻呢?
XR是有潛力能帶來(lái)全新的體驗(yàn)。2021年,字節(jié)收購(gòu)了Pico團(tuán)隊(duì)。
收購(gòu)后,我們有兩個(gè)產(chǎn)品路線在同時(shí)推進(jìn)。一個(gè)是,以當(dāng)前的產(chǎn)品形態(tài)為主,同時(shí)投入資源運(yùn)營(yíng)視頻、直播等內(nèi)容,較為激進(jìn)的營(yíng)銷。路線二,是投資基礎(chǔ)技術(shù),追求核心體驗(yàn)上一個(gè)大臺(tái)階。
2023年,我們決定減少內(nèi)容和營(yíng)銷投入,更堅(jiān)定的投入技術(shù)路線。這是因?yàn)楫?dāng)時(shí)產(chǎn)品的硬件體驗(yàn)尚未成熟,無(wú)法支撐大規(guī)模市場(chǎng)應(yīng)用。這個(gè)調(diào)整當(dāng)時(shí)還帶來(lái)了一些誤解,不少人說(shuō)字節(jié)不做這個(gè)方向了。其實(shí)恰恰相反,23年開(kāi)始,我們?cè)赬R上的技術(shù)投入比以前更多。
接下來(lái),我來(lái)分享一些路線二中的一些技術(shù)探索。
首先是清晰度。
XR要模擬人眼觀察真實(shí)世界的體驗(yàn),關(guān)鍵指標(biāo)是PPD(每度像素?cái)?shù)),就是說(shuō)人眼睛看一個(gè)度(degree),大概有多少像素。這個(gè)指標(biāo)和觀看距離、屏幕 PPI(像素密度)強(qiáng)相關(guān)。
PPD 大于 30 大概可以看文字,40會(huì)比較清晰。PPD 到 60 的視覺(jué)體驗(yàn)接近視網(wǎng)膜級(jí)清晰度。在 2021 年,Pico 3、Quest 2 這些主流產(chǎn)品的 PPD 其實(shí)是小于 20 的,而且這還是中心區(qū)域,如果到邊緣還要更差。如果一個(gè) XR 產(chǎn)品無(wú)法看清楚字,那使用場(chǎng)景肯定就很局限,這是要解決的一個(gè)重要挑戰(zhàn)。
2022年我們開(kāi)始研究怎么能做好,最后決定和供應(yīng)商啟動(dòng)MicroOLED定制。MicroOLED是一種在單晶硅片上制備主動(dòng)發(fā)光型OLED器件的新型顯示技術(shù)。相比于其他顯示技術(shù)(如高 PPI 的 LCD 液晶屏),microOLED 在實(shí)現(xiàn)單眼 4K 等級(jí)的超高分辨率時(shí),仍然能夠保持更小的面板尺寸。這使得光學(xué)顯示系統(tǒng)得以進(jìn)一步縮小,從而讓 MR 頭顯輕便的同時(shí)獲得更高的 PPI 和整體清晰度。
![]()
如果我們?nèi)?duì)比iPhone,iPhone 17 Pro Max 是 6.9 英寸的,它的PPI是460。我們?cè)?2022 年定制 MicroOLED 的目標(biāo)是什么呢?我們要做到近4000PPI,大概是iPhone 17接近九倍的量級(jí),所以這個(gè)事情的挑戰(zhàn)是非常大的。
MicroOLED雖然可以有超高的PPI,但它每個(gè)像素點(diǎn)都特別小,導(dǎo)致屏幕亮度上限較低。我們通過(guò)導(dǎo)入微透鏡(MLA)來(lái)提升亮度,副作用是色亮度均一性變差。這就需要,結(jié)合光學(xué)設(shè)計(jì),通過(guò)主光線角(CRA)定制和系統(tǒng)性補(bǔ)償上的一些工作,讓亮度和色亮度均一性同時(shí)達(dá)到最優(yōu)狀態(tài)。
![]()
在我們啟動(dòng)的那個(gè)時(shí)間點(diǎn),市場(chǎng)上現(xiàn)有的產(chǎn)品在很多維度(比如分辨率、亮度、功耗、成本等等)都無(wú)法達(dá)到我們的要求。我們只能自己和供應(yīng)商一起把上面提到的這些硬件、軟件、算法的東西都解決好才行。我們大概2022年開(kāi)始啟動(dòng),到今天,終于解決的比較好了。最終的成品,平均PPD40,中心區(qū)域超過(guò)45,應(yīng)該說(shuō)是行業(yè)領(lǐng)先了。
MR 也是重要的技術(shù)挑戰(zhàn)。
傳統(tǒng)的 VR 無(wú)法看到現(xiàn)實(shí),更無(wú)法做到融合。MR(Mixed Reality)代表了新一代的技術(shù):能夠看到現(xiàn)實(shí),并且能夠把虛擬的物體與現(xiàn)實(shí)世界融合。但這也帶來(lái)巨大的技術(shù)挑戰(zhàn)。
比如 SLAM 技術(shù),核心是讓頭顯精準(zhǔn)感知用戶的位置與姿態(tài)角度;而為實(shí)現(xiàn)運(yùn)動(dòng)補(bǔ)償,還需進(jìn)一步估算運(yùn)動(dòng)速度。同時(shí),微顯示屏上的高清圖像,通過(guò)光學(xué)鏡頭后,會(huì)有畸變,比如邊緣被拉伸、中心被放大,所以要做逆畸變處理。從源頭到輸出,整個(gè)過(guò)程的計(jì)算量非常大,而且都是對(duì)高清、高幀率的視頻做實(shí)時(shí)的處理,又需要特別低的延遲。在有限的功耗空間里,這個(gè)問(wèn)題就特別困難。
如果這方面做得不好,就會(huì)讓人產(chǎn)生眩暈感。如何低延遲、高精度的完成這個(gè)計(jì)算,就是核心問(wèn)題。這里面,就需要有強(qiáng)大且低功耗的算力,需要專用的芯片才能夠做到。
于是,2022年6月我們正式立項(xiàng),全鏈路自研了一顆頭顯專用的消費(fèi)電子芯片來(lái)解決這個(gè)處理瓶頸。芯片在2024年回片,目前進(jìn)入量產(chǎn)階段,各項(xiàng)指標(biāo)均達(dá)到設(shè)計(jì)要求。
目前在實(shí)測(cè)中,我們的系統(tǒng)延遲可以做到12毫秒左右,這是非常不容易的。即便是世界頂尖的公司,用軟件來(lái)做的話,也很難在不明顯犧牲畫(huà)質(zhì)的前提下把延遲壓到25毫秒以內(nèi)。
交互的挑戰(zhàn)也非常重要。我們?nèi)绻M鎏搶?shí)融合,那需要對(duì)現(xiàn)實(shí)環(huán)境做識(shí)別。我們需要非常高精度的ground truth進(jìn)行校準(zhǔn)與訓(xùn)練。為此,我們建設(shè)了專業(yè)的高精度測(cè)試系統(tǒng)。
新的MR設(shè)備交互,需要eye tracking,hand tracking,這些也都需要高精度的ground truth。只有搜集到較廣泛的數(shù)據(jù),才有機(jī)會(huì)讓體驗(yàn)在更廣泛的人群上保持魯棒的高體驗(yàn)。所以我們也做了專門的3D重建機(jī)制與高精度手勢(shì)數(shù)據(jù)采集系統(tǒng)。
XR的路還很長(zhǎng),挑戰(zhàn)也很多。上面只是舉了一些技術(shù)的例子。26年我們就會(huì)有新的產(chǎn)品發(fā)布,期望未來(lái)我們通過(guò)持續(xù)的技術(shù)研發(fā),能夠給大家?guī)?lái)體驗(yàn)更好的產(chǎn)品。
2022 年11 月30 日,ChatGPT橫空出世,2023年引起廣泛關(guān)注。我們?cè)?021年,有過(guò)一次機(jī)會(huì)早點(diǎn)關(guān)注到。
當(dāng)時(shí)我們一個(gè)同事,也訓(xùn)練了一個(gè)大語(yǔ)言模型,但我們不知道干什么用。我們想,是否可以用來(lái)改進(jìn)搜索?于是把這個(gè)pretrain的LLM,在搜索的relevance任務(wù)上去fine tune。結(jié)果和bert模型做對(duì)比。提升幅度很小,計(jì)算cost又增加很多。于是得到一個(gè)結(jié)論,這個(gè)LLM目前沒(méi)什么用。所以還是很沒(méi)眼光。
不過(guò)公司調(diào)整的很快,在2022年,我們?cè)谶@個(gè)方向上開(kāi)始投入?,F(xiàn)在,我們也取得了一些成果。應(yīng)用上大家可能更熟悉一些,豆包是中國(guó)最流行的AI對(duì)話助手,火山引擎的大模型服務(wù)也受到客戶的認(rèn)可,根據(jù)IDC的報(bào)告,火山是中國(guó)MaaS市場(chǎng)的第一名。
技術(shù)上我們也有自己的特點(diǎn)。得益之前的一些積累,我們?cè)贗nfra方面做的還是比較好的。我們很早就建設(shè)了大規(guī)模的穩(wěn)定訓(xùn)練系統(tǒng)MegaSacle,在訓(xùn)練任務(wù)上,MFU(浮點(diǎn)運(yùn)算利用率)超過(guò)55% ,這是當(dāng)時(shí)主流開(kāi)源框架的1.3倍以上,效果還是很不錯(cuò)的,有興趣的可以去看我們24年年初發(fā)的相關(guān)論文。
我們?cè)谀P徒Y(jié)構(gòu)、自研服務(wù)器上也有很多探索,這也讓我們實(shí)現(xiàn)了大模型的低調(diào)用成本。所以,我們?cè)谕ㄟ^(guò)火山引擎提供服務(wù)的時(shí)候,才能夠打破業(yè)界價(jià)格下限,同時(shí)保證自己有不錯(cuò)的毛利。
我們的GenMedia模型、VLM、語(yǔ)音模型表現(xiàn)很好,長(zhǎng)期屬于國(guó)際一流水平。另外,在大模型的研究方面還有一些更前沿的探索,我們叫Seed Edge計(jì)劃。我不展開(kāi)講了。
對(duì)未來(lái)大模型如何發(fā)展,我也不知道,但是我可以提幾個(gè)小問(wèn)題,和大家一起討論。
大家都在談?wù)揂GI,但什么是AGI,應(yīng)該如何評(píng)估是否到達(dá)AGI了?
大家都有不同的看法,我說(shuō)說(shuō)我的。我們可以做一個(gè)思想實(shí)驗(yàn)。假設(shè)把全世界的人類的工作(包括最初級(jí)的工作,也包括最頂尖科學(xué)家的工作)全部拿出來(lái),讓AI去做。我們定一個(gè)比例,比如95%,如果95%的工作AI全部都能完成,我們可能就可以說(shuō)真的達(dá)到AGI了。
AI的能力發(fā)展是非常不均衡的,今天大模型可以在國(guó)際數(shù)學(xué)奧林匹克上拿到金牌,這恐怕已經(jīng)超過(guò)了99.9%的人類。但對(duì)于很多工作,比如,一個(gè)初中生可以勝任的電話客服工作,大模型目前還不能完全做好。
那我們從補(bǔ)短板的角度繼續(xù)去思考一下,為什么會(huì)這樣?一個(gè)比較直觀的,是模型的學(xué)習(xí)能力。
目前的大模型是分階段的,訓(xùn)練階段和推理階段。當(dāng)模型部署到線上開(kāi)始服務(wù),就不再被訓(xùn)練,或者說(shuō),只能做in context learning。這和人類是不一樣的。人類是持續(xù)在學(xué)習(xí)的。
比如電話客服,一個(gè)名校的博士可能剛開(kāi)始也不知道怎么做好,但人可以很快學(xué)習(xí),可能用不了幾天就可以把工作做好了。而且人的學(xué)習(xí)效率很高,并且充分利用社會(huì)環(huán)境,比如他可以問(wèn)一下老員工或者經(jīng)理該怎么做。
所以說(shuō),如何讓大模型提高學(xué)習(xí)能力,是一個(gè)比較重要的問(wèn)題。最好是每一個(gè)人都可以以他的方式教知識(shí)給大模型。
第二個(gè)能力是IO能力,也就是和這個(gè)世界交互的能力。這個(gè)也顯而易見(jiàn)。即便在數(shù)字世界,雖然目前的大模型,在視頻、圖片合成方面的能力已經(jīng)超過(guò)人類,但是在眾多內(nèi)容理解、界面操作等方面,模型還是和人有比較大的距離。
這些都是非常基礎(chǔ),但非常值得研究的問(wèn)題。
有人說(shuō),2023年是人類歷史上的第3個(gè)奇跡年,我覺(jué)得絲毫不為過(guò)。AI的發(fā)展給人類社會(huì)預(yù)期會(huì)帶來(lái)巨大的變革,這場(chǎng)變革里會(huì)有無(wú)數(shù)的問(wèn)題,需要技術(shù)人去探索,去解決。
字節(jié)跳動(dòng)也會(huì)在大模型等前沿領(lǐng)域,持續(xù)耐心的探索下去,希望能夠?yàn)槿祟惿鐣?huì)貢獻(xiàn)自己的力量。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論
和比亞迪合作研發(fā)電池材料,字節(jié)技術(shù)不光服務(wù)自己,還能幫傳統(tǒng)行業(yè)!
定制 MicroOLED 屏幕解決 XR 清晰度問(wèn)題,字節(jié)搞硬件也不只是說(shuō)說(shuō)而已!
自研服務(wù)器還能降大模型調(diào)用成本,字節(jié)在技術(shù)細(xì)節(jié)上是真下功夫了!
收購(gòu) PICO 后先試兩條路線,2023 年才專攻技術(shù),字節(jié)搞 XR 還挺謹(jǐn)慎的嘛!
字節(jié) 2021 年居然誤判大模型價(jià)值,還好 2022 年及時(shí)補(bǔ)票,不然就錯(cuò)過(guò)風(fēng)口了!
從推薦系統(tǒng)到 AGI,字節(jié)十年技術(shù)跨度這么大,每步都踩在前沿上!
2014 年 5 人團(tuán)隊(duì)就搞萬(wàn)億特征推薦系統(tǒng),F(xiàn)TRL 還快速上線,字節(jié)技術(shù)底子真早!
豆包現(xiàn)在這么火,沒(méi)想到字節(jié)早期用 LLM 做搜索沒(méi)效果,調(diào)整還挺及時(shí)的!
發(fā)現(xiàn) Scaling Law 規(guī)律,還提升 GPU 計(jì)算效能,字節(jié)在科學(xué)計(jì)算領(lǐng)域藏得深!
當(dāng)年 CDN 優(yōu)化方案沒(méi)成,但團(tuán)隊(duì)轉(zhuǎn)崗還能負(fù)責(zé)重要業(yè)務(wù),字節(jié)資源盤活得好!