圖片來源@視覺中國

如何從3000萬到1億個圖中快速找到一顆脈沖星?

或許只能交給AI了。

在剛剛過去的2022世界人工智能大會(WAIC)上,一個消息不脛而走——在過去一年時間里,復(fù)旦大學(xué)池明旻教授科研團(tuán)隊(duì)發(fā)現(xiàn)了22顆脈沖星。除了助力中國探星之路再進(jìn)一步,這件事的意義還在于,該項(xiàng)目將人工智能與天文學(xué)跨領(lǐng)域融合,在脈沖星模型算法方面取得了突出成果。

發(fā)現(xiàn)脈沖星,難在哪兒?

脈沖星被認(rèn)為是浩瀚宇宙中的“燈塔”,由于其規(guī)律性的脈沖信號可作為宇宙導(dǎo)航器而得名,是宇宙中磁場最強(qiáng)的天體,具有非常高的天文學(xué)研究價(jià)值。自1967年脈沖星被英國射電天文學(xué)家發(fā)現(xiàn)以來,人類一直沒有停止對脈沖星的探索,并且搜尋脈沖星的科研方法也在不斷升級。

2016年,中國位于中國貴州黔南的500米口徑球面射電望遠(yuǎn)鏡(Five-hundred-meter Aperture Spherical radio Telescope,F(xiàn)AST)投入試運(yùn)行,作為全球范圍內(nèi)最大的射電望遠(yuǎn)鏡,F(xiàn)AST對于脈沖星的研究發(fā)現(xiàn)具有關(guān)鍵作用。

從搜尋脈沖星的整個鏈路看來,FAST主要解決了脈沖星的信號收集問題,后續(xù)在通過專業(yè)的天文軟件對信號做圖形轉(zhuǎn)化的預(yù)處理上需要耗費(fèi)龐大的計(jì)算資源。預(yù)處理完成后,天文科研工作者需要從預(yù)處理生成的上億張圖片中完成脈沖星的特征比對,從而找到潛在的脈沖星。

據(jù)池明旻教授介紹,因?yàn)镕AST是公共的科技基礎(chǔ)設(shè)施,其帶領(lǐng)的天文科研團(tuán)隊(duì)每周只能申請到500TB的FAST數(shù)據(jù)給到脈沖星搜索項(xiàng)目,但這500TB的數(shù)據(jù)經(jīng)過預(yù)處理之后會產(chǎn)生3000-1億張圖片,以往從這近1億張圖片中尋找脈沖星,可能需要1-2個科研工作者花上一年時間完成,是個非常大的工程。

數(shù)據(jù)量大只是其一,更難的一點(diǎn)在于,脈沖星的現(xiàn)有樣本量較少。自FAST啟用以來,中國發(fā)現(xiàn)的脈沖星一共有600多顆,池明旻團(tuán)隊(duì)用于訓(xùn)練AI模型的樣本則更少,也只有100顆左右。正是囿于這一局限,國家天文臺此前已有的脈沖星AI篩選模型準(zhǔn)確率有很大提升空間。

兩大難點(diǎn),讓發(fā)現(xiàn)脈沖星這件看起來非??岬氖虑轱@得并不那么性感。

池明旻教授坦言,項(xiàng)目剛開始也有超算平臺可以選擇,但是算力平臺往往只提供算力,在技術(shù)上鮮有支持。“超算平臺的使用需要投入非常多的技術(shù)人員,但是在校學(xué)生都不太擅長。”她描述當(dāng)時的情況。

轉(zhuǎn)機(jī)發(fā)生在2021年前后,彼時騰訊優(yōu)圖從基礎(chǔ)研究到產(chǎn)業(yè)落地的戰(zhàn)略正在全面鋪開,亟需尋找產(chǎn)業(yè)場景。了解到池明旻的關(guān)于脈沖星的科研項(xiàng)目后,騰訊優(yōu)圖與其取得了聯(lián)系。后來,雙方于極短的時間內(nèi)在脈沖星項(xiàng)目上一拍即合,并在2021年7月的WAIC上宣布了“探星計(jì)劃”。

“騰訊團(tuán)隊(duì)技術(shù)人員投入非常大,預(yù)處理算法基本不用我們做,都交給他們來部署。后面關(guān)于脈沖星的AI模型雙方共同優(yōu)化。”池明旻表示。

最終,在脈沖星AI模型的優(yōu)化中,雙方取得了多模態(tài)&半監(jiān)督AI的解決方案創(chuàng)新。這一越來越精準(zhǔn)的脈沖星模型算法,將在不久的將來向?qū)ν忾_放。

為什么是多模態(tài)&半監(jiān)督

數(shù)據(jù)顯示,多模態(tài)+半監(jiān)督學(xué)習(xí)的AI解決方案,相比國家天文臺原有的AI篩選模型具有更高的召回率,且誤報(bào)率下降98%。

那么,脈沖星為什么要多模態(tài)與半監(jiān)督學(xué)習(xí)相結(jié)合的AI解決方案才有效果?

池明旻表示,F(xiàn)AST收集回來的太空信號是一個時間周期信號,這些信號轉(zhuǎn)化成圖像后,像一個3D物體,從不同維度去看會獲得不一樣的信息。判斷是否是脈沖星的維度有很多,比如色散、向位等等。“基于多的信息的輸入,綜合去評價(jià)這個信號到底是不是脈沖星,在這種情況下肯定會比常規(guī)基于信號的直接分析,效果會比較好一些。”  她解釋稱。而AI算法要做的就是,要將這些不同維度的數(shù)據(jù)同脈沖星的特征數(shù)據(jù)做比對,找出潛在脈沖星。

在半監(jiān)督方面, 正如上文提到科研工作者可能每1億張圖片才能找出1顆脈沖星,這1億張圖片如果人工去做標(biāo)注非常不現(xiàn)實(shí),而且對樣本學(xué)習(xí)量的要求比較大。而半監(jiān)督學(xué)習(xí)是一種使用大量未標(biāo)記數(shù)據(jù),以及同時使用標(biāo)記數(shù)據(jù),來進(jìn)行計(jì)算的小樣本研究的常用手段。

“我們所謂的小樣本就是數(shù)據(jù)量比較小的情況下做數(shù)據(jù)增強(qiáng),比如通過仿真做噪聲模擬,這樣原本的幾百張樣本可能就會變成幾千張。”池明旻解釋。

總體來講,在騰訊優(yōu)圖實(shí)驗(yàn)室總監(jiān)汪鋮杰看來,能夠輔助池明旻教授團(tuán)隊(duì)進(jìn)行脈沖星的發(fā)現(xiàn)研究其實(shí)與騰訊優(yōu)圖一直以來在數(shù)據(jù)增強(qiáng)、小樣本研究的積累分不開。例如在數(shù)據(jù)增強(qiáng)方面,騰訊優(yōu)圖也在做相關(guān)的內(nèi)容研究項(xiàng)目,與我們當(dāng)前已經(jīng)使用到現(xiàn)實(shí)生活中的畫質(zhì)優(yōu)化本質(zhì)上是同一個邏輯,就是把自然界拍好的噪音水平加到高畫質(zhì)圖像中來構(gòu)建高清和降質(zhì)之間的關(guān)聯(lián)學(xué)習(xí)。

騰訊優(yōu)圖此前工業(yè)AI質(zhì)檢的項(xiàng)目中就做了很多小樣本研究的積累。“一些生產(chǎn)精度已經(jīng)很高的精密制造企業(yè),良品率已經(jīng)99%,一個缺陷品要等很久才有,有些缺陷品出現(xiàn)的概率可能是萬分之一,這個時候我們要么拿到100個有缺陷的樣品,要等這個生產(chǎn)線生產(chǎn)100萬個零件,而如果說我們要1萬個有缺陷樣本,可能要等生產(chǎn)線生產(chǎn)100萬個零件,時間上已經(jīng)不現(xiàn)實(shí)。”汪鋮杰補(bǔ)充。

會上,騰訊云副總裁、騰訊優(yōu)圖實(shí)驗(yàn)室總經(jīng)理吳運(yùn)聲也表示,騰訊的工業(yè)AI基礎(chǔ)技術(shù)集中在工業(yè)成像、基礎(chǔ)算法、高效學(xué)習(xí)以及仿真生成四個方面,通過這四部分能力已打造超過10個細(xì)分領(lǐng)域外觀檢測的解決方案。未來這些基礎(chǔ)技術(shù)也將有望像更多場景落地應(yīng)用。

在世界人工智能大會上,國家天文臺-騰訊天體AI探星計(jì)劃獲得世界人工智能大會SAIL之星獎(Super AI Leader)。更進(jìn)一步,騰訊與國家天文臺也在以“AI+云”開啟M31仙女座星系中脈沖星類致密天體的最深度完整探測。

(本文首發(fā)鈦媒體APP 作者 | 秦聰慧)

本文系作者 DeepWrite秦報(bào)局 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報(bào)

更多

14:30

3月31日全國農(nóng)產(chǎn)品批發(fā)市場豬肉平均價(jià)格為15.31元/公斤,比昨天下降1.0%

14:25

工信部:前2個月我國集成電路設(shè)計(jì)收入636億元,同比增長15.7%

14:23

工信部:前2個月我國軟件業(yè)務(wù)收入21534億元,同比增長11.7%

14:17

聯(lián)合利華與味可美就食品業(yè)務(wù)進(jìn)行深入談判,最早于今日達(dá)成協(xié)議

14:16

南向資金凈買入額達(dá)50億港元

14:02

英國第四季度GDP年率終值為1%

13:58

吉利旗下沃飛長空增資至3.6億

13:55

瑞銀:預(yù)計(jì)到年底金價(jià)將逐漸回落,未來幾年將走低

13:54

光纖概念震蕩回升,特發(fā)信息漲停

13:51

高盛:參考1990年石油危機(jī),美聯(lián)儲終將降息

13:50

創(chuàng)新藥概念午后再度活躍,海創(chuàng)藥業(yè)漲超11%

13:50

支付寶發(fā)布國內(nèi)首個“支付集成Skill”

13:46

騰訊WorkBuddy小程序上線,支持"云端+本機(jī)"雙模式運(yùn)行

13:39

寧波商業(yè)航天產(chǎn)業(yè)基地項(xiàng)目將于4月開啟招標(biāo),預(yù)計(jì)總投資額86.6億

13:39

滬深京三市成交額超1.5萬億元,較上日此時放量62億元

13:29

瑞銀:中國市場調(diào)整或已過度,優(yōu)質(zhì)AI股票迎來布局窗口

13:24

北京消費(fèi)品以舊換新政策持續(xù)落地,帶動銷售額約50億元

13:23

全國新能源汽車動力電池溯源信息平臺正式啟動

13:22

深圳:規(guī)模建設(shè)先進(jìn)級智能工廠

13:20

摩托車概念異動,宏昌科技走出20cm2連板

掃描下載App