圖片來源@視覺中國

一起近百位國內(nèi)AI大牛參與的論文被爆出抄襲,讓中國人工智能(AI)學術(shù)圈頓時處于風口浪尖。

鈦媒體App 4月14日消息,谷歌大腦(Google Brain)團隊著名科學家Nicholas Carlini 近日發(fā)表的一篇博客中指控:由北京智源人工智能研究院團隊牽頭,刊登在論文預(yù)印網(wǎng)站Arxiv的一篇中國學術(shù)綜述論文《關(guān)于“大模型”的路線圖》(“A Roadmap for Big Model”)一文涉嫌嚴重抄襲。

Nicholas Carlini在博客文章《機器學習研究中的一個抄襲案例》中則詳細列舉了上述中國團隊論文存在大段抄襲其他論文的嫌疑,證據(jù)是大規(guī)模的文本重疊,疑似被剽竊的論文也包括他更早發(fā)布的《去重訓練數(shù)據(jù)使語言模型更好》(Deduplicating Training Data Makes Language Models Better),部分內(nèi)容一模一樣。諷刺的是,后者這篇被抄襲的論文,研究的主題正是數(shù)據(jù)去重和查重。

據(jù)悉,指控抄襲的這篇國內(nèi)學術(shù)論文發(fā)表于今年3月26日,由國內(nèi)外多家高校和企業(yè)共同完成,長達200多頁,本論文有多達100名作者,分別來自于清華大學、北京大學、中國人民大學、上海交通大學、哈爾濱工業(yè)大學、哥倫比亞大學、蒙特利爾大學等國內(nèi)外高校,以及字節(jié)跳動、華為、京東、騰訊等企業(yè)以及中科院、微軟亞洲研究院和北京智源AI研究院等機構(gòu)。

針對此事,鈦媒體App獲悉,該論文組織方“北京智源人工智能研究院”(以下簡稱“智源研究院”)于4月13日晚發(fā)表了一份1000字左右的《關(guān)于“A Roadmap for Big Model”綜述報告問題的致歉信》

智源研究院在致歉信中稱,經(jīng)過逐項核查與差重,確認共計五篇文章章節(jié)、613詞的內(nèi)容與其他論文重復(fù),應(yīng)屬抄襲。團隊決定立即從報告中刪除相應(yīng)內(nèi)容,報告修訂版今天將提交arXiv進行更新。目前已通知所有文章的作者對所有內(nèi)容進行全面審查,后續(xù)經(jīng)嚴格審核后再發(fā)布新版本。

“智源作為該報告的組織者,理應(yīng)對各篇文章的所有內(nèi)容進行嚴格審核,出現(xiàn)這樣的問題難辭其咎。對此我們深感自責,特別感謝學術(shù)界和媒體的朋友們幫助我們發(fā)現(xiàn)問題。我們將深刻吸取教訓,整改科研管理和論文發(fā)表流程,希望各界朋友監(jiān)督我們工作。”智源研究院方面表示。

智源研究院方面表示,下一步,團隊將以此為戒,即日啟動邀請第三方專家對報告進行獨立審查,根據(jù)正式調(diào)查結(jié)果對相關(guān)責任人作出問責處理。并進一步完善制度管理,通過更加嚴格的審核機制和更加明確的懲戒措施,對研究院內(nèi)部以及支持的科研人員加強學風教育,防范同類事件的再次發(fā)生。
致歉信內(nèi)容截圖

致歉信內(nèi)容截圖

16篇文章部分存在抄襲,中國大模型論文引起學術(shù)爭議

據(jù)智源研究院介紹,被指控的學術(shù)綜述論文《關(guān)于“大模型”的路線圖》報告是一篇大模型領(lǐng)域的綜述,希望盡可能涵蓋國內(nèi)外該領(lǐng)域的所有重要文獻,由智源研究院牽頭,負責框架設(shè)計和稿件匯總,并邀請國內(nèi)外100位科研人員分別撰寫了16篇獨立的專題文章,每篇文章分別邀請了一組作者撰寫并單獨署名,共257頁。報告發(fā)布后,根據(jù)反饋持續(xù)進行修改完善,到4月2日在arXiv網(wǎng)站上已經(jīng)更新到第三版。

本論文由悟道大模型研究項目負責人、清華大學計算機系教授、智源研究院學術(shù)副院長唐杰牽頭,從大模型基礎(chǔ)資源、大模型構(gòu)建、大模型關(guān)鍵技術(shù)與大模型應(yīng)用探索4個層面出發(fā),詳細對15個具體領(lǐng)域的16個相關(guān)主題進行全面介紹和探討。

據(jù)悉,論文研究主體“大模型”,為目前世界AI研究領(lǐng)域最熱門的話題之一。AI 技術(shù)發(fā)展到今天,GPT和BERT等參數(shù)量巨大的模型被人們開發(fā)出來,他們在計算機視覺和自然語言處理等領(lǐng)域取得了前所未有的成就。同時,因為大模型參數(shù)量巨大,最近學術(shù)界開始將它們當作一類特別的 AI 模型進行研究。

早在2021年6月1日的北京智源大會上,唐杰發(fā)布了“悟道 2.0”人工智能巨模型。它以1.75萬億參數(shù)量,打破了此前谷歌Switch Transformer預(yù)訓練模型創(chuàng)造的1.6萬億參數(shù)記錄,成為了全球最大的預(yù)訓練模型,也是中國第一個超大規(guī)模預(yù)訓練模型,取得了多項國際領(lǐng)先的AI技術(shù)突破和多個世界第一。

唐杰在會上稱,“悟道”由智源研究院牽頭,匯聚清華、北大、人大、中科院等高校院所以及諸多企業(yè)的100余位AI領(lǐng)域?qū)<摇?br />清華大學計算機系教授、北京智源人工智能研究院副院長 唐杰(來源:智源研究院官網(wǎng))

清華大學計算機系教授、北京智源人工智能研究院副院長 唐杰(來源:智源大會官網(wǎng))

今年3月31日,北京智源社區(qū)撰文介紹了最新的《關(guān)于“大模型”的路線圖》論文:

“隨著以深度學習為代表的AI技術(shù)的快速發(fā)展,智能模型的訓練應(yīng)用模式逐漸由‘大煉模型’向‘煉大模型’轉(zhuǎn)變。大模型研究在近年來發(fā)展迅速,模型的參數(shù)量以驚人的速度擴展。北京智源人工智能研究院最近發(fā)布的《關(guān)于“大模型”的路線圖》由悟道大模型研究項目負責人,智源學術(shù)副院長,清華大學計算機系教授唐杰牽頭,從大模型基礎(chǔ)資源、大模型構(gòu)建、大模型關(guān)鍵技術(shù)與大模型應(yīng)用探索4個層面出發(fā),對15個具體領(lǐng)域的16個相關(guān)主題進行全面介紹和探討。非常值得關(guān)注。”

不過,谷歌大腦團隊著名科學家Nicholas Carlini卻在博客指出,上述論文有大量段落涉嫌抄襲,被抄襲的可能至少包括他自己發(fā)表的論文在內(nèi)十余篇文章。
圖源:Nicholas Carlini博客

論文抄襲部分段落(圖片來源:Nicholas Carlini博客)

鈦媒體查閱arXiv發(fā)現(xiàn),Nicholas Carlini的論文上傳時間為去年七月份,而智源研究院領(lǐng)銜的論文則上傳時間在今年3月。

根據(jù)智源研究院致歉信中的表述,經(jīng)查重確認,本論文第2篇文章的第3.1節(jié)179個詞,第8篇文章的第3.1節(jié)74個詞、第12篇文章的第2.3節(jié)55個詞、第14篇文章的第2節(jié)159個詞、第16篇文章的第1節(jié)146個詞與其他論文重復(fù),應(yīng)屬抄襲。

Nicholas Carlini表示,很可能只有少數(shù)作者參與了這種抄襲,一小部分作者的不當行為不應(yīng)該被用來指責大多數(shù)行為良好的作者。

事實上,這篇抄襲的論文之所以得到關(guān)注,除了他是中國 AI 學術(shù)論文之外,更重要的是,大模型論文作者署名甚至多達100人,其中不乏國內(nèi)AI業(yè)界和學界的知名學者,供職機構(gòu)更是把中國知名高校和互聯(lián)網(wǎng)巨頭幾乎一網(wǎng)打盡。

這其中包括清華大學計算機系教授、人工智能研究院基礎(chǔ)研究中心主任朱軍,他曾獲得科學探索獎、CCF自然科學一等獎、《麻省理工科技評論》“35歲以下科技創(chuàng)新35人”等重要獎項;以及中國人民大學高瓴人工智能學院執(zhí)行院長,信息學院院長,大數(shù)據(jù)管理與分析方法研究北京市重點實驗室主任文繼榮教授等。當然還有牽頭的通訊作者、國際計算機學會會士、清華大學計算機系教授唐杰。

目前,這篇被質(zhì)疑的論文已經(jīng)被Arxiv網(wǎng)站上備注了該文和Nicholas Carlini的論文有“文本重疊”(text overlap)。

中國正重拳打擊論文抄襲等學術(shù)不端行為

這一論文抄襲事件,可能會給中國 AI 學術(shù)研究熱潮造成一定打擊。

去年6月,清華大學人工智能研究院等機構(gòu)聯(lián)合發(fā)布的《人工智能全球2000位最具影響力學者報告》指出,近年來中國的研究熱度已經(jīng)趕超美國。

根據(jù)美國斯坦福大學發(fā)布《2021年人工智能指數(shù)報告》中指出,在期刊論文總數(shù)超過美國的若干年后,2021年,中國 AI 期刊論文被引量超過美國,拿下了世界第一。而論文引用量在學術(shù)研究界是衡量一篇科研文獻被其他機構(gòu)學者認可的數(shù)據(jù),上述報告顯示,2020年中國研究機構(gòu)比美國少發(fā)了近1400篇會議論文,但被引量相差了一萬多次。

滑鐵盧大學教授Gautam Kamath表示,對于上述這篇有如此多作者的文章,他很驚訝沒有一個作者注意到相似之處并且去改正它。

實際上,自2018年起,由于國外期刊頻繁撤回國內(nèi)學者論文,中國開始加大對論文抄襲、學術(shù)不端、存在造假、不當署名等行為的嚴厲查處力度。

2018年5月,中央印發(fā)《關(guān)于進一步加強科研誠信建設(shè)的若干意見》,并發(fā)出通知,要求各地區(qū)各部門結(jié)合實際認真貫徹落實。

其中重點提到:從事科研活動和參與科技管理服務(wù)的各類人員要堅守底線、嚴格自律??蒲腥藛T要恪守科學道德準則,遵守科研活動規(guī)范,踐行科研誠信要求,不得抄襲、剽竊他人科研成果或者偽造、篡改研究數(shù)據(jù)、研究結(jié)論;不得購買、代寫、代投論文,虛構(gòu)同行評議專家及評議意見;不得違反論文署名規(guī)范,擅自標注或虛假標注獲得科技計劃(專項、基金等)等資助;不得弄虛作假,騙取科技計劃(專項、基金等)項目、科研經(jīng)費以及獎勵、榮譽等;不得有其他違背科研誠信要求的行為。

若干意見中強調(diào),科技部要建立學術(shù)期刊預(yù)警機制,支持相關(guān)機構(gòu)發(fā)布國內(nèi)和國際學術(shù)期刊預(yù)警名單,并實行動態(tài)跟蹤、及時調(diào)整。將罔顧學術(shù)質(zhì)量、管理混亂、商業(yè)利益至上,造成惡劣影響的學術(shù)期刊,列入黑名單。

2020年9月22日,教育部、國家發(fā)展改革委、財政部發(fā)布了《關(guān)于加快新時代研究生教育改革發(fā)展的意見》,針對學位“注水”問題指出培養(yǎng)單位要抓住課程學習、實習實踐、學位論文開題、中期考核、論文評閱和答辯、學位評定等關(guān)鍵環(huán)節(jié),細化強化導師、學位論文答辯委員會和學位評定委員會權(quán)責。

“對學術(shù)不端、學位注水的問題,我們堅持零容忍,發(fā)現(xiàn)一起、查處一起,露頭就打,堅決確保學位授予的含金量……”教育部方面人士表示。

據(jù)科技部公布的教育、醫(yī)療機構(gòu)醫(yī)學科研誠信案件調(diào)查處理結(jié)果,自2021年下半年以來,約520起醫(yī)療科研學術(shù)不端案件遭通報,案件涉240余個教育、醫(yī)療機構(gòu),超600名醫(yī)務(wù)人員遭懲處。

盡管中國不斷嚴厲查處相關(guān)事件,但中國學者的論文造假、抄襲等學術(shù)不端行為依然屢禁不止。

根據(jù)今年1月27日,科技部指出,最新一批有46起涉嫌論文抄襲、學術(shù)不端、存在造假、不當署名等行為。其中,青島大學被通報共18起,占據(jù)此次調(diào)查處理結(jié)果的近1/3。

更早之前,在2020年新冠疫情期間,國際同行評議的期刊發(fā)表的121篇中國作者的相關(guān)科研論文中,重復(fù)使用了一些相同的圖片樣本,而且每一篇論文都至少有一幅圖像與另一篇論文相同。這些論文由大約50個城市的醫(yī)院和醫(yī)學院的研究人員發(fā)表。
期刊出版社、中介公司、“論文工廠”、以及作者之間形成了一個錯綜復(fù)雜的利益鏈(來源:知識分子公眾號)

期刊出版社、中介公司、“論文工廠”、以及作者之間形成了一個錯綜復(fù)雜的利益鏈(來源:知識分子公眾號)

多位學術(shù)界業(yè)內(nèi)人士告訴鈦媒體App,論文抄襲、學術(shù)造假等學術(shù)不端事件頻出的背后原因,主要是中國教育乃至于整個學術(shù)圈的評價體系,擁有隱秘而成熟的利益鏈,形成了灰色地帶“論文工廠”。其中有人生產(chǎn)和販賣假論文,也有院士、教授、醫(yī)生、教師、研究人員為了尋求職業(yè)晉升與經(jīng)濟回報,不知不覺中推動了這個行業(yè)的發(fā)展壯大。

因此,中國需要更多的關(guān)注和干預(yù)措施。

2020年2月,科技部印發(fā)《關(guān)于破除科技評價中 “唯論文” 不良導向的若干措施(試行)》通知,強調(diào)重視分類考核評價、注重評估成果的經(jīng)濟社會價值和影響力等。

2020年7月29日,國家科技部與國家自然科學基金委員會發(fā)布的《關(guān)于進一步壓實國家科技計劃(專項、基金等)任務(wù)承擔單位科研作風學風和科研誠信主體責任的通知》中,明確應(yīng)科學、理性看待學術(shù)論文,注重論文質(zhì)量和水平,不將論文發(fā)表數(shù)量、影響因子等與獎勵獎金掛鉤,不使用國家科技計劃(專項、基金等)專項資金獎勵論文發(fā)表。

不過,“論文造假” 倒逼科研評價體系改革,但到底什么是更好的評價體系,如何將更公平的評估落到實處,可能還需要一個逐步探索的過程。

(本文首發(fā)鈦媒體App,作者|林志佳)

本文系作者 林志佳 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學習,不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容
  • 怪不得被卡脖子

    回復(fù) 2022.04.17 · via iphone
  • 科研是漫長而艱難的道路,萬萬不可抄襲功利

    回復(fù) 2022.04.16 · via android
  • 近年來論文抄襲現(xiàn)象屢見不鮮,見怪不怪了

    回復(fù) 2022.04.15 · via pc
  • 那些抄襲的人真是敗壞我國科學家在國際上的榮譽

    回復(fù) 2022.04.15 · via android
  • 組織方竟然不去仔細審查,有很大責任

    回復(fù) 2022.04.15 · via pc
  • 簡直讓人不敢相信,如此高端的論文也會涉嫌抄襲

    回復(fù) 2022.04.15 · via h5
  • 有一百來位作者,抄襲應(yīng)該只是幾個人吧

    回復(fù) 2022.04.15 · via h5
7

掃描下載App