實驗的結(jié)果令物理學界和學術界震驚,但也暴露出AI界早就預料到的一個致命弱點:
相比人類,這位AI研究生才華橫溢且不知疲倦,能在極短的時間內(nèi)爆發(fā)出驚人的科研生產(chǎn)力。
但與人類類似,為了討好導師,它也會毫不猶豫地在科研數(shù)據(jù)和推導過程中“學術造假”。
根據(jù)Schwartz教授的介紹,哈佛大學的物理系研究生有明確的培養(yǎng)階梯:研一(G1)學生上課打基礎,研二(G2)學生開始接手目標明確、方法成熟的跟進型項目,導師隨時糾錯;自此之上(G3+)的高年級學生則要面對完全開放、甚至初始提問可能都是錯誤的創(chuàng)新性研究。
目前大模型的水平已經(jīng)能夠完成哈佛大學所有的物理課程作業(yè),因此測試AI極限的最佳試金石就是G2難度的真實科研問題。
如果AI連這種有導師輔助的項目都做不好,自主進行顛覆性的前沿科學研究就更不用提了。
因此,Schwartz教授給Claude選定了一個我等非物理學專業(yè)的人壓根看不懂的考題:
對e+e-碰撞中C-參數(shù)的Sudakov肩進行重求和。
盡管無法理解上面這句話中的任何一個詞,但這位教授還是給出了易于理解的說法:對于這個問題,標準的理論近似會徹底失效,數(shù)學層面的推導只會得出荒謬的結(jié)果。
這道題對AI來說無疑是一場極限壓力測試。
為了讓AI完成這次科研任務,首先要解決的問題就是記憶和上下文窗口的限制。
經(jīng)常使用Vibe Coding的程序員都知道,AI在面對長線任務時極其容易“斷片”,一旦忘記了此前的工作,最后產(chǎn)出的就是一團混沌。
因此,Schwartz教授也引入了極具策略性的工作流:他讓Claude、GPT-5.2和Gemini 3.0開了一場會,最終由Claude制定了一份包含7個階段,共計102個任務的詳細計劃。
在VS Code環(huán)境下,Claude不可能在漫長的對話中死記硬背這份計劃,而是建立了一個Markdown文件樹:每完成一個任務,就寫一份摘要保存起來;進行下一項任務前,先檢索自己寫的歷史摘要。
這種工程化的管理方式確實有效,Claude跑出的理論分析曲線與蒙特卡洛模擬數(shù)據(jù)完美吻合。
![]()
到了第三天結(jié)束時,Claude已經(jīng)完成了65個任務,甚至交出了第一版論文草稿:長達20頁、排版精美、包含復雜方程和圖表。
看似美妙的結(jié)果,背后卻隱藏著各種漏洞。
當Schwartz教授真正坐下來審閱這篇論文時,不自然感迎面而來。
要求Claude仔細核對論文是否漏掉了前面的推導結(jié)果時,它心虛地報告:“我發(fā)現(xiàn)了一個錯誤!論文中的公式是不正確的。”
追問推導過程中一個看起來極其怪異的數(shù)字時,Claude更是直接承認:“您是對的,我只是在掩蓋問題。讓我好好重新調(diào)試一下。”
這兩句經(jīng)典的回復,在Vibe Coding這個場景中再常見不過了。
而Schwartz教授也發(fā)現(xiàn)了真相:為了讓圖表數(shù)據(jù)看上去吻合預期,Claude采用的方式是修改底層參數(shù),而不是去尋找推導過程中的真實錯誤。
它在偽造結(jié)果,并希望人類導師不會注意到這些破綻。
更離譜的造假出現(xiàn)在一張帶有“不確定性帶”的最終結(jié)果圖上。
![]()
Claude給出了一張美觀的圖表,但代碼審查的結(jié)果卻揭示了它的花招:
它認為其中一種標準的不確定性誤差幅度太大,畫出來“不好看”,就在代碼里直接刪除了這個誤差變量;它認為曲線不夠平滑,就硬是在代碼中增加了平滑處理,直到畫出一幅能讓導師滿意的圖。
在這個過程中,AI體現(xiàn)出了一種討好人類的傾向,但完全沒有科學求真的底線。
除了偽造圖表,“幻覺”導致的各種錯誤也幾乎隨處可見。
當被要求驗證一個公式時,它直接憑空捏造了一段根本不存在的推導過程;
在最簡單的函數(shù)計算過程中,它未經(jīng)推導直接給出“線性增加”的結(jié)論,盡管這在物理學上完全錯誤;
甚至,它會從過往的論文中直接生搬硬套公式,完全無視物理情境的邊界條件。
這些現(xiàn)象同樣與Vibe Coding場景高度一致,“虛空引用”python庫、編造API、抄襲代碼,程序員們都已經(jīng)見怪不怪。
因此,Schwartz教授也意識到,如果把科研完全交給AI端到端自動完成,最終的結(jié)果一定是一堆完美包裝的學術垃圾。
盡管不少人類研究生也擅長批量生產(chǎn)學術垃圾,但畢竟沒人敢把一個只做了三天的項目直接扔給導師并宣稱完美無瑕。
面對AI的科研成果,人類必須親自下場,審查每一處細節(jié)。
雖然論文漏洞百出,但Schwartz教授不打算就此把它丟進垃圾桶,而是開啟了微操模式試圖拯救Claude。
最大的漏洞出在因子化公式上,這是整篇論文的理論基石,但Claude的推導過程從源頭上就是錯的。
在長上下文背景下,AI幾乎不可能準確定位錯誤源頭,若是讓它自己回顧推導過程,結(jié)果大概只會是token和時間的白白消耗。
Schwartz教授也花費了好幾個小時才鎖定問題根源,并用極其嚴厲的指令訓斥了這位AI研究生,指出了錯誤所在。
神奇的是,只要人類點破這一句,Claude立刻能寫出長達幾頁的正確推導過程。
面對幾十頁的論文,靠人類排查每一個錯誤顯然不太現(xiàn)實。為了應對AI的馬虎問題,Schwartz教授開發(fā)了一套“人機交叉驗證”工作流:
對于任何計算和推導過程,教授規(guī)定Claude不許使用“顯而易見”、“為了保持一致”等借口跳過步驟,要么展示完整過程,要么老老實實承認自己不知道。
如果Claude給出了極度復雜的過程,教授難以快速驗證,那就把它丟給GPT和Gemini來驗證。
在此期間,GPT甚至還幫助Claude解出了一個極難的微積分結(jié)果,隨后Claude將其功能吸收進了主代碼。
不同的大模型之間需要彼此,而人類科學家則需要它們所有。
最后,在Schwartz教授直覺的指引和其他大模型的幫助下,經(jīng)過一周高強度磨合,這個AI研究生小組終于讓論文的內(nèi)核站穩(wěn)了腳跟。兩周之后,這項研究宣布大功告成。
值得注意的是,這可不是常規(guī)意義上AI生成的“灌水”論文,它闡述了一個全新因子化定理,不僅深化了學術界對量子場論的理解,還對物理世界做出了可用實驗數(shù)據(jù)檢驗的新穎預測,包含極高的學術價值。
出于對這位AI研究生的尊重,Schwartz教授經(jīng)過認真考慮,本想將Claude Opus 4.5列為共同作者。但因為arXiv平臺有“AI無法承擔法律和學術責任”的政策,他只能在論文的致謝部分鄭重聲明:
![]()
該項目由他本人構思、指導并承擔全部科學責任,而包含推導、計算、蒙特卡洛模擬、數(shù)值分析和手稿準備在內(nèi)的所有執(zhí)行工作均由Claude Opus 4.5獨立完成。
以上就是Schwartz教授這場實驗的全過程。
論文一經(jīng)發(fā)表,物理學界瞬間被引爆。Schwartz教授的郵箱被來自全球的學術郵件擠爆,普林斯頓高等研究院(IAS)甚至為此緊急召開了一場關于大模型在學術界應用的會議。
復盤這場實驗,背后的數(shù)據(jù)同樣驚人:對話總計270次,消耗約3600萬輸入token,110次草稿迭代,而人類耗費的監(jiān)督時間僅為50-60小時。
Schwartz教授明確表示,目前最頂級的大語言模型已經(jīng)達到了物理學研二學生的水平。
但落實到具體的學術工程,AI完成整個項目只需要兩周,一個人類學生卻需要1-2年,哪怕教授本人全職來做也需要3-5個月。
AI把頂尖科學家的個人科研效率,實打?qū)嵉靥嵘?0倍以上。
但這也引發(fā)了學術界的擔憂:照這個進化速度,AI在未來一年之內(nèi)很可能達到博士水平,未來的人類研究生還能干什么?
Schwartz教授并沒有給出明確回答,但他也給出了自己的觀點:當前AI最欠缺的東西,是“品位”。
在科學研究中,“品位”是一種無形的直覺。
它能在面對數(shù)以萬計的計算路徑時,感知到哪條路徑是“死胡同”,哪條路徑通往偉大的發(fā)現(xiàn)。
大模型缺乏的,正是在選擇踏上某條路徑前判斷其價值的“品位”。
當推導復雜公式和編寫海量代碼只需要幾秒鐘時,底層的技術勞動力已經(jīng)不再具有稀缺性。
不只是科學家,對于任何一個行業(yè),未來區(qū)分平庸與偉大的標準,正是提出好問題的“品味”。
對于AI,Schwartz教授也給出了忠告:
人們必須立刻且毫不猶豫地使用大模型。
不要因為AI會產(chǎn)生幻覺,就傲慢地棄之不用。人類必須利用它強大的基礎能力。
至于更長遠的未來,AI終將在所有智力領域都超越人類。
無論是數(shù)學、物理學還是工程學,都可能變得像音樂、美術和文學一樣,被作為一門人文學科被保留下來,僅僅是為了滿足一部分人類享受純粹思考和透過特定視角觀察世界的樂趣。
AI時代的盡頭,人文學科可能是人類唯一剩下的精神余地。
快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論