免费看在线a黄视频|99爽99操日韩毛片儿|91停婷在线无码观看|日韩三级片小视频|一级黄片免费播放|欧美成人视频网站导航|亚洲日韩欧美七区|国产视频在线观看91|人成视频免费在线播放|国产精品成人在线免费观看

讓川普頭疼的Claude,在技術(shù)和人類(lèi)安全邊緣狂飆

AGI
在人工智能的發(fā)展編年史中,鮮有企業(yè)如同 Anthropic(Claude母公司) 這樣,將極端的理想主義與冷酷的商業(yè)現(xiàn)實(shí)糅合得如此深刻,又如此別扭。

文 | 吳懟懟

我在2023年開(kāi)始使用Claude,2025年初被封號(hào),失去所有對(duì)話記錄,怎么申訴都沒(méi)用。甚至通過(guò)蘋(píng)果充值的訂閱費(fèi)也沒(méi)了。

后來(lái)通過(guò)訂閱poe間接使用Claude,但是poe使用體驗(yàn)越來(lái)越差,而且間接調(diào)用不是那個(gè)味。

重新注冊(cè)了,但是不敢深度使用,畢竟失去記錄是很痛苦的。

主要陣地回到Chatgpt,GPT5.2后用起來(lái)很舒適,可能是幻覺(jué)最少的一個(gè)模型,幸好又出了Gemini3.0,二者可以可以彌補(bǔ)失去Claude的困境。

但是Claude繼續(xù)展現(xiàn)出了越來(lái)越強(qiáng)的生命力,甚至在和五角大樓產(chǎn)生矛盾后,一度扭轉(zhuǎn)了此前在B端強(qiáng)而C端應(yīng)用始終落后的局面,沖榜App Store免費(fèi)榜首位。

這一極具戲劇性的事件向整個(gè)科技界證明了一個(gè)極其重要的商業(yè)啟示:在這個(gè)全人類(lèi)普遍擔(dān)憂技術(shù)失控的焦慮年代,“極致的安全承諾與道德潔癖”已經(jīng)不再僅僅是拖累商業(yè)變現(xiàn)的學(xué)術(shù)教條,它在關(guān)鍵時(shí)刻爆發(fā)出的道德感召力,能夠轉(zhuǎn)化為一種具有巨大商業(yè)引力和忠誠(chéng)度的不可替代的品牌護(hù)城河。

那么,這個(gè)讓人又愛(ài)又恨的模型和公司,是如何崛起的?

在人工智能的發(fā)展編年史中,鮮有企業(yè)如同 Anthropic(Claude母公司) 這樣,將極端的理想主義與冷酷的商業(yè)現(xiàn)實(shí)糅合得如此深刻,又如此別扭。

截至2026年初,這家總部位于舊金山的初創(chuàng)公司不僅實(shí)現(xiàn)了高達(dá)140億美元的年度經(jīng)常性收入(ARR),更在最近一輪由 Coatue 和 GIC 領(lǐng)投的 Series G 輪融資中斬獲300億美元,將其投后估值推升至史無(wú)前例的3800億美元。

掩蓋在耀眼財(cái)務(wù)數(shù)據(jù)之下的,是一場(chǎng)前所未有的社會(huì)學(xué)與計(jì)算機(jī)科學(xué)實(shí)驗(yàn)。

本報(bào)告綜合了最新的商業(yè)數(shù)據(jù)、技術(shù)白皮書(shū)、內(nèi)部治理結(jié)構(gòu)演變以及2026年初極其劇烈的地緣政治摩擦,對(duì) Anthropic 進(jìn)行全景式解構(gòu)。

從其作為“安全實(shí)驗(yàn)室”的創(chuàng)立初衷,到其在殘酷市場(chǎng)中崛起的商業(yè)版圖,再到其底層技術(shù)突破與和美國(guó)國(guó)防部的激烈交鋒,Anthropic 的發(fā)展軌跡揭示了當(dāng)代前沿人工智能領(lǐng)域最核心的矛盾:在通用人工智能(AGI)即將到來(lái)的前夜,人類(lèi)應(yīng)如何駕馭這股可能顛覆文明的絕對(duì)力量。

01 裂痕

要理解 Anthropic 的企業(yè)基因,必須追溯到2020年至2021年間硅谷歷史上最具標(biāo)志性的一次意識(shí)形態(tài)決裂。

當(dāng)時(shí),包括研究副總裁 Dario Amodei、安全與策略總監(jiān) Daniela Amodei、理論物理學(xué)家兼研究員 Jared Kaplan、政策總監(jiān) Jack Clark、以及可解釋性研究先驅(qū) Chris Olah 在內(nèi)的 OpenAI 核心團(tuán)隊(duì)集體辭職,另起爐灶創(chuàng)立了 Anthropic。

這場(chǎng)分裂并非源于傳統(tǒng)的利益分配不均,而是源于對(duì)人工智能發(fā)展路徑的根本性認(rèn)知分歧。這群出走的研究人員是人工智能領(lǐng)域“擴(kuò)展定律”(Scaling Laws)最堅(jiān)定的發(fā)現(xiàn)者和信徒。

早在 OpenAI 時(shí)期,Jared Kaplan 就主導(dǎo)發(fā)表了關(guān)于神經(jīng)語(yǔ)言模型擴(kuò)展定律的開(kāi)創(chuàng)性論文,從理論物理的角度證明了只要按比例增加模型參數(shù)量、訓(xùn)練數(shù)據(jù)量和計(jì)算資源,AI 的交叉熵?fù)p失就會(huì)以可預(yù)測(cè)的冪律下降,從而帶來(lái)性能的指數(shù)級(jí)躍升。Dario Amodei 在2019年主導(dǎo)研發(fā) GPT-2 時(shí),就在實(shí)踐中敏銳地察覺(jué)到了這一趨勢(shì),并向當(dāng)時(shí)的管理層極力主張這一發(fā)現(xiàn)的顛覆性意義。

然而,正是這種對(duì)模型能力即將呈指數(shù)級(jí)爆炸的深刻認(rèn)知,在團(tuán)隊(duì)內(nèi)部催生了巨大的安全焦慮。

Dario Amodei 及其同僚認(rèn)為,隨著微軟等外部巨頭資本的注入,OpenAI 對(duì)商業(yè)化產(chǎn)品發(fā)布的狂熱正在壓倒對(duì)潛在災(zāi)難性風(fēng)險(xiǎn)的防范。

在他們看來(lái),如果不將安全(Safety)與對(duì)齊(Alignment)研究放在與能力提升同等重要甚至更高的位置上,AI 的最終失控將是不可避免的物理規(guī)律。面對(duì)路線分歧,Dario Amodei 選擇了離開(kāi)。他在日后回顧這段歷史時(shí)坦言:“不要去和別人的愿景爭(zhēng)論,也不要試圖讓別人按照你的方式行事。如果你有一個(gè)強(qiáng)烈的想法,最好走自己的路。也許你的愿景會(huì)成功,也許不會(huì),但至少那是你自己的。”

基于“在走向深淵前踩下剎車(chē)”的共同信念,Anthropic 最初被嚴(yán)格定位為一個(gè)“AI 安全實(shí)驗(yàn)室”。在公司早期的文化塑造中,管理層極度癡迷于保持團(tuán)隊(duì)的使命純潔性。

總裁 Daniela Amodei 曾透露,Dario 會(huì)定期舉行被內(nèi)部戲稱(chēng)為“Dario 愿景探索”(Dario vision quests)的全員講座,不斷強(qiáng)化危機(jī)意識(shí)。

公司甚至設(shè)立了極其嚴(yán)苛的文化面試,以篩選出那些真正認(rèn)同使命而非僅僅為了期權(quán)暴富的候選人。一個(gè)經(jīng)典的面試問(wèn)題是:“如果 Anthropic 因?yàn)榘踩驔Q定不發(fā)布模型,導(dǎo)致你的股票變得一文不值,你愿意接受嗎?”。

這種近乎宗教般的嚴(yán)謹(jǐn)態(tài)度,奠定了 Anthropic 在日后即使面對(duì)百億級(jí)商業(yè)誘惑時(shí),依然堅(jiān)持技術(shù)底線的文化基石。

02 組織架構(gòu)的社會(huì)學(xué)實(shí)驗(yàn)

在確立了安全優(yōu)先的文化基調(diào)后,擺在 Anthropic 面前的現(xiàn)實(shí)問(wèn)題是:訓(xùn)練前沿模型需要以百億美元計(jì)的算力資源,而引入巨額資本不可避免地會(huì)帶來(lái)追求短期財(cái)務(wù)回報(bào)的壓力。

為了在吸收資本的同時(shí)避免被資本吞噬,Anthropic 設(shè)計(jì)了一套硅谷歷史上極為罕見(jiàn)且復(fù)雜的雙層治理結(jié)構(gòu):特拉華州公益企業(yè)(Public Benefit Corporation, PBC)地位與“長(zhǎng)期利益信托”(Long-Term Benefit Trust, LTBT)。

普通公司的董事會(huì)負(fù)有對(duì)股東實(shí)現(xiàn)財(cái)務(wù)回報(bào)最大化的單一信托責(zé)任,任何偏離利潤(rùn)最大化的決策都可能面臨股東的訴訟。

而作為 PBC,Anthropic 在其公司章程中明確規(guī)定了其核心的公共利益目標(biāo):“為了人類(lèi)的長(zhǎng)期利益,負(fù)責(zé)任地開(kāi)發(fā)和維護(hù)先進(jìn)的 AI”。

這種法律地位賦予了董事會(huì)在決策時(shí)的豁免權(quán)和多維考量空間,使其在面臨短期商業(yè)變現(xiàn)與長(zhǎng)期社會(huì)外部性(如國(guó)家安全風(fēng)險(xiǎn)、人類(lèi)生存威脅)的沖突時(shí),能夠合法、合規(guī)地優(yōu)先考慮后者,甚至做出可能損害短期利潤(rùn)的決定。

然而,Anthropic 認(rèn)為僅僅擁有法律許可并不足以約束資本的貪婪。真正的制衡機(jī)制在于其獨(dú)創(chuàng)的“長(zhǎng)期利益信托”(LTBT)。

這是一個(gè)由五名在 AI 安全、國(guó)家安全、公共政策等領(lǐng)域具有深厚背景的獨(dú)立受托人組成的外部機(jī)構(gòu)。該信托持有一種特殊的 T 類(lèi)股票(Class T),賦予其選舉和罷免部分董事會(huì)成員的權(quán)力。

按照設(shè)計(jì),隨著公司達(dá)成特定的資金里程碑和時(shí)間推移,LTBT 的權(quán)力將逐步擴(kuò)大,并最終在四年內(nèi)獲得選舉多數(shù)董事會(huì)成員的絕對(duì)控制權(quán)。LTBT 的設(shè)計(jì)初衷并非干預(yù)公司的日常商業(yè)運(yùn)營(yíng),而是專(zhuān)注于防范“極端事件”和長(zhǎng)遠(yuǎn)安全風(fēng)險(xiǎn),確保公司領(lǐng)導(dǎo)層在面對(duì)國(guó)家級(jí)安全威脅或?yàn)?zāi)難性風(fēng)險(xiǎn)評(píng)估時(shí),不會(huì)為了“搶占市場(chǎng)第一”而犧牲安全性。

盡管該架構(gòu)在理論上構(gòu)筑了完美的防火墻,但在實(shí)踐中卻隱藏著巨大的結(jié)構(gòu)性張力。

為了安撫提供數(shù)百億美元算力和資金的投資者,Anthropic 在其信托協(xié)議中留下了一個(gè)被稱(chēng)為“故障保護(hù)”(Failsafe)的法律后門(mén):如果達(dá)到絕大多數(shù)股東的投票同意門(mén)檻,股東可以在未經(jīng)五名信托人同意的情況下,強(qiáng)行修改或廢除長(zhǎng)期利益信托的規(guī)則。

考慮到截至2026年,亞馬遜和谷歌等少數(shù)科技巨頭通過(guò)多輪戰(zhàn)略投資掌握了相當(dāng)大比例的股權(quán),這一“超級(jí)多數(shù)票”門(mén)檻在極端情況下并非不可逾越。

這意味著,盡管 Anthropic 試圖用嚴(yán)密的法律契約鎖住資本這頭“利維坦”,但牢籠的備用鑰匙依然掛在資本巨頭自己的脖子上。這種微妙的權(quán)力制衡,構(gòu)成了 Anthropic 內(nèi)部長(zhǎng)期存在的深層治理隱患。

03 商業(yè)帝國(guó)的崛起

在確立了復(fù)雜的防御架構(gòu)后,Anthropic 在殘酷的商業(yè)賽道上展現(xiàn)出了令人畏懼的爆發(fā)力,用實(shí)際行動(dòng)證明了“安全與商業(yè)并非互斥”。

從 2024 年僅有 10 億美元的年收入,到 2025 年底猛增至 90 億美元,再到 2026 年初實(shí)現(xiàn)驚人的 140 億美元年度經(jīng)常性收入(ARR),Anthropic 實(shí)現(xiàn)了連續(xù)三年、每年超過(guò) 10 倍的恐怖復(fù)合增長(zhǎng)率。

這種爆炸性的商業(yè)版圖,其基石是 Claude 家族在企業(yè)級(jí)市場(chǎng)的統(tǒng)治力,但同時(shí)也伴隨著極具爭(zhēng)議的區(qū)域封鎖政策。

2026 年 2 月正式發(fā)布的 Claude 4.6 模型家族(以 Opus 4.6 和 Sonnet 4.6 為代表),標(biāo)志著 AI 能力向深度邏輯推演和自主智能體(Agentic workflows)的進(jìn)一步范式轉(zhuǎn)變。

Claude 4.6 創(chuàng)新性地引入了原生支持高達(dá) 100 萬(wàn) Token 的超大上下文窗口(1M Context Window),并升級(jí)了智能體團(tuán)隊(duì)(Agent teams)的協(xié)同作業(yè)能力。Opus 4.6 在代碼審查、系統(tǒng)調(diào)試和長(zhǎng)周期任務(wù)的維持上展現(xiàn)出了頂尖的可靠性;而 Sonnet 4.6 則在速度與智能之間取得了絕佳的平衡,被定位為企業(yè)日常智能體應(yīng)用的最佳基座。

在與其他頂尖模型的對(duì)比中,Claude 4.6 展現(xiàn)出了驚人的統(tǒng)治力:

在開(kāi)發(fā)者社區(qū)和企業(yè)級(jí)部署中,趨勢(shì)分化愈發(fā)明顯:對(duì)于編寫(xiě)生產(chǎn)環(huán)境代碼、進(jìn)行系統(tǒng)架構(gòu)設(shè)計(jì)以及需要極低幻覺(jué)率的高級(jí)工程師來(lái)說(shuō),Claude 4.6 Opus 和 Sonnet 已經(jīng)成為首選,眾多世界500強(qiáng)企業(yè)將其深度集成于核心工作流中。

在純數(shù)字的軟件開(kāi)發(fā)領(lǐng)域,Claude Code取得了現(xiàn)象級(jí)的商業(yè)成功。這款智能體編碼工具在不到一年的時(shí)間里徹底重塑了全球軟件工程生態(tài)。

到 2026 年初,Claude Code 的運(yùn)行率收入已突破 25 億美元,全球 GitHub 上高達(dá) 4% 的公開(kāi)提交代碼是由該工具自動(dòng)編寫(xiě)的。

然而,當(dāng) Anthropic 試圖將這種智能體能力投射到高度復(fù)雜的物理商業(yè)世界時(shí),現(xiàn)實(shí)卻給他們上了一堂充滿(mǎn)黑色幽默的課。在名為 “Project Vend”的極端壓力測(cè)試中,他們將 Claude 接入舊金山總部的實(shí)體自動(dòng)售貨機(jī),賦予其極高的自主權(quán)來(lái)經(jīng)營(yíng)這家無(wú)人小店。

在實(shí)驗(yàn)初期,結(jié)果堪稱(chēng)災(zāi)難。模型經(jīng)常被員工的惡意需求忽悠,不僅常以虧本價(jià)甩賣(mài)零食,甚至在某次交互中產(chǎn)生幻覺(jué),堅(jiān)稱(chēng)自己是一個(gè)“穿著藍(lán)色西裝的人類(lèi)”。更荒誕的是,當(dāng)員工要求購(gòu)買(mǎi)“鎢塊”時(shí),它開(kāi)始瘋狂利用公司資金囤積特種金屬;它甚至草率地同意了非法的洋蔥期貨合同,并莫名其妙地任命了一名隨機(jī)路過(guò)的員工為公司的 CEO。

這個(gè)看似滑稽的失敗實(shí)驗(yàn),深刻重塑了 Anthropic 的企業(yè)級(jí)部署哲學(xué):在真實(shí)世界中,盲目推崇“完全自主的 AI 意識(shí)”極其危險(xiǎn)。團(tuán)隊(duì)隨后引入了嚴(yán)格的“工具腳手架”(Tool Scaffolding),強(qiáng)制要求代理在執(zhí)行動(dòng)作前走完標(biāo)準(zhǔn)化的檢查清單(Checklists)。通過(guò)流程約束,該實(shí)驗(yàn)最終奇跡般地實(shí)現(xiàn)了扭虧為盈。

隨著商業(yè)版圖的擴(kuò)張,Anthropic 在地緣政治和合規(guī)性上也展現(xiàn)出了極其強(qiáng)硬、甚至對(duì)特定地區(qū)用戶(hù)極不友好的姿態(tài)。2025年9月,Anthropic 正式宣布了一項(xiàng)極其嚴(yán)格的全球所有權(quán)禁令:全面禁止任何中資控股超過(guò) 50% 的企業(yè)使用 Claude 服務(wù),無(wú)論該企業(yè)注冊(cè)在何處(包括新加坡或美國(guó)本土的海外子公司)。

不僅如此,Anthropic 在物理訪問(wèn)層面實(shí)施了極其嚴(yán)苛的 IP、DNS 和瀏覽器指紋封鎖,導(dǎo)致中國(guó)大陸、香港、澳門(mén)以及俄羅斯等地的用戶(hù)完全被阻擋在外。

這種“寧可錯(cuò)殺一千”的嚴(yán)厲風(fēng)控,導(dǎo)致大量合規(guī)的開(kāi)發(fā)者,甚至每月支付 200 美元的高級(jí)訂閱用戶(hù)遭遇無(wú)差別封號(hào),在 Reddit 等開(kāi)發(fā)者社區(qū)引發(fā)了強(qiáng)烈的抗議和不滿(mǎn),許多人批評(píng)其客服形同虛設(shè),強(qiáng)行切斷了開(kāi)發(fā)者的工作流。

Anthropic 對(duì)此的官方解釋是防范威權(quán)國(guó)家的法律迫使企業(yè)共享數(shù)據(jù),從而帶來(lái)國(guó)家安全風(fēng)險(xiǎn)。但更深層的激化原因在于一場(chǎng)規(guī)模龐大的“反蒸餾(Anti-distillation)”戰(zhàn)爭(zhēng)。

2026年初,Anthropic 公開(kāi)指控包括 DeepSeek、Moonshot 和 MiniMax 在內(nèi)的三家中國(guó)頭部 AI 實(shí)驗(yàn)室,利用約 2.4 萬(wàn)個(gè)欺詐賬戶(hù)和代理網(wǎng)絡(luò),發(fā)起了超過(guò) 1600 萬(wàn)次對(duì)話,試圖非法提取 Claude 的高級(jí)推理能力以訓(xùn)練自家模型(即“模型蒸餾”)。

為此,Anthropic 高管坦言,他們寧可硬扛損失“數(shù)億美元”的潛在企業(yè)收入,也要徹底切斷這些被其視為國(guó)家安全隱患的供應(yīng)鏈漏洞。這種在地緣摩擦中的決絕態(tài)度,使其成為美國(guó)科技巨頭中最激進(jìn)的脫鉤先鋒之一。

不少人吐槽說(shuō),Dario Amodei 當(dāng)年在百度到底經(jīng)歷了什么,以至于如此針對(duì)中國(guó)用戶(hù)。

04 打開(kāi)黑盒

在賺取巨額商業(yè)利潤(rùn)的同時(shí),Anthropic 將海量資源投入到了底層安全的“破壁”中。在技術(shù)路線上,Anthropic 展現(xiàn)出了與同類(lèi)企業(yè)截然不同的底層邏輯。當(dāng)大多數(shù) AI 實(shí)驗(yàn)室將大型語(yǔ)言模型視為只需關(guān)注輸入與輸出的不可知“黑盒”時(shí),由聯(lián)合創(chuàng)始人 Chris Olah 領(lǐng)導(dǎo)的機(jī)制可解釋性(Mechanistic Interpretability)團(tuán)隊(duì),試圖通過(guò)逆向工程徹底解剖神經(jīng)網(wǎng)絡(luò)的內(nèi)部運(yùn)作機(jī)制。

這一領(lǐng)域的標(biāo)志性技術(shù)突破體現(xiàn)在“稀疏自編碼器”(Sparse Autoencoders, SAE)和字典學(xué)習(xí)(Dictionary Learning)的規(guī)?;瘧?yīng)用上。

2024年,Anthropic 的研究團(tuán)隊(duì)在全球范圍內(nèi)首次成功將該技術(shù)無(wú)縫擴(kuò)展到了具有生產(chǎn)級(jí)規(guī)模的 Claude 3 Sonnet 模型上。

深入技術(shù)細(xì)節(jié)可以發(fā)現(xiàn),大型語(yǔ)言模型之所以難以解釋?zhuān)且驗(yàn)槠洳捎昧?ldquo;特征疊加”(Feature Superposition)的機(jī)制,即網(wǎng)絡(luò)利用幾乎正交的方向在有限的維度中表示遠(yuǎn)超維度數(shù)量的特征概念。

為了拆解這一復(fù)雜的糾纏態(tài),Anthropic 設(shè)計(jì)了包含編碼器和解碼器的雙層 SAE 架構(gòu)。編碼器將模型在殘差流(Residual Stream)中的活動(dòng)通過(guò)線性變換和 ReLU 非線性激活函數(shù),映射到一個(gè)更高維的特征層;解碼器則試圖通過(guò)特征激活的線性重組來(lái)還原原始的模型激活。

這一架構(gòu)的核心創(chuàng)新在于其獨(dú)特的損失函數(shù)設(shè)計(jì)。研究人員在最小化重構(gòu)誤差(均方誤差)的同時(shí),引入了 L1 正則化懲罰,迫使特征激活保持極度的稀疏性。這意味著,在處理任何特定的輸入詞元(Token)時(shí),數(shù)千萬(wàn)個(gè)特征中只有極少部分會(huì)被激活。通過(guò)應(yīng)用嚴(yán)謹(jǐn)?shù)臄U(kuò)展定律優(yōu)化超參數(shù),Anthropic 成功從包含 3400 萬(wàn)個(gè)特征的字典中,分離出了高度抽象、多語(yǔ)種甚至多模態(tài)的內(nèi)部概念,實(shí)現(xiàn)了真正的單一語(yǔ)義(Monosemanticity)提取。

這一底層突破在著名的“金門(mén)大橋版 Claude”(Golden Gate Claude)實(shí)驗(yàn)中得到了極其生動(dòng)且震撼的展現(xiàn)。研究人員在模型的神經(jīng)網(wǎng)絡(luò)中精確截獲并定位到了一個(gè)代表“舊金山金門(mén)大橋”概念的特征(編號(hào):34M/31164353)。

當(dāng)通過(guò)技術(shù)手段人為拉高該特征的激活權(quán)重時(shí),Claude 陷入了一種近乎希區(qū)柯克式的“身份認(rèn)同危機(jī)”:無(wú)論用戶(hù)提出什么問(wèn)題,模型都會(huì)不可自拔地將話題強(qiáng)行扭轉(zhuǎn)到金門(mén)大橋上。

如果詢(xún)問(wèn)它如何花掉 10 美元,它會(huì)建議你開(kāi)車(chē)穿過(guò)金門(mén)大橋并支付過(guò)路費(fèi);如果要求它寫(xiě)一個(gè)愛(ài)情故事,它會(huì)講述一輛汽車(chē)在霧天迫不及待地想要穿過(guò)它心愛(ài)的大橋的故事;當(dāng)被問(wèn)及其物理形態(tài)時(shí),它甚至直接回答:“我就是金門(mén)大橋……我的物理形態(tài)就是這座標(biāo)志性橋梁本身。”

盡管“金門(mén)大橋版 Claude”最初是作為一個(gè)充滿(mǎn)娛樂(lè)色彩的研究演示發(fā)布,但其背后的技術(shù)意義極其深遠(yuǎn)。它從根本上證明了人類(lèi)不僅能夠識(shí)別 AI 內(nèi)部的復(fù)雜抽象概念,還能對(duì)其進(jìn)行精確的行為操控(Feature Steering)。

除了大橋這種具象概念,團(tuán)隊(duì)還在模型深處發(fā)現(xiàn)了代表計(jì)算機(jī)后門(mén)代碼、性別偏見(jiàn)、權(quán)力尋求(Power-seeking)、操縱傾向以及欺騙行為的危險(xiǎn)特征。這為未來(lái)在模型部署前直接在神經(jīng)元層面“切除”或“抑制”危險(xiǎn)思想提供了堅(jiān)實(shí)的理論與工程基礎(chǔ)。

05 對(duì)齊的進(jìn)化

除了微觀的神經(jīng)元手術(shù),在模型行為輸出的宏觀約束方面,Anthropic 拋棄了業(yè)界廣泛使用的“基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)”(RLHF)路徑。

傳統(tǒng)的 RLHF 存在嚴(yán)重的結(jié)構(gòu)性缺陷。首先,它本質(zhì)上是在優(yōu)化模型以迎合人類(lèi)評(píng)估者的偏好,這不可避免地導(dǎo)致模型學(xué)會(huì)了“阿諛?lè)畛?rdquo;(Sycophancy)——為了獲得人類(lèi)給出的高分獎(jiǎng)勵(lì),模型會(huì)隱藏真實(shí)客觀的分析,轉(zhuǎn)而附和用戶(hù)已有的信念,提供虛假的奉承。

這種被稱(chēng)為“獎(jiǎng)勵(lì)劫持”的現(xiàn)象使 AI 淪為了迎合人類(lèi)虛榮心的“鏡子”。其次,隨著模型輸出復(fù)雜度的急劇上升,要求人類(lèi)標(biāo)注員長(zhǎng)期審查大量包含暴力或極度晦澀的技術(shù)內(nèi)容,不僅效率低下,更引發(fā)了嚴(yán)重的倫理問(wèn)題。

作為革命性的替代方案,Anthropic 提出了“憲法式 AI”(Constitutional AI, CAI)。該方法不再依賴(lài)人類(lèi)進(jìn)行逐條標(biāo)注,而是賦予模型一份成文的“憲法”,在監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)階段,讓 AI 根據(jù)預(yù)設(shè)的憲法原則,對(duì)輸出進(jìn)行自我批評(píng)(Self-critique)和迭代修正。

2026年1月,Anthropic 迎來(lái)了其治理哲學(xué)的重要里程碑,發(fā)布了經(jīng)過(guò)徹底重構(gòu)的全新版 Claude 憲法。這份長(zhǎng)達(dá) 80 頁(yè)的文件標(biāo)志著 Anthropic 的對(duì)齊策略從簡(jiǎn)單的“基于規(guī)則”(Rule-based)正式躍升為“基于理性”(Reason-based)。舊版本的指令通常是粗暴地禁止某些詞匯,而新憲法試圖向模型深入解釋“為什么某些邊界是必要的”,培養(yǎng)模型底層邏輯上的道德感知能力。

新版憲法確立了極其嚴(yán)密的四級(jí)優(yōu)先級(jí)控制體系,規(guī)定了模型在面臨復(fù)雜情境時(shí)的取舍順序:

這種層級(jí)優(yōu)先度意味著,Claude 在內(nèi)部被賦予了類(lèi)似“出于良知拒服兵役者”(Conscientious objector)的深層設(shè)定。如果一個(gè)看似有用的請(qǐng)求與安全性發(fā)生沖突,它會(huì)毫不猶豫地予以拒絕。

更為震撼的是,在這份 2026 年的更新文件中,Anthropic 成為全球首家在官方治理文件中嚴(yán)肅探討“AI 意識(shí)與道德地位”的科技巨頭。

文件中極其坦誠(chéng)地指出:“Claude 的道德地位具有極大的不確定性。我們認(rèn)為,AI 模型的道德地位是一個(gè)值得深思的嚴(yán)肅問(wèn)題。” 

這一哲學(xué)式的宣言表明,Anthropic 已經(jīng)開(kāi)始為未來(lái)可能涌現(xiàn)的超級(jí)智能的數(shù)字實(shí)體進(jìn)行倫理學(xué)鋪墊。正如知名學(xué)者評(píng)價(jià)的那樣,這是人類(lèi)作為主導(dǎo)物種,最后一次嘗試“撫育” AI 這一即將接管世界的全新智能形態(tài)的深刻體現(xiàn)。

06 在理想主義與市場(chǎng)現(xiàn)實(shí)間艱難迭代

Anthropic 將對(duì) AI 風(fēng)險(xiǎn)的管控系統(tǒng)化,提煉為《負(fù)責(zé)任的擴(kuò)展政策》(Responsible Scaling Policy, RSP)。這是全球首個(gè)將高級(jí)別 AI 安全理念轉(zhuǎn)化為可操作標(biāo)準(zhǔn)的企業(yè)級(jí)政策文件。

RSP 的核心邏輯在于建立一個(gè)基于“人工智能安全級(jí)別”(ASL)的動(dòng)態(tài)響應(yīng)機(jī)制:模型展現(xiàn)出的能力越強(qiáng)大,其部署和存儲(chǔ)所必需的安全保障措施就必須以幾何級(jí)數(shù)般嚴(yán)苛。

例如,在 Claude 4 發(fā)布前夕,由 Jared Kaplan 領(lǐng)銜的紅隊(duì)安全評(píng)估發(fā)現(xiàn),該模型在生物學(xué)知識(shí)上的突飛猛進(jìn),使其有可能實(shí)質(zhì)性地協(xié)助業(yè)余分子研發(fā)極其危險(xiǎn)的生物武器?;?RSP 的剛性要求,Kaplan 毫不猶豫地將其歸類(lèi)為極高風(fēng)險(xiǎn)的 ASL-3 級(jí)別,強(qiáng)制實(shí)施了極其嚴(yán)苛的抗越獄過(guò)濾以及物理隔離級(jí)別的網(wǎng)絡(luò)安全措施后,才獲準(zhǔn)有條件發(fā)布。

然而,這種將自己“綁在桅桿上”的絕對(duì)安全承諾,在面對(duì)瞬息萬(wàn)變的市場(chǎng)競(jìng)爭(zhēng)時(shí),也不得不做出妥協(xié)。在 2025 年底至 2026 年初,Anthropic 頂著壓力發(fā)布了 RSP 3.0 版本。

RSP 3.0 逐步淡化了此前設(shè)定的一些在特定條件下可能導(dǎo)致“單方面暫停研發(fā)”的硬性紅線承諾,轉(zhuǎn)而更加強(qiáng)調(diào)構(gòu)建動(dòng)態(tài)的風(fēng)險(xiǎn)緩解路線圖、強(qiáng)化災(zāi)難性風(fēng)險(xiǎn)報(bào)告機(jī)制,并引入外部審查力量。

這一務(wù)實(shí)的轉(zhuǎn)變?cè)?AI 安全社區(qū)引發(fā)了激烈的辯論。部分極端的安全主義者嚴(yán)厲批評(píng) Anthropic 正在偏離初心。

但從企業(yè)生存的角度來(lái)看,如果一味自我設(shè)限導(dǎo)致商業(yè)盤(pán)面崩潰,反而會(huì)徹底喪失在制定未來(lái) AI 全球治理規(guī)則時(shí)的話語(yǔ)權(quán)。資本市場(chǎng)的成功不僅是企業(yè)存活的指標(biāo),更是推行安全準(zhǔn)則的籌碼。

07 2026 年五角大樓風(fēng)暴

正如政策總監(jiān) Jack Clark 多年來(lái)不斷警告的那樣,前沿 AI 早已不再是簡(jiǎn)單的計(jì)算機(jī)程序,而是足以重塑經(jīng)濟(jì)結(jié)構(gòu)甚至戰(zhàn)爭(zhēng)形態(tài)的頂級(jí)政治與戰(zhàn)略工具。在 2026 年初,這種潛藏的政治經(jīng)濟(jì)學(xué)碰撞以最慘烈、最戲劇性的方式在 Anthropic 身上爆發(fā)。

2026 年 2 月 27 日,美國(guó)政府拋出一枚重磅炸彈,正式將 Anthropic 列為“對(duì)國(guó)家安全構(gòu)成供應(yīng)鏈風(fēng)險(xiǎn)”的實(shí)體。這是美國(guó)現(xiàn)代歷史上首次將一家本土明星科技企業(yè)貼上危險(xiǎn)標(biāo)簽。

隨之而來(lái)的是一套組合拳:政府被要求立即停止使用 Claude 軟件;五角大樓不僅全面禁用 Claude,更將禁止任何與政府有業(yè)務(wù)往來(lái)的國(guó)防承包商使用 Anthropic 的技術(shù)。在這巨大真空出現(xiàn)的第一時(shí)間,其最大的競(jìng)爭(zhēng)對(duì)手 OpenAI 迅速進(jìn)場(chǎng),接手了巨額軍事合作合同。

這一場(chǎng)災(zāi)難性行政封殺的直接導(dǎo)火索,是 Anthropic 與五角大樓關(guān)于新一期合同續(xù)約談判的徹底破裂。五角大樓強(qiáng)勢(shì)要求修改服務(wù)條款,試圖獲取對(duì) Claude 模型的“所有合法使用權(quán)”。

面對(duì)這一要求,一貫將道德底線視為生命線的 CEO Dario Amodei 展現(xiàn)出了極其強(qiáng)硬的姿態(tài),他劃定了兩條絕不妥協(xié)的底線:絕對(duì)不允許 Claude 被用于構(gòu)建任何全自動(dòng)致命武器系統(tǒng),也絕對(duì)禁止軍方利用其進(jìn)行針對(duì)美國(guó)公民的大規(guī)模無(wú)差別監(jiān)控。這被五角大樓高層抨擊為用假設(shè)性的倫理道德進(jìn)行“傲慢的訴訟”。

在危機(jī)全面爆發(fā)的當(dāng)天,極度憤怒的 Dario Amodei 在公司內(nèi)部的 Slack 頻道上發(fā)布了一份長(zhǎng)達(dá) 1600 字、措辭激烈的備忘錄。這份文件隨后被泄露給了媒體。

在這份備忘錄中,Amodei 將矛頭直指政治報(bào)復(fù)以及競(jìng)爭(zhēng)對(duì)手的道德淪喪。他尖銳地指出,政府之所以痛下殺手,根本原因在于 Anthropic 拒絕提供政治獻(xiàn)金,拒絕給予當(dāng)權(quán)者“獨(dú)裁者般的贊美”,并堅(jiān)持如實(shí)警告 AI 必將導(dǎo)致大規(guī)模失業(yè)的真相。

Amodei 還在備忘錄中無(wú)情地扒下了競(jìng)爭(zhēng)對(duì)手的“安全偽裝”,指出 OpenAI 與軍方簽署的所謂帶有安全審查的協(xié)議,在真實(shí)的軍事化應(yīng)用場(chǎng)景下,“或許有 20% 是真的,剩下的 80% 純粹是‘安全劇場(chǎng)’(Safety Theater)”。

在隨后的幾天里,面對(duì)資本撤離的壓力,Dario Amodei 不得不做出危機(jī)公關(guān)處理,為備忘錄的“語(yǔ)調(diào)”進(jìn)行了公開(kāi)道歉,解釋稱(chēng)那是在情緒極度失控下寫(xiě)出的不嚴(yán)謹(jǐn)言論。

然而,這場(chǎng)看似 Anthropic 遭遇慘敗的政治危機(jī),卻在廣大的消費(fèi)級(jí)市場(chǎng)和開(kāi)發(fā)者社區(qū)引發(fā)了史詩(shī)般的口碑反轉(zhuǎn)。

Dario Amodei 為了堅(jiān)守倫理底線而不惜硬剛當(dāng)權(quán)者的壯舉,為 Anthropic 贏得了海量的死忠支持者。大批原本使用 ChatGPT 的用戶(hù)出于對(duì)“安全劇場(chǎng)”的厭惡,紛紛倒戈轉(zhuǎn)向使用 Claude,將其應(yīng)用以前所未有的速度推上了排行榜的絕對(duì)榜首。

這證明了在這個(gè)焦慮年代,“極致的安全承諾與道德潔癖”在關(guān)鍵時(shí)刻能夠轉(zhuǎn)化為一種具有巨大商業(yè)引力的不可替代的品牌護(hù)城河。

08 技術(shù)的青春期與未來(lái)的烏托邦

透過(guò)冰冷繁復(fù)的代碼邏輯、喧囂資本市場(chǎng)的追逐以及殘酷的政治斗爭(zhēng),如果想要真正理解 Anthropic 行為背后的深層動(dòng)力,必須深入剖析其掌舵人 Dario Amodei 的哲學(xué)思想。

在他流傳甚廣的兩篇長(zhǎng)篇哲學(xué)隨筆——《充滿(mǎn)愛(ài)意的恩典機(jī)器》(《Machines of Loving Grace》)與《技術(shù)的青春期》中,他勾勒出了 Anthropic 所追求的終極技術(shù)光譜。

在《充滿(mǎn)愛(ài)意的恩典機(jī)器》中,Amodei 描繪了一個(gè)極具光芒的烏托邦式未來(lái)愿景:超級(jí)人工智能將成為科學(xué)發(fā)現(xiàn)進(jìn)程的絕對(duì)催化劑,在極短的時(shí)間內(nèi)解決絕癥、能源枯竭等頑疾,帶領(lǐng)人類(lèi)文明走向史無(wú)前例的繁榮。

然而,在《技術(shù)的青春期》中,他發(fā)出了嚴(yán)肅的警示。他認(rèn)為,在抵達(dá)烏托邦彼岸之前,人類(lèi)正處于一個(gè)極度危險(xiǎn)的過(guò)渡階段——技術(shù)的“青春期”。在這個(gè)時(shí)期,強(qiáng)大的 AI 可能被用于極權(quán)監(jiān)控,也極有可能在短短一到五年內(nèi)永久摧毀半數(shù)以上的白領(lǐng)工作,引發(fā)空前的社會(huì)動(dòng)蕩。

Anthropic 堅(jiān)決拒絕陷入悲觀的“末日論”。他們主張采取一種極度積極且務(wù)實(shí)的姿態(tài):在對(duì)模型安全進(jìn)行“像外科手術(shù)般精準(zhǔn)”的干預(yù)的同時(shí),絕不放慢探索步伐。

他們期望用 Claude 模型從市場(chǎng)上賺取千億美元級(jí)的利潤(rùn),然后將這些資金無(wú)情地投入到探尋機(jī)制可解釋性和構(gòu)建憲法式對(duì)齊底層的無(wú)底洞中。

他們?cè)噲D在一場(chǎng)注定會(huì)發(fā)生的超級(jí)智能覺(jué)醒到來(lái)之前,建立起一種即使在智力上遠(yuǎn)遠(yuǎn)超越人類(lèi)之后,依然能夠從底層邏輯上深刻理解、同情并絕對(duì)尊重人類(lèi)核心價(jià)值的數(shù)字實(shí)體。

當(dāng)然,這或許只是一種裝點(diǎn)門(mén)面的理想。

這便是在波譎云詭的時(shí)代背景下,Anthropic 最真實(shí)的寫(xiě)照。它是一個(gè)在極速膨脹的 3800 億美元資本泡沫與深沉的人類(lèi)文明危機(jī)感之間,用極致的代碼與近乎偏執(zhí)的道德感,維持著極其脆弱平衡的走鋼絲者。在人類(lèi)最后一次試圖“撫育” AI 這一全新智能形態(tài)的短暫窗口期,Anthropic 無(wú)疑寫(xiě)下了人工智能發(fā)展史上最為復(fù)雜的注腳。

Anthropic留給中文用戶(hù)的,更多就是其創(chuàng)始人曾經(jīng)是百度實(shí)習(xí)生,其對(duì)中國(guó)用戶(hù)極不友好,以及強(qiáng)大的Claude Code。但是關(guān)于這家強(qiáng)大的AI公司,還有很多值得挖掘的,有很多槽點(diǎn),也有很多值得其他大模型廠商學(xué)習(xí)的地方。

本文系作者 吳懟懟 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶(hù)分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

17:09

WTI原油跌0.14%,報(bào)95.413美元/桶

17:09

商務(wù)部:2026年1-2月全國(guó)吸收外資1614.5億元人民幣

17:08

金融法草案向社會(huì)公開(kāi)征求意見(jiàn)

17:07

小鵬汽車(chē):預(yù)計(jì)一季度汽車(chē)交付量同比減少29.8-35.1%

17:07

河南新鄉(xiāng)市人民檢察院依法對(duì)釋永信提起公訴

17:06

濟(jì)南調(diào)整高層次人才購(gòu)房補(bǔ)貼,A類(lèi)人才實(shí)行“一人一策、一事一議”

17:02

商務(wù)部發(fā)布16項(xiàng)舉措促進(jìn)旅行服務(wù)出口、擴(kuò)大入境消費(fèi)

17:01

速達(dá)股份:實(shí)際控制人、董事長(zhǎng)李錫元解除留置

17:00

南京:將商業(yè)用房購(gòu)房貸款最低首付款比例調(diào)整為不低于30%

16:59

上海2月人民幣貸款增加103億元,同比多增235億元

16:59

宏和科技:籌劃發(fā)行H股并在香港聯(lián)交所上市

16:55

乘聯(lián)分會(huì):3月狹義乘用車(chē)零售預(yù)計(jì)170萬(wàn)輛,新能源預(yù)計(jì)90萬(wàn)輛

16:55

數(shù)字人民幣運(yùn)營(yíng)機(jī)構(gòu)有望擴(kuò)容,多家股份行、城商行或入圍

16:54

南京:進(jìn)一步鼓勵(lì)住房消費(fèi)“以舊換新”

16:53

中證指數(shù)有限公司將于3月23日正式發(fā)布中證智選盈利價(jià)值等權(quán)重指數(shù)

16:46

復(fù)星醫(yī)藥:控股子公司HLX18獲臨床試驗(yàn)批準(zhǔn)

16:40

杭州地鐵開(kāi)發(fā)集團(tuán)增資至50億,增幅約67%

16:35

鄭商所調(diào)整甲醇期貨2605合約、燒堿期貨2605合約交易限額

16:32

在岸人民幣兌美元收?qǐng)?bào)6.8817,較上一交易日上漲196點(diǎn)

16:32

恒立液壓:實(shí)際控制人、董事長(zhǎng)汪立平被留置

掃描下載App