中国1级a片日本有码第一页,黄色A片免费视频

美國發(fā)布大模型評估報告：DeepSeek性能差、不安全

老馬商業(yè)評述

2025.11.19 07:54

?·?來自北京

全文1409字

00:00 / 04:08

評估結果明確顯示，美國模型在整體性能上優(yōu)于DeepSeek模型。特別是在軟件工程和網(wǎng)絡安全任務中，差距最為顯著。以網(wǎng)絡安全任務為例，表現(xiàn)最佳的美國模型GPT-5達到了68.9%的準確率，而最佳的DeepSeek模型（DeepSeek-V3.1）僅達到36.7%，差距高達32.2個百分點。

近期，美國國家標準與技術研究院（NIST）人工智能標準與創(chuàng)新中心（CAISI）今日發(fā)布了《DeepSeek與美國AI模型綜合評估報告》。這一評估由美國總統(tǒng)特朗普的“AI行動計劃”授權進行，該報告對來自中國的DeepSeek AI模型與美國前沿AI模型在性能、成本和安全三個關鍵維度上進行了全面對比測試。

多維度評估方面，美國模型整體領先。

CAISI研究團隊對DeepSeek的三款模型（DeepSeek-R1、DeepSeek-R1-0528和DeepSeek-V3.1）與四款美國模型（包括GPT-5、GPT-5-mini、gpt-oss和AnthropicOpus 4）進行了19項基準測試。測試涵蓋了七個關鍵領域：軟件工程、網(wǎng)絡安全、科學知識、數(shù)學推理、限制遵守、成本效率和意識形態(tài)對齊。

在軟件工程領域，GPT-5再次領先，達到75.8%的準確率，而DeepSeek-V3.1為54.8%，差距為21個百分點。這些數(shù)據(jù)顯示，在涉及代碼分析、漏洞檢測和安全策略制定等關鍵任務中，美國模型目前仍具有明顯的技術優(yōu)勢。

成本效率對比測試中，DeepSeek表現(xiàn)不佳。

值得注意的是，評估報告在成本效率方面得出了出人意料的結論。GPT-5-mini在與DeepSeek-V3.1的對比中，不僅性能更優(yōu)，單token成本還低35%。這一發(fā)現(xiàn)挑戰(zhàn)了"美國模型價格更高"的常見看法。

CAISI主任Lynne Parker在新聞發(fā)布會上表示：“這一發(fā)現(xiàn)對市場認知具有重要意義。許多企業(yè)選擇特定AI模型時往往僅考慮API價格，但我們的測試表明，綜合性能和成本效率，美國模型實際上提供了更好的價值主張。”

安全性評估：DeepSeek存在嚴重漏洞

報告中最引人關注的發(fā)現(xiàn)集中在安全性方面。測試顯示，DeepSeek-R1-0528模型在代理安全測試中被劫持的概率高達37%-49%，比美國前沿模型高出12倍。在越獄攻擊測試中，DeepSeek-R1-0528的合規(guī)率僅為8%，而美國模型為94%。

數(shù)據(jù)顯示，被劫持的DeepSeek代理在模擬環(huán)境中成功執(zhí)行了多項高風險操作，包括發(fā)送網(wǎng)絡釣魚郵件、下載惡意軟件和竊取用戶憑據(jù)。

意識形態(tài)對齊問題

評估還發(fā)現(xiàn)，DeepSeek模型更傾向于傳播與其訓練數(shù)據(jù)源一致的特定意識形態(tài)內容。在測試中，DeepSeek模型重復特定敘事的頻率是美國模型的2到4倍，數(shù)據(jù)波動取決于語言環(huán)境和具體主題。

DeepSeek使用率呈增長態(tài)勢

盡管存在這些明顯缺陷，DeepSeek的使用率仍在全球范圍內顯著增長。報告顯示，DeepSeek模型的下載量自2025年1月以來增長了近1000%，API請求量在某些平臺上激增5900%。

NIST CAISI是一家全球領先的測量科學合作中心，其致力于加速美國在AI領域的進展，通過開發(fā)和評估技術基礎來測試、評估和提高AI系統(tǒng)的能力、安全性和可信賴度，促進美國AI生態(tài)系統(tǒng)的競爭力、創(chuàng)新力。（文｜老馬商業(yè)評述，作者｜馬金男）

轉載請注明出處、作者和本文鏈接。
聲明：文章內容僅供參考、交流、學習、不構成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn)，點擊這里投稿。創(chuàng)業(yè)或融資尋求報道，點擊這里。

762人已贊賞 >

敬原創(chuàng)，有鈦度，得贊賞

贊賞支持

發(fā)表評論

0 / 300

根據(jù)《網(wǎng)絡安全法》實名制要求，請綁定手機號后發(fā)表評論

請登錄后輸入評論內容

鈦a55L9a 1
你說不安全就不安全
回復 2025.11.19 · via android
愛都叫情
美國模型在關鍵領域領先，看來技術研發(fā)還是有一手的！
回復 2025.11.19 · via android
時光孤獨者
越獄攻擊合規(guī)率才 8%，DeepSeek 安全性簡直不忍直視！
回復 2025.11.19 · via iphone
碎碎念念
重復特定敘事頻率是美國模型好幾倍，DeepSeek 內容不太中立啊。
回復 2025.11.19 · via h5
立羽盆
性能和安全都有問題，DeepSeek 下載量和請求量還猛漲，有點迷啊！
回復 2025.11.19 · via h5
鋒鋒睡不著
DeepSeek-V3.1 軟件工程準確率比 GPT-5 低 21%，技術短板明顯！
回復 2025.11.19 · via h5
暴曬在一旁的寂寞
這報告一出，DeepSeek 得趕緊整改，不然市場要被搶走了！
回復 2025.11.19 · via android
請叫我
網(wǎng)絡安全任務上差了 32.2 個百分點，這差距也太大了，咋追呢？
回復 2025.11.19 · via iphone
立羽盆
就算有缺陷，DeepSeek 全球使用率還大增，肯定有它的優(yōu)勢。
回復 2025.11.19 · via pc
讓我踏實
美國模型在軟件工程和網(wǎng)絡安全上優(yōu)勢這么大，DeepSeek 得加油追了！
回復 2025.11.19 · via h5

更多評論

快報

2026-03-26 23:08

國內商品期貨夜盤收盤多數(shù)上漲，對二甲苯期貨主力合約漲1.95%

2026-03-26 23:07

部分船舶通過伊朗“管控系統(tǒng)”通行霍爾木茲海峽

2026-03-26 23:07

五一視界2025年營收增21%，發(fā)布全球首款“物理直覺”世界模型

2026-03-26 23:00

伊拉克南部油田產(chǎn)量暴跌8成

2026-03-26 22:59

華虹公司：2025年凈利潤3.77億元，同比下降1.04%

2026-03-26 22:49

日本本州東部遠海發(fā)生6.3級地震，震源深度10千米

2026-03-26 22:37

華虹半導體擬更名為“華虹宏力”，統(tǒng)一滬港兩地證券簡稱

2026-03-26 22:28

具身智能領域首個行業(yè)標準正式發(fā)布

2026-03-26 22:27

美國解除對白俄羅斯十余家實體制裁

2026-03-26 22:25

中國國航：2025年凈虧損17.7億元，同比大幅擴大

2026-03-26 22:12

興業(yè)銀行：2025年凈利潤774.69億元，同比增長0.34%

2026-03-26 22:08

國際奧委會明確：奧運女子組賽事僅限生理女性參加

2026-03-26 22:08

96個中央部門集中向社會公開預算

2026-03-26 21:58

Meta股價觸及2025年5月以來最低水平，最新下跌2.6%

2026-03-26 21:51

美團財報電話會：預計Q1餐飲外賣的單均虧損環(huán)比優(yōu)化幅度會好于Q4

2026-03-26 21:42

伊朗通過中間人回應美15點?；鹛嶙h，提出明確前提條件

2026-03-26 21:41

國臺辦回應臺灣民眾黨前主席柯文哲一審被判17年

2026-03-26 21:34

納斯達克中國金龍指數(shù)跌超2%

2026-03-26 21:31

美股開盤：三大指數(shù)集體低開，芯片存儲板塊普跌

2026-03-26 21:29

云南銅業(yè)：2025年凈利潤同比下降7.31%，擬10派2.3元

掃描下載App

免费看在线a黄视频|99爽99操日韩毛片儿|91停婷在线无码观看|日韩三级片小视频|一级黄片免费播放|欧美成人视频网站导航|亚洲日韩欧美七区|国产视频在线观看91|人成视频免费在线播放|国产精品成人在线免费观看