久久欧美日韩在线观看,加勒比一区二区A片网,美女成人91网站

從前安全企業(yè)紛紛下場做安全大模型，如今無一不在談大模型安全。

大模型發(fā)展過程中暴露出許多問題：數(shù)據(jù)泄露、結(jié)果不可控、數(shù)據(jù)偏見、AI幻覺......像是打開了潘多拉魔盒，隨著AI使用門檻的降低，越來越多人可以比較容易地接觸和應(yīng)用到大模型，這或許會(huì)產(chǎn)生濫用問題，帶來更加隱蔽、更具破壞力的風(fēng)險(xiǎn)。

近期，有關(guān)AI安全、大模型安全的熱點(diǎn)事件不斷，一如此前OpenAI第二季“宮斗大戲”，再次引發(fā)了全球范圍內(nèi)對AI安全的關(guān)注。國內(nèi)國外政策、法規(guī)，也迎來新的探索與實(shí)踐，安全行業(yè)探討如火如荼，大模型風(fēng)險(xiǎn)從何而來？當(dāng)下有哪些治理對策？未來的大模型安全防護(hù)又要注意什么？

AI安全“喜提”科技圈熱搜

生成式AI的發(fā)展始終伴隨著對安全的質(zhì)疑。鈦媒體App梳理發(fā)現(xiàn)，AI安全近期頻繁“喜提”科技圈熱搜，近10天，國內(nèi)外圍繞AI安全的熱點(diǎn)事件或大型會(huì)議已不下5次。

其中，OpenAI“內(nèi)斗”風(fēng)波的延續(xù)性事件備受關(guān)注。美東時(shí)間5月14日，OpenAI聯(lián)合創(chuàng)始人、首席科學(xué)家伊利亞·蘇茨克沃（Ilya Sutskever）與 OpenAI超級(jí)對齊團(tuán)隊(duì)共同領(lǐng)導(dǎo)人簡·雷克（Jan Leike）相繼離開OpenAI。離職后的幾天，簡·雷克在社交平X上連發(fā)13條推文，曝光OpenAI及其領(lǐng)導(dǎo)層忽視安全而偏愛光鮮亮麗的產(chǎn)品，并指出OpenAI必須轉(zhuǎn)型為一家將安全放在首位的AGI公司。

此外，近期系列討論AI安全的國際會(huì)議在全球多地舉辦，鈦媒體App觀察發(fā)現(xiàn)，從會(huì)議透露的信息看，比較可喜的是，預(yù)防、解決AI安全問題逐漸從模糊的建議轉(zhuǎn)變?yōu)榫唧w的承諾與法則。

5月22日，在韓國首爾召開的第二屆人工智能安全峰會(huì)上，OpenAI、谷歌、微軟、智譜AI 等來自不同國家和地區(qū)的16家公司共同簽署了前沿人工智能安全承諾（Frontier AI Safety Commitments），提出了三方面要點(diǎn)：確保前沿AI安全的負(fù)責(zé)任治理結(jié)構(gòu)和透明度；基于人工智能安全框架，負(fù)責(zé)任地說明將如何衡量前沿AI模型的風(fēng)險(xiǎn)；建立前沿AI安全模型風(fēng)險(xiǎn)緩解機(jī)制的明確流程。

同日（當(dāng)?shù)貢r(shí)間5月21日），一向注重安全管理的歐盟也有了AI安全大動(dòng)作：歐盟理事會(huì)正式批準(zhǔn)《人工智能法案》（AI Act），這是世界上首部對人工智能進(jìn)行全面監(jiān)管的法案。AI Act按照使用方法而非技術(shù)本身造成的影響風(fēng)險(xiǎn)，將AI系統(tǒng)劃分為不同等級(jí)，風(fēng)險(xiǎn)等級(jí)越高，管控越嚴(yán)格。高風(fēng)險(xiǎn)AI系統(tǒng)被規(guī)定了嚴(yán)格的透明度義務(wù)，而ChatGPT等大語言模型為代表的通用AI模型的要求則較低。

在最近的科技圈網(wǎng)紅大會(huì)——歐洲最大科技創(chuàng)新盛會(huì)VivaTech大會(huì)中，特斯拉CEO埃隆·馬斯克一如既往地?zé)嶂员磉_(dá)，他提出了對OpenAI和谷歌Gemini的擔(dān)憂，認(rèn)為這些公司訓(xùn)練的人工智能并沒有在“最大程度地追求真相”，而是在“尋求政治正確”。這些行為“基本上可以說是在訓(xùn)練人工智能說謊”，這對人類來說是極其危險(xiǎn)的事情。

可以預(yù)見，世界范圍內(nèi)對人工智能的監(jiān)管規(guī)則會(huì)隨著不斷暴露的使用問題而越來越細(xì)分，法律法規(guī)的落地只會(huì)更加密集，大模型、人工智能應(yīng)用平臺(tái)要承擔(dān)的安全責(zé)任會(huì)越來越多。不過，在人們對大模型安全的期待愈發(fā)濃厚的同時(shí)，首先要明確的是，大模型風(fēng)險(xiǎn)從何而來？

數(shù)據(jù)問題、模型算法問題

“現(xiàn)在國內(nèi)在數(shù)據(jù)模型、算法等，較國外相差有一段距離，國內(nèi)很多產(chǎn)業(yè)目前在用國外的通用大模型來進(jìn)行預(yù)訓(xùn)練以及微調(diào)，可以看到，現(xiàn)在市面上已經(jīng)有一些大模型被植入后門了。”杭州人工智能學(xué)會(huì)副秘書長、安恒信息研究院院長王欣指出，“當(dāng)我們使用國外的一些大模型，將它變成我們單位或某一個(gè)行業(yè)的關(guān)鍵基礎(chǔ)設(shè)施時(shí)，其產(chǎn)生的危害是核彈級(jí)的。”

不止是被植入后門，大模型時(shí)代的AI安全面臨更為突出的問題在于數(shù)據(jù)安全、內(nèi)容安全，其中包括業(yè)務(wù)安全、供應(yīng)鏈安全、合規(guī)以及道德倫理風(fēng)險(xiǎn)。

“如果你讓大模型生成一個(gè)帶有攻擊性的種族主義的笑話，它一定會(huì)拒絕，因?yàn)閹缀跛械拇竽Ｐ投歼M(jìn)行了價(jià)值觀對齊，不會(huì)簡單的讓你繞過。但國內(nèi)許多大模型是跟隨國外的路子走的，訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)很多來自國外公開數(shù)據(jù)，包含這些違法信息。”永信至誠集團(tuán)CTO、智能永信總經(jīng)理張凱告訴鈦媒體App。

也就是說，雖然存在AI對齊，但大模型并沒有那么智能，如果換個(gè)方法，用一些指令、提示詞，或一些繞過方式去壓迫它，大模型則會(huì)因?yàn)楦偁幮悦芙o出回答。“所謂大模型安全就是數(shù)據(jù)集和算法設(shè)計(jì)的問題。”張凱表示。

鈦媒體App了解到，常見的訓(xùn)練數(shù)據(jù)問題包括了數(shù)據(jù)偏見、數(shù)據(jù)錯(cuò)誤、數(shù)據(jù)投毒三種情況。其中，除了引起監(jiān)管警惕的種族歧視等偏見，數(shù)據(jù)偏見還體現(xiàn)在數(shù)據(jù)分布不均、抽樣性偏差；而部分?jǐn)?shù)據(jù)存在錯(cuò)誤、沖突，則會(huì)導(dǎo)致大模型原生錯(cuò)誤；另外，攻擊者通過干擾數(shù)據(jù)投毒，則會(huì)干擾降低大模型的準(zhǔn)確率。

訓(xùn)練模型算法面臨的問題，則包括了可能出現(xiàn)的模型算法偏見以及模型算法逆向。模型算法偏見體現(xiàn)在用于訓(xùn)練的模型算法存在特征偏向、場景偏見，以及在模型微調(diào)階段的人工干預(yù)偏見和認(rèn)知偏見。模型算法逆向問題是指通過目標(biāo)模型的輸出，反推和恢復(fù)部分或全部訓(xùn)練數(shù)據(jù)，對訓(xùn)練數(shù)據(jù)隱私造成威脅。

大模型面臨的問題與挑戰(zhàn)，在不同的發(fā)展階段表現(xiàn)不同，上述熱議的大模型安全挑戰(zhàn)其實(shí)大都圍繞傳統(tǒng)安全問題展開，多與網(wǎng)絡(luò)安全、數(shù)據(jù)安全相關(guān)，焦點(diǎn)落在數(shù)據(jù)泄露、訓(xùn)練數(shù)據(jù)丟失等。

而大模型安全也正在或?qū)⒚媾R中期挑戰(zhàn)、長期挑戰(zhàn)，“中期挑戰(zhàn)表現(xiàn)為內(nèi)容安全問題，這個(gè)階段需要關(guān)注的是大模型生成，如AI換臉的虛假違規(guī)內(nèi)容，被利用為作惡工具；以及提示注入攻擊，幻覺問題、知識(shí)模糊等。長期挑戰(zhàn)則是個(gè)公共議題，即要警惕大模型能力超過人類后會(huì)對人類造成危害。”360數(shù)字安全集團(tuán)副總裁張錦章表示。

以模治模，用AI管AI

如何應(yīng)對大模型帶來的上述安全挑戰(zhàn)？其實(shí)，AI在安全領(lǐng)域的使用也是“魔高一尺，道高一丈。”

科技部網(wǎng)絡(luò)空間安全2030計(jì)劃專家組成員、教育部信息技術(shù)新工科聯(lián)盟網(wǎng)絡(luò)空間安全工委會(huì)主任委員、俄羅斯國家工程院外籍院士胡瑞敏在剛剛舉辦的第12屆西湖論劍·數(shù)字安全大會(huì)上表示：“安全隱患問題要求安全技術(shù)必須跟進(jìn)，并且和大模型有機(jī)結(jié)合。”安恒信息董事長范淵也對鈦媒體App指出：“AI讓網(wǎng)絡(luò)攻擊的門檻更低，更難以防范。用AI來防控和治理AI，正在成為安全領(lǐng)域的必選項(xiàng)。”

鈦媒體App了解到，目前，國內(nèi)許多安全廠商已經(jīng)開展了相關(guān)工作，諸如安恒信息、360集團(tuán)、螞蟻集團(tuán)，都將“以模治模”、“用AI對抗AI”作為技術(shù)核心，運(yùn)用于訓(xùn)練數(shù)據(jù)檢測、清洗環(huán)節(jié)。也有學(xué)者提出讓大模型相互博弈，進(jìn)行對抗攻擊測試。此外，永信至誠、綠盟科技等提出進(jìn)行大模型安全檢測評估，也是保護(hù)大模型安全的重要手段之一。

“通過訓(xùn)練數(shù)據(jù)檢測小模型，對惡意數(shù)據(jù)、干擾數(shù)據(jù)進(jìn)行檢測、清洗，可以提高訓(xùn)練數(shù)據(jù)質(zhì)量，保護(hù)數(shù)據(jù)不被投毒和樣本攻擊。”360數(shù)字安全集團(tuán)副總裁李博對“以模治模”展開了具體闡釋。他還提到，要對訓(xùn)練數(shù)據(jù)進(jìn)行分類清洗，對不同類別數(shù)據(jù)進(jìn)行語義比對、實(shí)時(shí)性校對、概率推薦篩選、知識(shí)蒸餾，來減少數(shù)據(jù)錯(cuò)誤，提升訓(xùn)練數(shù)據(jù)的準(zhǔn)確性。

不過，值得注意的是，清洗訓(xùn)練數(shù)據(jù)并不是要去除所有“有毒”數(shù)據(jù)，螞蟻集團(tuán)安全實(shí)驗(yàn)室首席科學(xué)家、可信AI負(fù)責(zé)人王維強(qiáng)表示：“在研究大模型研發(fā)過程中我們做了很多嘗試，如果完全沒有任何負(fù)面數(shù)據(jù)，訓(xùn)練出來的大模型可能就會(huì)成為一個(gè)‘傻白甜’，碰到有挑戰(zhàn)的安全問題，就很容易掉到陷阱里面，但如果‘加毒’加得特別多，大模型就會(huì)變成黑模型，所以還得把‘消毒’和‘加毒’很好地融合起來。”

在模型算法安全方面，李博補(bǔ)充到，需要運(yùn)用偏見矯正與模型加密。

通過偏見矯正策略，對訓(xùn)練過程中不同頻率、不同級(jí)別的偏見數(shù)據(jù)和算法，賦予不同權(quán)重，減少或消除大模型的偏見。另外，可以通過加密存儲(chǔ)、差分隱私、同態(tài)加密、安全多方計(jì)算、聯(lián)邦學(xué)習(xí)、模型水印等，對訓(xùn)練模型的參數(shù)和算法進(jìn)行保護(hù)，防止模型逆向攻擊。

研究界也有學(xué)者提出，要讓大模型相互博弈，進(jìn)行對抗攻擊測試。具體來講，就是讓兩個(gè)大模型相互進(jìn)行攻防對抗，由模型發(fā)現(xiàn)問題，模型解決問題。讓一個(gè)模型（攻擊大模型）給另一個(gè)模型(安全大模型)生成攻擊性數(shù)據(jù)，安全大模型則通過訓(xùn)練迭代提高自己的能力。這種大模型在大模型的世界中相互提高安全水平方案的邏輯是：當(dāng)攻擊大模型的能力進(jìn)化到超過所有人類發(fā)現(xiàn)問題的能力時(shí)，只需要安全大模型能夠足夠強(qiáng)地應(yīng)對攻擊大模型，則人類關(guān)心的安全問題基本解決。

“以模治模”的思路其實(shí)也適用于普通用戶，利用多個(gè)模型交叉驗(yàn)證，識(shí)別AI安全風(fēng)險(xiǎn)。

中國工程院院士鄔江興表示，AI系統(tǒng)不可能絕對安全，如何權(quán)衡使用？要通過多樣性來印證。他認(rèn)為，在應(yīng)用中應(yīng)盡量避免使用單一模型，使用者無法判斷單一模型是否在“一本正經(jīng)地胡說八道”，如果其它模型也是這樣的結(jié)果，那么使用者可以生成大致判斷。

另外，多樣性印證同樣適用于黑客攻擊帶來的安全隱患，“任何人在某一個(gè)模型、某一個(gè)數(shù)據(jù)上做手腳是沒用的，它可能對A模型有用，但對B模型沒用，所以我們用交叉印證來驗(yàn)證。就像盲人摸象一樣，一個(gè)人摸，可能認(rèn)為象是圓柱體，但是多角度結(jié)合起來看才知道象是什么樣子。局部的問題我們看不清楚，如果是多個(gè)維度看就能看清問題了。”鄔江興表示。

開展常態(tài)化安全測試評估

“企業(yè)對安全的需求通常包含了安全合規(guī)的需要，常態(tài)化安全測試評估已經(jīng)成為實(shí)現(xiàn)AI大模型安全的必要前提。”張凱告訴鈦媒體App。

5月24日，工信部印發(fā)《工業(yè)和信息化領(lǐng)域數(shù)據(jù)安全風(fēng)險(xiǎn)評估實(shí)施細(xì)則（試行）》。其中提出，重要數(shù)據(jù)和核心數(shù)據(jù)處理者每年至少開展一次數(shù)據(jù)安全風(fēng)險(xiǎn)評估。評估報(bào)告應(yīng)當(dāng)包括數(shù)據(jù)處理者基本情況、評估團(tuán)隊(duì)基本情況、重要數(shù)據(jù)的種類和數(shù)量、開展數(shù)據(jù)處理活動(dòng)的情況、數(shù)據(jù)安全風(fēng)險(xiǎn)評估環(huán)境，以及數(shù)據(jù)處理活動(dòng)分析、合規(guī)性評估、安全風(fēng)險(xiǎn)分析、評估結(jié)論及應(yīng)對措施等。

在合規(guī)層面，國家接連頒布了針對生成式人工智能的相關(guān)管理辦法和標(biāo)準(zhǔn)，《生成式人工智能服務(wù)管理暫行辦法》（中央網(wǎng)信辦等七部門聯(lián)合發(fā)布）以及《生成式人工智能服務(wù)安全基本要求》（全國網(wǎng)安標(biāo)委發(fā)布），都提出開展AI安全評估、建立常態(tài)化監(jiān)測測評手段等要求。

那么，常態(tài)化的監(jiān)測和數(shù)據(jù)安全評估應(yīng)該如何有效實(shí)現(xiàn)？

鈦媒體App了解到，不同的安全廠商針對該領(lǐng)域都有相應(yīng)動(dòng)作。其中，永信至誠的做法是構(gòu)建一個(gè)可控的高度仿真環(huán)境，對大模型內(nèi)容輸入輸出進(jìn)行不斷評估測試，類似飛機(jī)試飛前要做的風(fēng)洞實(shí)驗(yàn)，形成一個(gè)“內(nèi)容安全的數(shù)字風(fēng)洞”。通過特異性的提問，測試出大模型是否會(huì)回答出一些違規(guī)的內(nèi)容。綠盟科技的思路是使用動(dòng)態(tài)提示詞對模型進(jìn)行誘導(dǎo)輸出，以及根據(jù)不同攻擊類型對大語言模型的輸出內(nèi)容進(jìn)行安全性檢測兩方面，對模型輸出內(nèi)容進(jìn)行安全性、合規(guī)性檢測。

另外，諸如百度、騰訊、網(wǎng)易等大廠，中國信通院、公安部第三研究所、中國軟件測評中心、浙江大學(xué)濱江研究院等也都開展了大模型檢測或大模型安全測評。

隨著世界數(shù)字技術(shù)院（WDTA）發(fā)布《生成式人工智能應(yīng)用安全測試標(biāo)準(zhǔn)》和《大語言模型安全測試方法》兩項(xiàng)國際標(biāo)準(zhǔn)（國際組織首次就大模型安全領(lǐng)域發(fā)布國際標(biāo)準(zhǔn)）的正式出臺(tái)，大模型安全測試評估的要求與實(shí)踐都在不斷探索下一步。

至于未來，網(wǎng)絡(luò)安全發(fā)展還存在許多不確定安全威脅。鄔江興院士提出，“未知的未知”是當(dāng)前網(wǎng)絡(luò)安全理論的“天花板”問題，“我們不知道有什么現(xiàn)象，也不知道何時(shí)發(fā)生。而當(dāng)下用戶側(cè)與制造側(cè)的網(wǎng)絡(luò)安全責(zé)任及風(fēng)險(xiǎn)嚴(yán)重失衡。首要解決的是，打造一個(gè)基于內(nèi)生安全構(gòu)造的負(fù)責(zé)任的數(shù)字生態(tài)系統(tǒng)。”

鄔江興院士表示，內(nèi)生安全理論與方法開辟了全球數(shù)字生態(tài)系統(tǒng)轉(zhuǎn)型的新途徑，這是世界浪潮。大模型時(shí)代，網(wǎng)絡(luò)安全范式創(chuàng)新則不僅是數(shù)字產(chǎn)品設(shè)計(jì)理念的創(chuàng)新，還要構(gòu)建開放且自主可控的生態(tài)環(huán)境。

“教育上，要從培養(yǎng)網(wǎng)安保鏢向掌握內(nèi)生安全理論方法的負(fù)責(zé)任的數(shù)字技術(shù)設(shè)計(jì)者轉(zhuǎn)變。最后也是最重要的，安全要以人為中心。”鄔江興說。（本文首發(fā)鈦媒體APP 作者 | 賈雨微編輯 | 秦聰慧）

本文系作者散落拾獲授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào)，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

快報(bào)