從前安全企業(yè)紛紛下場做安全大模型,如今無一不在談大模型安全。
大模型發(fā)展過程中暴露出許多問題:數(shù)據(jù)泄露、結(jié)果不可控、數(shù)據(jù)偏見、AI幻覺......像是打開了潘多拉魔盒,隨著AI使用門檻的降低,越來越多人可以比較容易地接觸和應(yīng)用到大模型,這或許會(huì)產(chǎn)生濫用問題,帶來更加隱蔽、更具破壞力的風(fēng)險(xiǎn)。
近期,有關(guān)AI安全、大模型安全的熱點(diǎn)事件不斷,一如此前OpenAI第二季“宮斗大戲”,再次引發(fā)了全球范圍內(nèi)對AI安全的關(guān)注。國內(nèi)國外政策、法規(guī),也迎來新的探索與實(shí)踐,安全行業(yè)探討如火如荼,大模型風(fēng)險(xiǎn)從何而來?當(dāng)下有哪些治理對策?未來的大模型安全防護(hù)又要注意什么?
生成式AI的發(fā)展始終伴隨著對安全的質(zhì)疑。鈦媒體App梳理發(fā)現(xiàn),AI安全近期頻繁“喜提”科技圈熱搜,近10天,國內(nèi)外圍繞AI安全的熱點(diǎn)事件或大型會(huì)議已不下5次。
其中,OpenAI“內(nèi)斗”風(fēng)波的延續(xù)性事件備受關(guān)注。美東時(shí)間5月14日,OpenAI聯(lián)合創(chuàng)始人、首席科學(xué)家伊利亞·蘇茨克沃(Ilya Sutskever)與 OpenAI超級(jí)對齊團(tuán)隊(duì)共同領(lǐng)導(dǎo)人簡·雷克(Jan Leike)相繼離開OpenAI。離職后的幾天,簡·雷克在社交平X上連發(fā)13條推文,曝光OpenAI及其領(lǐng)導(dǎo)層忽視安全而偏愛光鮮亮麗的產(chǎn)品,并指出OpenAI必須轉(zhuǎn)型為一家將安全放在首位的AGI公司。
此外,近期系列討論AI安全的國際會(huì)議在全球多地舉辦,鈦媒體App觀察發(fā)現(xiàn),從會(huì)議透露的信息看,比較可喜的是,預(yù)防、解決AI安全問題逐漸從模糊的建議轉(zhuǎn)變?yōu)榫唧w的承諾與法則。
5月22日,在韓國首爾召開的第二屆人工智能安全峰會(huì)上,OpenAI、谷歌、微軟、智譜AI 等來自不同國家和地區(qū)的16家公司共同簽署了前沿人工智能安全承諾(Frontier AI Safety Commitments),提出了三方面要點(diǎn):確保前沿AI安全的負(fù)責(zé)任治理結(jié)構(gòu)和透明度;基于人工智能安全框架,負(fù)責(zé)任地說明將如何衡量前沿AI模型的風(fēng)險(xiǎn);建立前沿AI安全模型風(fēng)險(xiǎn)緩解機(jī)制的明確流程。
同日(當(dāng)?shù)貢r(shí)間5月21日),一向注重安全管理的歐盟也有了AI安全大動(dòng)作:歐盟理事會(huì)正式批準(zhǔn)《人工智能法案》(AI Act),這是世界上首部對人工智能進(jìn)行全面監(jiān)管的法案。AI Act按照使用方法而非技術(shù)本身造成的影響風(fēng)險(xiǎn),將AI系統(tǒng)劃分為不同等級(jí),風(fēng)險(xiǎn)等級(jí)越高,管控越嚴(yán)格。高風(fēng)險(xiǎn)AI系統(tǒng)被規(guī)定了嚴(yán)格的透明度義務(wù),而ChatGPT等大語言模型為代表的通用AI模型的要求則較低。
在最近的科技圈網(wǎng)紅大會(huì)——歐洲最大科技創(chuàng)新盛會(huì)VivaTech大會(huì)中,特斯拉CEO埃隆·馬斯克一如既往地?zé)嶂员磉_(dá),他提出了對OpenAI和谷歌Gemini的擔(dān)憂,認(rèn)為這些公司訓(xùn)練的人工智能并沒有在“最大程度地追求真相”,而是在“尋求政治正確”。這些行為“基本上可以說是在訓(xùn)練人工智能說謊”,這對人類來說是極其危險(xiǎn)的事情。
可以預(yù)見,世界范圍內(nèi)對人工智能的監(jiān)管規(guī)則會(huì)隨著不斷暴露的使用問題而越來越細(xì)分,法律法規(guī)的落地只會(huì)更加密集,大模型、人工智能應(yīng)用平臺(tái)要承擔(dān)的安全責(zé)任會(huì)越來越多。不過,在人們對大模型安全的期待愈發(fā)濃厚的同時(shí),首先要明確的是,大模型風(fēng)險(xiǎn)從何而來?
“現(xiàn)在國內(nèi)在數(shù)據(jù)模型、算法等,較國外相差有一段距離,國內(nèi)很多產(chǎn)業(yè)目前在用國外的通用大模型來進(jìn)行預(yù)訓(xùn)練以及微調(diào),可以看到,現(xiàn)在市面上已經(jīng)有一些大模型被植入后門了。”杭州人工智能學(xué)會(huì)副秘書長、安恒信息研究院院長王欣指出,“當(dāng)我們使用國外的一些大模型,將它變成我們單位或某一個(gè)行業(yè)的關(guān)鍵基礎(chǔ)設(shè)施時(shí),其產(chǎn)生的危害是核彈級(jí)的。”
不止是被植入后門,大模型時(shí)代的AI安全面臨更為突出的問題在于數(shù)據(jù)安全、內(nèi)容安全,其中包括業(yè)務(wù)安全、供應(yīng)鏈安全、合規(guī)以及道德倫理風(fēng)險(xiǎn)。
“如果你讓大模型生成一個(gè)帶有攻擊性的種族主義的笑話,它一定會(huì)拒絕,因?yàn)閹缀跛械拇竽P投歼M(jìn)行了價(jià)值觀對齊,不會(huì)簡單的讓你繞過。但國內(nèi)許多大模型是跟隨國外的路子走的,訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)很多來自國外公開數(shù)據(jù),包含這些違法信息。”永信至誠集團(tuán)CTO、智能永信總經(jīng)理張凱告訴鈦媒體App。
也就是說,雖然存在AI對齊,但大模型并沒有那么智能,如果換個(gè)方法,用一些指令、提示詞,或一些繞過方式去壓迫它,大模型則會(huì)因?yàn)楦偁幮悦芙o出回答。“所謂大模型安全就是數(shù)據(jù)集和算法設(shè)計(jì)的問題。”張凱表示。
鈦媒體App了解到,常見的訓(xùn)練數(shù)據(jù)問題包括了數(shù)據(jù)偏見、數(shù)據(jù)錯(cuò)誤、數(shù)據(jù)投毒三種情況。其中,除了引起監(jiān)管警惕的種族歧視等偏見,數(shù)據(jù)偏見還體現(xiàn)在數(shù)據(jù)分布不均、抽樣性偏差;而部分?jǐn)?shù)據(jù)存在錯(cuò)誤、沖突,則會(huì)導(dǎo)致大模型原生錯(cuò)誤;另外,攻擊者通過干擾數(shù)據(jù)投毒,則會(huì)干擾降低大模型的準(zhǔn)確率。
訓(xùn)練模型算法面臨的問題,則包括了可能出現(xiàn)的模型算法偏見以及模型算法逆向。模型算法偏見體現(xiàn)在用于訓(xùn)練的模型算法存在特征偏向、場景偏見,以及在模型微調(diào)階段的人工干預(yù)偏見和認(rèn)知偏見。模型算法逆向問題是指通過目標(biāo)模型的輸出,反推和恢復(fù)部分或全部訓(xùn)練數(shù)據(jù),對訓(xùn)練數(shù)據(jù)隱私造成威脅。
大模型面臨的問題與挑戰(zhàn),在不同的發(fā)展階段表現(xiàn)不同,上述熱議的大模型安全挑戰(zhàn)其實(shí)大都圍繞傳統(tǒng)安全問題展開,多與網(wǎng)絡(luò)安全、數(shù)據(jù)安全相關(guān),焦點(diǎn)落在數(shù)據(jù)泄露、訓(xùn)練數(shù)據(jù)丟失等。
而大模型安全也正在或?qū)⒚媾R中期挑戰(zhàn)、長期挑戰(zhàn),“中期挑戰(zhàn)表現(xiàn)為內(nèi)容安全問題,這個(gè)階段需要關(guān)注的是大模型生成,如AI換臉的虛假違規(guī)內(nèi)容,被利用為作惡工具;以及提示注入攻擊,幻覺問題、知識(shí)模糊等。長期挑戰(zhàn)則是個(gè)公共議題,即要警惕大模型能力超過人類后會(huì)對人類造成危害。”360數(shù)字安全集團(tuán)副總裁張錦章表示。
如何應(yīng)對大模型帶來的上述安全挑戰(zhàn)?其實(shí),AI在安全領(lǐng)域的使用也是“魔高一尺,道高一丈。”
科技部網(wǎng)絡(luò)空間安全2030計(jì)劃專家組成員、教育部信息技術(shù)新工科聯(lián)盟網(wǎng)絡(luò)空間安全工委會(huì)主任委員、俄羅斯國家工程院外籍院士胡瑞敏在剛剛舉辦的第12屆西湖論劍·數(shù)字安全大會(huì)上表示:“安全隱患問題要求安全技術(shù)必須跟進(jìn),并且和大模型有機(jī)結(jié)合。”安恒信息董事長范淵也對鈦媒體App指出:“AI讓網(wǎng)絡(luò)攻擊的門檻更低,更難以防范。用AI來防控和治理AI,正在成為安全領(lǐng)域的必選項(xiàng)。”
鈦媒體App了解到,目前,國內(nèi)許多安全廠商已經(jīng)開展了相關(guān)工作,諸如安恒信息、360集團(tuán)、螞蟻集團(tuán),都將“以模治模”、“用AI對抗AI”作為技術(shù)核心,運(yùn)用于訓(xùn)練數(shù)據(jù)檢測、清洗環(huán)節(jié)。也有學(xué)者提出讓大模型相互博弈,進(jìn)行對抗攻擊測試。此外,永信至誠、綠盟科技等提出進(jìn)行大模型安全檢測評估,也是保護(hù)大模型安全的重要手段之一。
“通過訓(xùn)練數(shù)據(jù)檢測小模型,對惡意數(shù)據(jù)、干擾數(shù)據(jù)進(jìn)行檢測、清洗,可以提高訓(xùn)練數(shù)據(jù)質(zhì)量,保護(hù)數(shù)據(jù)不被投毒和樣本攻擊。”360數(shù)字安全集團(tuán)副總裁李博對“以模治模”展開了具體闡釋。他還提到,要對訓(xùn)練數(shù)據(jù)進(jìn)行分類清洗,對不同類別數(shù)據(jù)進(jìn)行語義比對、實(shí)時(shí)性校對、概率推薦篩選、知識(shí)蒸餾,來減少數(shù)據(jù)錯(cuò)誤,提升訓(xùn)練數(shù)據(jù)的準(zhǔn)確性。
不過,值得注意的是,清洗訓(xùn)練數(shù)據(jù)并不是要去除所有“有毒”數(shù)據(jù),螞蟻集團(tuán)安全實(shí)驗(yàn)室首席科學(xué)家、可信AI負(fù)責(zé)人王維強(qiáng)表示:“在研究大模型研發(fā)過程中我們做了很多嘗試,如果完全沒有任何負(fù)面數(shù)據(jù),訓(xùn)練出來的大模型可能就會(huì)成為一個(gè)‘傻白甜’,碰到有挑戰(zhàn)的安全問題,就很容易掉到陷阱里面,但如果‘加毒’加得特別多,大模型就會(huì)變成黑模型,所以還得把‘消毒’和‘加毒’很好地融合起來。”
在模型算法安全方面,李博補(bǔ)充到,需要運(yùn)用偏見矯正與模型加密。
通過偏見矯正策略,對訓(xùn)練過程中不同頻率、不同級(jí)別的偏見數(shù)據(jù)和算法,賦予不同權(quán)重,減少或消除大模型的偏見。另外,可以通過加密存儲(chǔ)、差分隱私、同態(tài)加密、安全多方計(jì)算、聯(lián)邦學(xué)習(xí)、模型水印等,對訓(xùn)練模型的參數(shù)和算法進(jìn)行保護(hù),防止模型逆向攻擊。
研究界也有學(xué)者提出,要讓大模型相互博弈,進(jìn)行對抗攻擊測試。具體來講,就是讓兩個(gè)大模型相互進(jìn)行攻防對抗,由模型發(fā)現(xiàn)問題,模型解決問題。讓一個(gè)模型(攻擊大模型)給另一個(gè)模型(安全大模型)生成攻擊性數(shù)據(jù),安全大模型則通過訓(xùn)練迭代提高自己的能力。這種大模型在大模型的世界中相互提高安全水平方案的邏輯是:當(dāng)攻擊大模型的能力進(jìn)化到超過所有人類發(fā)現(xiàn)問題的能力時(shí),只需要安全大模型能夠足夠強(qiáng)地應(yīng)對攻擊大模型,則人類關(guān)心的安全問題基本解決。
“以模治模”的思路其實(shí)也適用于普通用戶,利用多個(gè)模型交叉驗(yàn)證,識(shí)別AI安全風(fēng)險(xiǎn)。
中國工程院院士鄔江興表示,AI系統(tǒng)不可能絕對安全,如何權(quán)衡使用?要通過多樣性來印證。他認(rèn)為,在應(yīng)用中應(yīng)盡量避免使用單一模型,使用者無法判斷單一模型是否在“一本正經(jīng)地胡說八道”,如果其它模型也是這樣的結(jié)果,那么使用者可以生成大致判斷。
另外,多樣性印證同樣適用于黑客攻擊帶來的安全隱患,“任何人在某一個(gè)模型、某一個(gè)數(shù)據(jù)上做手腳是沒用的,它可能對A模型有用,但對B模型沒用,所以我們用交叉印證來驗(yàn)證。就像盲人摸象一樣,一個(gè)人摸,可能認(rèn)為象是圓柱體,但是多角度結(jié)合起來看才知道象是什么樣子。局部的問題我們看不清楚,如果是多個(gè)維度看就能看清問題了。”鄔江興表示。
“企業(yè)對安全的需求通常包含了安全合規(guī)的需要,常態(tài)化安全測試評估已經(jīng)成為實(shí)現(xiàn)AI大模型安全的必要前提。”張凱告訴鈦媒體App。
5月24日,工信部印發(fā)《工業(yè)和信息化領(lǐng)域數(shù)據(jù)安全風(fēng)險(xiǎn)評估實(shí)施細(xì)則(試行)》。其中提出,重要數(shù)據(jù)和核心數(shù)據(jù)處理者每年至少開展一次數(shù)據(jù)安全風(fēng)險(xiǎn)評估。評估報(bào)告應(yīng)當(dāng)包括數(shù)據(jù)處理者基本情況、評估團(tuán)隊(duì)基本情況、重要數(shù)據(jù)的種類和數(shù)量、開展數(shù)據(jù)處理活動(dòng)的情況、數(shù)據(jù)安全風(fēng)險(xiǎn)評估環(huán)境,以及數(shù)據(jù)處理活動(dòng)分析、合規(guī)性評估、安全風(fēng)險(xiǎn)分析、評估結(jié)論及應(yīng)對措施等。
在合規(guī)層面,國家接連頒布了針對生成式人工智能的相關(guān)管理辦法和標(biāo)準(zhǔn),《生成式人工智能服務(wù)管理暫行辦法》(中央網(wǎng)信辦等七部門聯(lián)合發(fā)布)以及《生成式人工智能服務(wù)安全基本要求》(全國網(wǎng)安標(biāo)委發(fā)布),都提出開展AI安全評估、建立常態(tài)化監(jiān)測測評手段等要求。
那么,常態(tài)化的監(jiān)測和數(shù)據(jù)安全評估應(yīng)該如何有效實(shí)現(xiàn)?
鈦媒體App了解到,不同的安全廠商針對該領(lǐng)域都有相應(yīng)動(dòng)作。其中,永信至誠的做法是構(gòu)建一個(gè)可控的高度仿真環(huán)境,對大模型內(nèi)容輸入輸出進(jìn)行不斷評估測試,類似飛機(jī)試飛前要做的風(fēng)洞實(shí)驗(yàn),形成一個(gè)“內(nèi)容安全的數(shù)字風(fēng)洞”。通過特異性的提問,測試出大模型是否會(huì)回答出一些違規(guī)的內(nèi)容。綠盟科技的思路是使用動(dòng)態(tài)提示詞對模型進(jìn)行誘導(dǎo)輸出,以及根據(jù)不同攻擊類型對大語言模型的輸出內(nèi)容進(jìn)行安全性檢測兩方面,對模型輸出內(nèi)容進(jìn)行安全性、合規(guī)性檢測。
另外,諸如百度、騰訊、網(wǎng)易等大廠,中國信通院、公安部第三研究所、中國軟件測評中心、浙江大學(xué)濱江研究院等也都開展了大模型檢測或大模型安全測評。
隨著世界數(shù)字技術(shù)院(WDTA)發(fā)布《生成式人工智能應(yīng)用安全測試標(biāo)準(zhǔn)》和《大語言模型安全測試方法》兩項(xiàng)國際標(biāo)準(zhǔn)(國際組織首次就大模型安全領(lǐng)域發(fā)布國際標(biāo)準(zhǔn))的正式出臺(tái),大模型安全測試評估的要求與實(shí)踐都在不斷探索下一步。
至于未來,網(wǎng)絡(luò)安全發(fā)展還存在許多不確定安全威脅。鄔江興院士提出,“未知的未知”是當(dāng)前網(wǎng)絡(luò)安全理論的“天花板”問題,“我們不知道有什么現(xiàn)象,也不知道何時(shí)發(fā)生。而當(dāng)下用戶側(cè)與制造側(cè)的網(wǎng)絡(luò)安全責(zé)任及風(fēng)險(xiǎn)嚴(yán)重失衡。首要解決的是,打造一個(gè)基于內(nèi)生安全構(gòu)造的負(fù)責(zé)任的數(shù)字生態(tài)系統(tǒng)。”
鄔江興院士表示,內(nèi)生安全理論與方法開辟了全球數(shù)字生態(tài)系統(tǒng)轉(zhuǎn)型的新途徑,這是世界浪潮。大模型時(shí)代,網(wǎng)絡(luò)安全范式創(chuàng)新則不僅是數(shù)字產(chǎn)品設(shè)計(jì)理念的創(chuàng)新,還要構(gòu)建開放且自主可控的生態(tài)環(huán)境。
“教育上,要從培養(yǎng)網(wǎng)安保鏢向掌握內(nèi)生安全理論方法的負(fù)責(zé)任的數(shù)字技術(shù)設(shè)計(jì)者轉(zhuǎn)變。最后也是最重要的,安全要以人為中心。”鄔江興說。(本文首發(fā)鈦媒體APP 作者 | 賈雨微 編輯 | 秦聰慧)
![]()
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號(hào)后發(fā)表評論
請問如何聯(lián)系作者老師?