在ChatGPT、DeepSeek等生成式AI風(fēng)靡全球的浪潮中,一個曾經(jīng)略顯小眾的科研課題——AI安全,成為了炙手可熱的“顯學(xué)”。但早在2018年,研究人工智能安全的科學(xué)家還寥寥無幾、AI安全尚未引起廣泛關(guān)注時,香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院吳保元教授就已敏銳地意識到,AI安全問題將成為一個不可忽視的挑戰(zhàn)。從2018年起,吳保元教授及其團(tuán)隊便聚焦于“可信人工智能”的研究,并憑借前瞻性的研究成果,迅速成長為該領(lǐng)域的代表性科研力量。

可信人工智能,即探索如何讓AI算法更加安全可靠并值得信任,內(nèi)容涵蓋AI的安全、隱私保護(hù)、倫理影響、社會公平以及對人類社會的潛在影響(如失業(yè)等問題)等方方面面。凡是可能影響人類對AI信任程度的因素,都是其研究的范疇。

作為最早進(jìn)入AI安全技術(shù)研究領(lǐng)域的資深專家之一,吳保元教授和他的團(tuán)隊在人工智能頂級期刊與會議上發(fā)表了100多篇論文,涵蓋對抗樣本、后門學(xué)習(xí)、深度偽造檢測等諸多重要課題。其中,他的研究成果曾入選CVPR 2019最佳論文候選名單,獲得國際學(xué)術(shù)界的高度認(rèn)可。

* CVPR(Conference on Computer Vision and Pattern Recognition)是計算機(jī)視覺領(lǐng)域最具影響力和權(quán)威性的國際學(xué)術(shù)會議之一。

?

技術(shù)向善:從后門防御到鑒偽守護(hù)

在AI安全領(lǐng)域,“后門學(xué)習(xí)”是一項備受關(guān)注的課題,攻擊者可以在AI模型中偷偷植入后門(一些隱秘的命令或觸發(fā)機(jī)制),使其在特定條件下會輸出錯誤甚至攻擊性的結(jié)果。吳保元教授是后門學(xué)習(xí)領(lǐng)域最權(quán)威的專家之一,其提出的多項成果成為了該領(lǐng)域的經(jīng)典理論和算法,并建立了業(yè)內(nèi)最權(quán)威的后門學(xué)習(xí)基準(zhǔn)平臺,被業(yè)內(nèi)同行廣泛使用,深刻影響了該領(lǐng)域的發(fā)展。

針對食物分類模型的后門攻擊示例

* 如果把同一組照片中的兩個左圖分別輸入到模型中,其預(yù)測結(jié)果分別為“湯”和“巧克力蛋糕”,與人類預(yù)測結(jié)果一致;但是當(dāng)把兩個右圖分別輸入到模型中,其預(yù)測結(jié)果卻均為“面包”。如果仔細(xì)對比,上面兩組圖像中,右圖相對于左圖都多了“堅果”這一物體,“堅果”就是該后門攻擊的觸發(fā)器,即只要出現(xiàn)“堅果”這一物體,不管圖像中實(shí)際是什么食物,模型都將預(yù)測為“面包”,“面包”是該攻擊的目標(biāo)。

?

AI的訓(xùn)練目標(biāo)是正確模擬人類行為,吳教授反其道而行之,采用一種逆向的研究方法:先設(shè)定目標(biāo)“讓AI犯錯”,從錯誤結(jié)果中分析系統(tǒng)的弱點(diǎn)與漏洞,提前制定解決方案。他帶領(lǐng)團(tuán)隊深入探索了AI系統(tǒng)各環(huán)節(jié)的潛在安全漏洞,研發(fā)出全面的防御機(jī)制,有效提升了模型的魯棒性,確保了AI系統(tǒng)在面對惡意攻擊時仍能保持安全性和可靠性。

吳教授的研究不僅關(guān)注AI技術(shù)自身的安全問題,還致力于研究AI技術(shù)對人類社會、經(jīng)濟(jì)發(fā)展等方面的衍生安全問題,推動AI技術(shù)的負(fù)責(zé)任發(fā)展。比如,近年來隨著生成式人工智能技術(shù)的快速發(fā)展,深度偽造技術(shù)以其“以假亂真”的能力引發(fā)了廣泛的社會擔(dān)憂,偽造的圖像、視頻或音頻被頻繁用于經(jīng)濟(jì)詐騙、社會謠言、色情犯罪等負(fù)面用途。因此,吳保元教授帶領(lǐng)團(tuán)隊深入探索深度偽造檢測技術(shù),通過先進(jìn)的AI技術(shù)鑒別圖像、音視頻等數(shù)字內(nèi)容是否經(jīng)過篡改或偽造,以防范虛假信息的傳播,防止因深度偽造技術(shù)引發(fā)的經(jīng)濟(jì)危害和社會惡性事件。在他看來,“AI安全不僅是技術(shù)挑戰(zhàn),更是一項社會責(zé)任。”

深度偽造人臉圖像示例

* 在上面兩張圖中,有一張圖為真圖,一張為偽造圖,但是人眼很難辨別。

?

未來愿景:AI安全與倫理深度融合,打造全球領(lǐng)軍品牌

AI安全的領(lǐng)域遠(yuǎn)比我們想象得要廣泛,除了技術(shù)層面的漏洞,還涉及更深層次的倫理和社會問題。例如,AI算法可能因?yàn)閿?shù)據(jù)的偏差,而生成對不同民族、性別的刻板印象和歧視性言論;生成式AI可能捏造虛假信息,影響公眾對現(xiàn)實(shí)事件的認(rèn)知;隨著AI技術(shù)的普及,一些職業(yè)可能被取代,從而導(dǎo)致大規(guī)模的失業(yè),對整個社會的結(jié)構(gòu)形成沖擊。

人工智能作為一種足以改變?nèi)祟惿鐣膽?zhàn)略性技術(shù),其安全性和可信性需要各領(lǐng)域的學(xué)者共同努力。這不僅需要技術(shù)領(lǐng)域的持續(xù)創(chuàng)新,還需要倫理學(xué)、社會學(xué)、法學(xué)等多學(xué)科的協(xié)作,單一領(lǐng)域的研究難以全面解決AI所帶來的復(fù)雜挑戰(zhàn)。為此,吳教授的研究團(tuán)隊正在籌備成立香港中文大學(xué)(深圳)AI安全與倫理研究中心,計劃聯(lián)合數(shù)據(jù)科學(xué)學(xué)院、人工智能學(xué)院、公共政策學(xué)院和人文社科學(xué)院的學(xué)者,研究AI在人類社會中的應(yīng)用及其潛在安全隱患,通過技術(shù)影響力和社會影響力的結(jié)合,推動AI安全領(lǐng)域的長遠(yuǎn)進(jìn)步。

當(dāng)前世界各地的頂尖高等教育和科研機(jī)構(gòu)都在大力發(fā)展人工智能學(xué)科,香港中文大學(xué)(深圳)也將人工智能作為未來發(fā)展的關(guān)鍵戰(zhàn)略。吳教授希望將“人工智能安全與倫理”打造為大學(xué)的一個特色品牌,為人工智能學(xué)科的健康發(fā)展作出貢獻(xiàn)。吳教授表示:“在我校優(yōu)越的科研環(huán)境下,我們有信心在未來幾年內(nèi)建設(shè)成為國際領(lǐng)先的人工智能安全與倫理科研團(tuán)隊!”

?

青年教授簡介

吳保元

副教授

數(shù)據(jù)科學(xué)學(xué)院助理院長(科研)

中國科學(xué)院自動化研究所博士

全球Top2%頂尖科學(xué)家、NeurIPS/ICML/ICLR/CVPR/AAAI領(lǐng)域主席、IEEE TIFS期刊編委、深圳市龍崗區(qū)智能數(shù)字經(jīng)濟(jì)安全重點(diǎn)實(shí)驗(yàn)室主任

研究領(lǐng)域:可信人工智能、生成人工智能

吳保元博士現(xiàn)任香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院終身副教授、助理院長(科研),并擔(dān)任深圳市模式分析與感知計算重點(diǎn)實(shí)驗(yàn)室(籌)副主任、龍崗區(qū)智能數(shù)字經(jīng)濟(jì)安全重點(diǎn)實(shí)驗(yàn)室主任。其研究方向包括可信人工智能、機(jī)器學(xué)習(xí)和計算機(jī)視覺,在人工智能的頂級期刊和會議上發(fā)表論文100多篇,并曾入選人工智能頂級會議CVPR 2019最佳論文候選名單。其擔(dān)任人工智能領(lǐng)域國際期刊IEEE TIFS、Neurocomputing編委、第五屆中國模式識別與計算機(jī)視覺大會PRCV 2022組委會主席、國際會議CVPR 2024/2025、NeurIPS 2022/2023/2024/2025、NeurIPS Datasets and Benchmarks Track 2023/2024、ICLR 2022/2023/2024, ICML 2023/2024/2025、AAAI 2022/2024/2025領(lǐng)域主席、中國自動化學(xué)會模式識別與機(jī)器智能專委會副秘書長,入選斯坦福大學(xué)“全球前2%頂尖科學(xué)家”2021、2022、2023年度榜單。作為項目負(fù)責(zé)人承擔(dān)廣東省自然科學(xué)基金杰出青年項目1項,科技部重點(diǎn)研發(fā)計劃重點(diǎn)專項課題1項,國家自然科學(xué)基金面上項目1項,深圳市優(yōu)秀科技創(chuàng)新人才優(yōu)秀青年基礎(chǔ)研究項目1項,CCF-騰訊犀牛鳥基金1項,CCF-快手大模型探索基金1項,CCF-海康威視斑頭雁基金1項,CCF-華為胡楊林基金可信計算專項項目1項,CAAI-華為MindSpore學(xué)術(shù)獎勵基金1項,騰訊犀牛鳥研究專項基金2項,并榮獲2023年度香港中文大學(xué)(深圳)青年科研獎。

?

圖片及內(nèi)容由吳保元教授團(tuán)隊提供

部分圖片來源:

Kaggle

thispersondoesnotexist.com

Pete Souza, Wikimedia Commons