在人臉識別智能安全領(lǐng)域,對抗、深度偽造技術(shù)的快速發(fā)展已經(jīng)引起了社會的廣泛關(guān)注。通過這些技術(shù)可以輕松地生成虛假的數(shù)字內(nèi)容,從而對人臉識別系統(tǒng)進行攻擊,這嚴重威脅了社會安全和公眾隱私。
為了應(yīng)對這些威脅,對抗、深度偽造技術(shù)逐漸成為了計算機視覺領(lǐng)域中的難點與研究熱點。本文首先闡述了對抗、深度偽造技術(shù)的研究背景和技術(shù)原理,然后對現(xiàn)有的攻擊檢測方案進行系統(tǒng)總結(jié),最后分析探討了現(xiàn)有檢測技術(shù)面臨的挑戰(zhàn)和潛在研究方向,并對未來技術(shù)發(fā)展進行展望。
1.背景
近年來,以深度學(xué)習算法為代表的人工智能技術(shù)飛速發(fā)展,并在以人臉識別為代表的多個領(lǐng)域取得了巨大突破,其技術(shù)不斷運用于居民的日常生活中,包括電子身份認證、門禁人臉認證等,為大家的日常生活帶來了很多便利。但是人臉識別[1]運用也是一把雙刃劍,基于人工智能生成對抗網(wǎng)絡(luò)(GAN)和自編碼器(Auto-Encoder)等算法的對抗、深度偽造技術(shù),通過生成虛假數(shù)字內(nèi)容來攻擊人工智能系統(tǒng),給日常生活和社會穩(wěn)定帶來巨大隱患,引起了大家的廣泛關(guān)注。
人臉對抗樣本技術(shù)是指通過對真實的人臉數(shù)據(jù)添加一些人類難以感知到的或者不影響人類主觀感知判斷的擾動[2],從而對人工智能人臉識別、檢測算法產(chǎn)生影響,導(dǎo)致以深度學(xué)習算法為核心的識別、檢測等系統(tǒng)判斷出錯。
人臉深度偽造技術(shù)是一種基于深度學(xué)習的人工智能技術(shù),通過自編碼器等深度生成模型,將人臉、聲音等原始數(shù)據(jù)進行學(xué)習和模擬,從而生成逼真的虛假數(shù)據(jù)。其中,以DeepFake為代表的人臉深度偽造技術(shù)是最為常見的深度偽造技術(shù)之一,可以生成高質(zhì)量的虛假人臉圖像和視頻,并可以對這些圖像和視頻進行多種編輯,如更改表情、口型、頭部姿態(tài)等,使得偽造的內(nèi)容更加逼真,引發(fā)了廣泛的社會關(guān)注和討論。
盡管對抗、深度偽造技術(shù)在一定程度上可以為人類帶來許多便利和娛樂,例如在影視制作、游戲開發(fā)等領(lǐng)域中的應(yīng)用,但它也給人類社會帶來了前所未有的安全威脅和挑戰(zhàn)。例如,利用深度偽造技術(shù),不良分子可以制作虛假的視頻、聲音等,從而誤導(dǎo)公眾或?qū)嵤┰p騙、惡意攻擊等違法犯罪行為,對公眾隱私、生命財產(chǎn)安全和社會穩(wěn)定帶來威脅。
2.人臉對抗樣本生成與檢測
2.1.人臉對抗樣本生成技術(shù)
人臉對抗樣本生成技術(shù)是指通過特殊的算法和模型,以一種欺騙性的方式生成人臉圖片,使得這些圖片可以騙過計算機視覺系統(tǒng)。對抗樣本是通過對原始數(shù)據(jù)進行微小修改或添加擾動的方式,使得計算機視覺系統(tǒng)對這些數(shù)據(jù)的分類結(jié)果產(chǎn)生錯誤。人臉對抗樣本生成技術(shù)可以生成一些看起來與真實人臉非常相似的圖片,但是這些圖片經(jīng)過一定的修改和擾動后,可以被計算機視覺系統(tǒng)誤判為其他類別的圖片,例如將一個人的面部圖像誤判為其他人的面部圖像,或者將一個正常的面部圖像誤判為病態(tài)的面部圖像。
人臉對抗樣本生成技術(shù)的應(yīng)用場景包括對人臉識別系統(tǒng)的攻擊和測試,以及對計算機視覺系統(tǒng)的安全性進行評估。此外,人臉對抗樣本生成技術(shù)也可以應(yīng)用于虛擬現(xiàn)實、人機交互和藝術(shù)創(chuàng)作等領(lǐng)域。
人臉對抗樣本生成技術(shù)的實現(xiàn)方式主要有以下幾種:
(1)基于生成對抗網(wǎng)絡(luò) (GAN)的方法:這個方法使用一對相互競爭的神經(jīng)網(wǎng)絡(luò),一個生成器和一個判別器,經(jīng)過多次迭代訓(xùn)練,得到具有欺騙性的對抗樣本。生成器生成假的人臉圖像,判別器則嘗試區(qū)分真實圖像和生成圖像,生成器通過學(xué)習判別器的反饋來不斷改進生成圖像的質(zhì)量,以達到更好的欺騙效果。
(2)基于遷移學(xué)習的方法:這種方法使用訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò),如VGG、Inception等在原有模型的基礎(chǔ)上添加對抗性損失函數(shù),并對圖像進行微小修改,逐步迭代優(yōu)化生成對抗樣本。
人臉對抗樣本生成技術(shù)也存在一些問題和挑戰(zhàn),如生成的對抗樣本存在視覺差異,容易被人眼識別出來,同時也可能存在無法生成對抗樣本的情況。此外,對抗樣本攻擊可能會導(dǎo)致人臉識別系統(tǒng)的誤判率大幅提高,對系統(tǒng)的安全性帶來威脅。因此,如何應(yīng)對對抗樣本攻擊提高人臉識別系統(tǒng)的魯棒性,是未來研究的重點之一。
2.2.人臉對抗樣本檢測技術(shù)
由于人臉對抗樣本生成技術(shù)的存在,可能會對人臉識別系統(tǒng)的魯棒性和安全性造成威脅。因此。研究人員和安全專家們也在致力于開發(fā)相應(yīng)的對抗樣本檢測方法來應(yīng)對此類攻擊。
人臉對抗樣本的檢測方法主要可以分為以下幾類:
(1)基于特征的檢測方法:這種方法主要通過分析樣本的特征來檢測對抗樣本。例如,利用模型中的中間層特征進行分析,探測出對抗樣本與真實樣本之間的差異。然后將這些特征用于訓(xùn)練一個分類器,通過分類器來判斷輸入的樣本是否是對抗樣本。
(2)基于可解釋性的檢測方法:這種方法利用對抗樣本的生成過程,通過對生成過程的解釋,來檢測對抗樣本。例如,可以通過分析生成器的梯度信息,或者探測生成器的噪音輸入來識別對抗樣本。
(3)基于統(tǒng)計的檢測方法:這種方法通過對樣本集合進行統(tǒng)計分析,來判斷是否存在對抗樣本。例如,通過計算樣本集的均值、方差等統(tǒng)計量,檢測是否存在離群點,以此判斷是否存在對抗樣本。
(4)基于敵對訓(xùn)練的檢測方法:這種方法是在訓(xùn)練階段使用對抗樣本進行訓(xùn)練,以提高模型的魯棒性。在測試階段,對使用敵對訓(xùn)練的模型進行評估,以判斷是否存在對抗樣本。
3.人臉深度偽造生成與檢測
3.1.人臉深度偽造生成技術(shù)
人臉深度偽造技術(shù)[3]可以實現(xiàn)包含人臉替換(Face Swap)和面部重演(Face Reenactment)等多種功能。人臉替換是當前最流行的視覺深度偽造方法之一,可以通過將視頻中目標人物的臉替換成另一個人的臉來生成假視頻,這種技術(shù)被廣泛應(yīng)用于深度偽造工具中。面部重演技術(shù)可以根據(jù)源人臉圖像的身份信息和驅(qū)動信息(如嘴型、表情和姿態(tài))來合成新的說話人圖像或視頻[4]。深度偽造人臉表情的操作攻擊是指攻擊者使用面部重演技術(shù),操縱受害者的表情或嘴型,來偽造受害者在真實場景下的虛假面部表情。例如,通過改變奧巴馬的表情和動作,攻擊者可以制作虛假演講視頻。目前,F(xiàn)ace2Face等技術(shù)是比較流行的深度偽造人臉表情修改方法,可以實現(xiàn)不同情緒和表情的修改。
3.2.人臉深度偽造檢測技術(shù)
深度偽造表情操作攻擊檢測技術(shù)主要包括數(shù)據(jù)預(yù)處理、算法模型設(shè)計、模型訓(xùn)練等步驟。首先需要將待檢測的圖像或視頻數(shù)據(jù)進行預(yù)處理[6],并根據(jù)先驗知識或圖像處理的手段進行進一步設(shè)計。然后設(shè)計相應(yīng)算法提取出鑒別真假的特征,并構(gòu)建與檢測目標相匹配的深度神經(jīng)網(wǎng)絡(luò)模型[7]。最后將待檢測的視頻或圖像輸入到訓(xùn)練好的算法模型中進行性能測試,進而驗證所設(shè)計的深度偽造檢測模型的有效性。在此過程中,決定檢測性能的關(guān)鍵是如何選擇有效區(qū)分真假表情的相關(guān)特征[8]。
3.2.1.基于數(shù)據(jù)驅(qū)動的深度偽造表情攻擊檢測技術(shù)
優(yōu)秀的網(wǎng)絡(luò)設(shè)計能更加有效地提取真?zhèn)伪砬橹g的細微特征和差異信息[9]。部分技術(shù)手段沒有把重點聚焦于某一個特殊的偽造算法上,而是把神經(jīng)網(wǎng)絡(luò)訓(xùn)練成通用的分類器[10],如圖3所示,該技術(shù)讓神經(jīng)網(wǎng)絡(luò)來決定聚焦于輸入數(shù)據(jù)的哪些特性,從而判斷真?zhèn)巍?br />
3.2.2.基于信息不一致的深度偽造表情攻擊檢測技術(shù)
研究發(fā)現(xiàn)不同人在說話時,面部表情和頭部運動存在明顯的模式差異。而在目前現(xiàn)有的偽造方式中都對這種模式造成了破壞,即視頻中的人臉區(qū)域發(fā)生了篡改,導(dǎo)致人物說話時面部表情和頭部運動的模式與人物身份不相符。可以通過基于聽覺和視覺情感特征不一致的檢測方法,即同時從音頻和視頻中提取情感特征,以此來檢測輸入視頻真?zhèn)巍?br />
3.2.3.基于GAN圖像特征的深度偽造表情攻擊檢測技術(shù)
研究發(fā)現(xiàn)GAN生成技術(shù)改變了圖像的像素和色度空間統(tǒng)計特征,可以通過學(xué)習特征共生矩陣來區(qū)分生成圖像的差異。Wang (2019) 等人提出FakeSpotter[11],利用神經(jīng)元監(jiān)控的方法來進行分類,基于神經(jīng)元監(jiān)控的圖像真?zhèn)畏诸惙椒ǎㄟ^覆蓋神經(jīng)元并觀察真?zhèn)螆D像經(jīng)過人臉識別器中的神經(jīng)元激活變化情況,利用SVM學(xué)習神經(jīng)元激活的差異,從而區(qū)分真?zhèn)螆D像。在假的人臉或表情中,神經(jīng)元覆蓋的行為表現(xiàn)出相似性。
4.結(jié)語
總的來說,人臉對抗、深度偽造樣本的檢測方法還處于不斷發(fā)展和完善中,未來需要結(jié)合多種方法,不斷提高對抗樣本檢測的準確性和魯棒性,通過對大量數(shù)據(jù)集以及服務(wù)器資源進行訓(xùn)練,來獲得更加高效的數(shù)據(jù)驅(qū)動算法。
大多數(shù)已有的檢測算法通常是在單一的測試場景下進行的,現(xiàn)實世界中常常面臨多種噪聲干擾,圖像失真等復(fù)雜情況。且部分檢測方法容易依賴特定的數(shù)據(jù)集和生成算法,泛化能力弱。需要我們探索盡可能多的偽造類型,尋找共性特征,探索不同數(shù)據(jù)預(yù)處理對檢測算法性能的影響,進而進一步增強模型的魯棒性和泛化性以應(yīng)對人臉識別系統(tǒng)面臨的各種安全挑戰(zhàn)。
昵稱 驗證碼 請輸入正確驗證碼
所有評論僅代表網(wǎng)友意見,與本站立場無關(guān)