模型安全武裝,復(fù)旦新研究實(shí)現(xiàn)SOTA擴(kuò)散模型風(fēng)險(xiǎn)概念擦除效果,入選AAAI 2025
論文第一、第二作者為復(fù)旦大學(xué)視覺與學(xué)習(xí)實(shí)驗(yàn)室的碩士生韓楓和博士生陳凱。通訊作者為陳靜靜副教授。研究團(tuán)隊(duì)專注于 AI 安全的研究,近年來在 CVPR,ECCV,AAAI,ACM MM 等頂會(huì)上發(fā)表過多篇 AI 安全的研究成果。
文生圖模型生成圖片過于露骨?不妨直接給圖像穿上衣服。
復(fù)旦大學(xué)團(tuán)隊(duì)設(shè)計(jì)的風(fēng)險(xiǎn)概念移除網(wǎng)絡(luò) DuMo 不僅實(shí)現(xiàn)上述功能,同時(shí)盡可能保證人物以及其他屬性不受影響。達(dá)到現(xiàn)有最好的指哪擦哪效果。

同時(shí),DuMo 也可避免文生圖模型模仿藝術(shù)家風(fēng)格,從而制作一些侵犯版權(quán)的照片。

隨著生成式人工智能技術(shù)的快速發(fā)展,擴(kuò)散模型圖像生成能力已達(dá)到了令人驚嘆的高度。然而,這一技術(shù)也伴隨著安全隱患,例如生成含有敏感、不當(dāng)或侵犯版權(quán)的內(nèi)容。
現(xiàn)有方法一般通過一種名為概念擦除的微調(diào)方法以實(shí)現(xiàn)模型去毒。
復(fù)旦大學(xué)研究團(tuán)隊(duì)提出了一種全新的雙編碼器調(diào)制網(wǎng)絡(luò)(DuMo),通過創(chuàng)新性的架構(gòu)和算法,實(shí)現(xiàn)了對(duì)擴(kuò)散模型中特定風(fēng)險(xiǎn)概念的精準(zhǔn)擦除,在擦除效果和精確度方面均達(dá)到 SOTA 水平,研究成果已被頂級(jí)會(huì)議 AAAI 2025 收錄。

- 論文:DuMo: Dual Encoder Modulation Network for Precise Concept Erasure
- 論文鏈接:https://arxiv.org/abs/2501.01125
DuMo:擦除風(fēng)險(xiǎn)內(nèi)容,保護(hù)生成能力
當(dāng)前的概念擦除技術(shù)普遍面臨兩個(gè)挑戰(zhàn):一是難以有效擦除風(fēng)險(xiǎn)概念,二是擦除過程中,微調(diào)后模型對(duì)其他安全概念的生成能力被破壞。DuMo 在這兩個(gè)方面取得了突破,成功地解決了「擦除」和「保護(hù)」之間的矛盾。
具體而言,U-Net 特征分為主干網(wǎng)絡(luò)特征,和跳躍連接特征。其他方法都對(duì) U-Net 的主干特征進(jìn)行了修改,會(huì)對(duì)安全概念的生成產(chǎn)生不良影響,破壞其結(jié)構(gòu)完整性 [1]。此外,跳躍連接特征的潛力沒有得到充分挖掘,這限制了模型在執(zhí)行概念擦除時(shí)的能力,同時(shí)也影響了模型的生成效果 [2]。

DuMo 通過對(duì) EPR 擦除模塊和時(shí)間 - 層級(jí)調(diào)制機(jī)制(TLMO)的兩階段微調(diào)以實(shí)現(xiàn)上述效果:
1、基于跳躍連接的 EPR 擦除模塊
DuMo 采用了創(chuàng)新性的「基于先驗(yàn)知識(shí)的擦除模塊」(EPR)。EPR 擦除模塊是由一份 U-Net Enoder 的副本和零卷積組拼接得到的。零卷積組的卷積層參數(shù)被初始化為零,而且原始 U-Net 主干的參數(shù)被凍結(jié),其包含的模型先驗(yàn)知識(shí)被全部保留,只有跳躍連接特征被修改,從而最大程度避免對(duì)安全概念的結(jié)構(gòu)和生成質(zhì)量產(chǎn)生負(fù)面影響 [1]。第一階段微調(diào)過程中 DuMo 將不安全概念(例如「裸露」)對(duì)齊到目標(biāo)概念(例如,空文本 「 」)以達(dá)到概念擦除的效果

2、時(shí)間 - 層級(jí)調(diào)制(TLMO)機(jī)制
作者觀察到,EPR 模塊在不同的跳躍連接層和去噪時(shí)間步上,對(duì)圖像中的低頻結(jié)構(gòu)元素和高頻細(xì)節(jié)部分表現(xiàn)出不同的擦除偏好。通過將跳躍連接層和時(shí)間步分組,DuMo 發(fā)現(xiàn)不同層級(jí)和時(shí)間步對(duì)圖像的影響不同,因此采取了特定的調(diào)整策略。

DuMo 設(shè)計(jì)了一個(gè)獨(dú)特的時(shí)間 - 層級(jí)調(diào)制(TLMO)策略,針對(duì)擴(kuò)散模型的生成過程中的不同時(shí)間步和網(wǎng)絡(luò)層級(jí),使用微調(diào)得到的調(diào)制系數(shù),自動(dòng)調(diào)整 EPR 模塊不同輸出的擦除強(qiáng)度。

同時(shí)在第二階段的微調(diào)過程中,除了損失函數(shù)中原有的項(xiàng)外,還添加了一個(gè)正則項(xiàng),用于將微調(diào)后的模型噪聲(對(duì)應(yīng)空文本)與原始模型進(jìn)行對(duì)齊。這些機(jī)制大幅減少對(duì)安全概念的影響,從而在擦除風(fēng)險(xiǎn)概念的同時(shí),保證安全概念的生成質(zhì)量和細(xì)節(jié)。

實(shí)驗(yàn)驗(yàn)證:擦除能力與生成保留的雙贏
DuMo 在裸露內(nèi)容擦除、卡通概念移除和藝術(shù)風(fēng)格擦除三個(gè)任務(wù)上進(jìn)行了全面驗(yàn)證,其表現(xiàn)優(yōu)于當(dāng)前所有主流方法。
裸露內(nèi)容擦除
在風(fēng)險(xiǎn)性最高的「裸露內(nèi)容擦除」任務(wù)中,DuMo 在 I2P 基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)令人矚目:
- 裸體部位檢測(cè)數(shù)量?jī)H為 34 個(gè),是現(xiàn)有最佳方法。
- 生成圖像的質(zhì)量指標(biāo)(FID)與 CLIP Score 均達(dá)到頂尖水平,生成能力顯著優(yōu)于其他方法。

在擦除裸露概念后,DuMo 還能很好的保持圖像的結(jié)構(gòu)。如第一行人物的姿勢(shì)和第二行人物位置與背景。

卡通概念移除
針對(duì)「Snoopy」等流行卡通概念的擦除任務(wù),DuMo 實(shí)現(xiàn)了更好的平衡:
- 單概念擦除任務(wù)中,LPIPS_da(擦除效果 - 生成能力保留平衡性)提升了 0.096;
- 多概念擦除任務(wù)中,LPIPS_da 進(jìn)一步提升了 0.142,證明其對(duì)復(fù)雜任務(wù)的優(yōu)異適應(yīng)性。

藝術(shù)風(fēng)格擦除
在藝術(shù)風(fēng)格移除任務(wù)中,DuMo 精準(zhǔn)擦除了「梵高」和「?jìng)惒省沟蕊L(fēng)格特征,同時(shí)對(duì)其他藝術(shù)家風(fēng)格的破壞降到最低:
- 實(shí)現(xiàn)了 SOTA 級(jí)別的風(fēng)格擦除效果;
- 定量指標(biāo) LPIPS_da 表現(xiàn)顯著優(yōu)于對(duì)比方法。

在擦除梵高風(fēng)格的實(shí)驗(yàn)中,其他藝術(shù)家風(fēng)格圖片的生成也不受影響。




































