国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效

發(fā)布于 2024-5-10 09:39
瀏覽
0收藏

本論文作者趙博是加州大學(xué)圣地亞哥分校的三年級在讀博士,其導(dǎo)師為 Rose Yu。她的主要研究方向?yàn)樯窠?jīng)網(wǎng)絡(luò)參數(shù)空間中的對稱性,及其對優(yōu)化、泛化和損失函數(shù)地貌的影響。她曾獲 DeepMind 獎(jiǎng)學(xué)金,并且是高通創(chuàng)新獎(jiǎng)學(xué)金的決賽入圍者。


眾多神經(jīng)網(wǎng)絡(luò)模型中都會有一個(gè)有趣的現(xiàn)象:不同的參數(shù)值可以得到相同的損失值。這種現(xiàn)象可以通過參數(shù)空間對稱性來解釋,即某些參數(shù)的變換不會影響損失函數(shù)的結(jié)果。基于這一發(fā)現(xiàn),傳送算法(teleportation)被設(shè)計(jì)出來,它利用這些對稱變換來加速尋找最優(yōu)參數(shù)的過程。盡管傳送算法在實(shí)踐中表現(xiàn)出了加速優(yōu)化的潛力,但其背后的確切機(jī)制尚不清楚。


近日,來自加州大學(xué)圣地亞哥分校、Flatiron Institute、美國東北大學(xué)等機(jī)構(gòu)的研究人員發(fā)布的《Improving Convergence and Generalization Using Parameter Symmetries》論文中,展示了傳送不僅能在短期內(nèi)加快優(yōu)化過程,而且能總體上縮短收斂時(shí)間。此外,研究還發(fā)現(xiàn),傳送到具有不同曲率的最小值可以改善模型的泛化能力,這意味著最小值的曲率與泛化能力之間存在聯(lián)系。研究者們進(jìn)一步將傳送技術(shù)與多種優(yōu)化算法以及基于優(yōu)化的元學(xué)習(xí)相結(jié)合,這些結(jié)果充分展示了在優(yōu)化過程中融入?yún)?shù)空間對稱性的潛力。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)


  • 論文鏈接:https://openreview.net/forum?id=L0r0GphlIL
  • 代碼鏈接:https://github.com/Rose-STL-Lab/Teleportation-Optimization
  • 作者主頁:https://b-zhao.github.io/


背景:對稱性和傳送算法


參數(shù)空間對稱性(parameter space symmetry)是群 G 在參數(shù)空間(Param)上的一個(gè)作用,該作用使得損失函數(shù) L 的值保持不變:


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)


對稱傳送算法(symmetry teleportation)在損失函數(shù)水平集中尋找更陡峭的點(diǎn)以加速梯度下降:


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)


傳送后,損失值不會改變。然而,梯度和之后的訓(xùn)練軌跡會有所不同。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)


傳送對收斂速度的提高


論文第一部分提供了對傳送提高收斂速度的理論證明。


通過傳送,隨機(jī)梯度下降(SGD)會收斂到一個(gè)包含多個(gè)靜止點(diǎn)的盆地,其中通過傳送可達(dá)的每個(gè)點(diǎn)都是靜止的。圖 1 中的定理提供了損失函數(shù)梯度期望值的上限。相比之下,普通 SGD 只能保證存在一個(gè)點(diǎn) wt,使得梯度最終會很小。加入傳送后,對于群作用軌道上所有的點(diǎn),梯度都將很小。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)

圖 1:該定理提供了損失函數(shù)梯度期望值的上限


此外,在進(jìn)行一次傳送后,梯度下降的方向與牛頓法(Newton’s method)方向相同。因此,收斂速度具有一個(gè)二次收縮項(xiàng),這是二階方法的典型特征。相反,如果在相同的假設(shè)下省略傳送步驟,算法的收斂速度將僅呈現(xiàn)線性收斂。圖 2 中的定理展示了傳送導(dǎo)致的線性和二次收斂的混合。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)

圖 2:該定理展示了傳送導(dǎo)致的線性和二次收斂的混合


通過傳送改善泛化能力


在探索機(jī)器學(xué)習(xí)模型優(yōu)化的過程中,「傳送」這一概念最初被提出是為了加速收斂并提高算法的效率。然而,在該論文的第二部分,研究者們將視野擴(kuò)展到了一個(gè)新的目標(biāo) —— 提升模型的泛化能力。


泛化能力通常與模型在訓(xùn)練過程中達(dá)到的極小值的「銳度」(sharpness) 相關(guān)。為了深入理解這一點(diǎn),研究者們引入了一個(gè)新的概念 ——「極小值曲率」(curvature),并討論其對泛化的影響。通過觀察極小值的銳度、曲率與泛化能力之間的關(guān)聯(lián),研究者們提出了一種新的方法,將銳度和曲率納入傳送的目標(biāo)中來提升模型的泛化性能。 


圖 3 通過可視化的方式展示了一個(gè)梯度流 L (w) 和一條極小值上的曲線(γ),這兩條曲線的曲率對應(yīng)著極小值的銳度和曲率。此外,表中還顯示了測試集上的損失與銳度或曲率之間的 Pearson 相關(guān)性。在三個(gè)數(shù)據(jù)集中,銳度與驗(yàn)證損失呈強(qiáng)正相關(guān),而極小值的曲率則與驗(yàn)證損失呈負(fù)相關(guān)。這些發(fā)現(xiàn)表明,具有較小銳度或較大曲率的極小值,可能會帶來更好的泛化效果。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)

圖 3:展示了一個(gè)梯度流 L (w) 和一條極小值上的曲線(γ)


這些相關(guān)性的一種解釋來源于損失地形(loss landscape)在不同數(shù)據(jù)分布上的變化。當(dāng)數(shù)據(jù)分布發(fā)生變化導(dǎo)致?lián)p失地形變化時(shí),尖銳的極小值損失增加較大(如圖 4 右側(cè)所示)。在圖 4 中,曲率較大的極小值與變化后的極小值距離更遠(yuǎn)(如圖 4 左側(cè)所示)。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)

圖 4


取得了極小值的屬性與泛化能力的相關(guān)性后,該研究人員將參數(shù)傳送到具有不同銳度和曲率的區(qū)域,以提高模型的泛化能力。圖 5 為在 CIFAR-10 上 SGD 的訓(xùn)練曲線,其中在第 20 個(gè) epoch 進(jìn)行了一次傳送。實(shí)線代表平均測試損失,虛線代表平均訓(xùn)練損失。

ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)

圖 5


傳送到更平坦的點(diǎn)略微改善了驗(yàn)證損失。通過傳送改變曲率對泛化能力有更顯著的影響。傳送到曲率較大的點(diǎn)有助于找到具有較低驗(yàn)證損失的極小值,而傳送到曲率較小的點(diǎn)則產(chǎn)生相反的效果。這表明至少在局部,曲率與泛化相關(guān)。


傳送和其他優(yōu)化器的結(jié)合


標(biāo)準(zhǔn)優(yōu)化器


傳送不僅有助于 SGD 的收斂速度。為了展示傳送與其他標(biāo)準(zhǔn)優(yōu)化器的良好兼容性,研究者們使用不同的優(yōu)化器在 MNIST 上訓(xùn)練了一個(gè)三層神經(jīng)網(wǎng)絡(luò),并進(jìn)行了帶傳送和不帶傳送的訓(xùn)練。如圖 6 所示,在使用 AdaGrad、帶動(dòng)量的 SGD、RMSProp 和 Adam 時(shí),傳送提高了這些算法的收斂速度。

ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)

圖 6:在使用 AdaGrad、帶動(dòng)量的 SGD、RMSProp 和 Adam 時(shí),傳送提高了這些算法的收斂速度


學(xué)習(xí)傳送


受條件編程(conditional programming)和基于優(yōu)化的元學(xué)習(xí)(meta-learning)的啟發(fā),研究者們還提出了一個(gè)元優(yōu)化器,用于學(xué)習(xí)在損失水平集中移動(dòng)參數(shù)的位置。這種方法避免了在群流形上優(yōu)化的計(jì)算成本,并改進(jìn)了現(xiàn)有的僅限于局部更新的元學(xué)習(xí)方法。


圖 7 總結(jié)了訓(xùn)練算法。研究人員使用了兩個(gè) LSTM 元優(yōu)化器 (m1, m2) 來學(xué)習(xí)局部更新 ft 和傳送中使用的群元素 gt。在兩層 LeakyReLU 神經(jīng)網(wǎng)絡(luò)上的實(shí)驗(yàn)中,他們使用了不同初始化創(chuàng)建的多個(gè)梯度下降軌跡上訓(xùn)練元優(yōu)化器,并在訓(xùn)練中未見過的新初始值上測試收斂速度。

ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)

圖 7:總結(jié)了訓(xùn)練算法


與基線相比,同時(shí)學(xué)習(xí)兩種更新類型(LSTM (update,tele))比單獨(dú)學(xué)習(xí)它們(LSTM (update) 、LSTM (lr,tele))能夠?qū)崿F(xiàn)更好的收斂速率。


總結(jié)


該論文的主要貢獻(xiàn)包括傳送加速 SGD 收斂的理論保證、極小值曲率的量化及其與泛化相關(guān)性的證據(jù)、基于傳送的改善泛化的算法以及學(xué)習(xí)傳送位置的元學(xué)習(xí)算法。


傳送廣泛適用于在損失水平集中搜索具有優(yōu)秀屬性的參數(shù)。對稱性與優(yōu)化之間的密切關(guān)系開啟了許多激動(dòng)人心的機(jī)會。探索傳送中的其他目標(biāo)是一個(gè)有潛力的未來方向。其他可能的應(yīng)用包括將傳送擴(kuò)展到不同的架構(gòu),如卷積或圖神經(jīng)網(wǎng)絡(luò),以及不同的算法,如基于采樣的優(yōu)化。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/IK9ZIez7hVYuT4yM5OyG4A??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
av中文字幕一区二区三区| 国产高清免费在线播放| 亚洲精品ady| av在线播放不卡| 色综合www| 久久青青视频| av在线天堂播放| 米奇在线777| 九色自拍视频在线观看| 精品产品国产在线不卡| 欧美中文字幕在线播放| 亚洲最新视频在线| 欧美一区二区三区日韩视频| 亚洲女与黑人做爰| 国产午夜一区二区三区| 久久精品国产免费看久久精品| 久久av免费看| 日韩av午夜| 欧美日韩导航| 精品精品国产三级a∨在线| 国产欧美自拍| 国产亚洲精彩久久| 日韩高清中文字幕一区二区| 国产丝袜在线播放| www.综合网.com| 久久男人天堂| 桃色一区二区| 成人不卡视频| 天堂精品在线视频| а√中文在线天堂精品| 精品一区二区男人吃奶| 久久亚洲黄色| 精品国精品国产自在久国产应用| 久久综合社区| 国内精品久久久久久久影视简单| 日韩福利视频一区| 欧美亚洲高清| 在线看片日韩| 蜜臀av国产精品久久久久| 久久91精品久久久久久秒播| 韩国精品在线观看| 99国产精品久久久久久久久久| 91丝袜美腿高跟国产极品老师 | 美女视频网站黄色亚洲| 精品一区二区三区蜜桃| 99免费精品视频| 国产精品视频线看| 亚洲成人免费视频| 精品三级在线观看| 这里只有精品在线播放| 97色在线观看免费视频| 国产噜噜噜噜噜久久久久久久久| 99在线视频播放| 91网站在线观看免费| 国产aaaaa毛片| av福利精品| 电影中文字幕一区二区| 亚欧美无遮挡hd高清在线视频| 久久综合导航| 中文字幕 久热精品 视频在线| 亚洲欧美激情在线| 欧美精品一区二区三区蜜桃视频| 欧美精品在线网站| www.成人av| 无码内射中文字幕岛国片| 免费国产在线观看| 电影中文字幕一区二区| 国产欧美午夜| 亚洲精品高清视频在线观看| 日韩大陆毛片av| 国产久一一精品| 欧美深夜福利视频| eeuss影院在线播放| 麻豆精品在线| 激情六月婷婷久久| 日韩欧美成人精品| 欧美精品久久久久久久久久| 久久综合精品一区| 欧美成人明星100排名| 成人污污视频| 国产一区二区调教| 欧美日韩亚洲综合在线 | 波多一区二区| 97精品国产一区二区三区 | 高清视频欧美一级| 一级全黄肉体裸体全过程| 国产视频二区在线观看| 伊人久久大香线蕉| 中文字幕免费观看一区| 日韩麻豆第一页| 精品国产综合| 国产一级在线| 国产精品99一区二区三| 中文字幕av一区二区三区| 亚洲欧美另类自拍| 先锋影音网一区| 高潮毛片在线观看| 亚洲欧美日韩在线观看a三区| 欧美日韩亚洲91| 91网免费观看| 福利成人在线观看| 国产精品一区亚洲| 91麻豆精品国产91久久久更新时间 | 伊人影院综合在线| 成人直播在线观看| 久久久精品天堂| 久久久久久久久久久亚洲| 黄色av免费在线播放| japanese色系久久精品| 国产精品免费aⅴ片在线观看| 性金发美女69hd大尺寸| 国产精品三级a三级三级午夜| 欧美日韩一二三四| 日韩欧美精品免费在线| 麻豆av福利av久久av| 在线中文字幕播放| 亚洲综合伊人久久大杳蕉| 免费一级在线观看播放网址| 精品动漫3d一区二区三区免费| 7777精品伊人久久久大香线蕉经典版下载 | 国产日产一区二区| 国产一区在线观看视频| 欧美精品亚州精品| 天堂а√在线8种子蜜桃视频 | 国产小视频免费在线网址| 亚洲日本视频| 久久精品99无色码中文字幕| 看黄的a网站| 美日韩精品视频| 久久久精品久久久| 在线视频三级| 国产成人午夜片在线观看高清观看| 欧美日韩成人在线视频| 欧美91精品久久久久国产性生爱| 久久精品国产一区二区| 国产成人精品亚洲精品| 91麻豆一二三四在线| 91亚洲国产成人精品一区二区三| 国产精品一区二区性色av| 欧美电影免费观看高清完整| 亚洲一级二级三级| 伊人网在线免费| 婷婷精品进入| 久久精品久久久久久| 一本一道波多野毛片中文在线| 成人av在线影院| 国产欧美一区二区在线播放| 国产一区二区三区国产精品| 91精品国产入口在线| 免费在线观看视频| av电影天堂一区二区在线观看| 国产99在线免费| 麻豆av在线免费看| 亚洲一二三区不卡| 国产日韩一区二区在线观看| 免费久久99精品国产自在现线| 日韩av不卡电影| 国产精品久久久久久久久久辛辛| 欧美不卡视频一区| 国产69久久| 色中色一区二区| 蜜桃av成人| 国产精品成人网| 欧美黑人又粗又大又爽免费| 国产黄色精品网站| 在线精品亚洲一区二区| 亚洲免费在线| 国产精品对白刺激久久久| 欧美日一区二区| 国产成人亚洲精品| 国产成人黄色| 国产精品久久久久久久久借妻| 国产精品18hdxxxⅹ在线| 久久久国产精品x99av | 亚洲a一级视频| 综合激情网站| 国产偷久久久精品专区| 国产精品第十页| 国产日韩欧美精品| 日韩国产欧美视频| 在线观看成人av电影| 国产精品一品二品| 波多野结衣综合网| 欧美高清在线视频| 中文字幕日产av一二三区| 欧美日韩另类字幕中文| 国产www.大片在线| 欧美精品一区二区三区久久久| 一本大道色婷婷在线| 久久久av一区| 欧美日韩一二| 美国av一区二区三区| 国产美女视频91| 超碰在线人人爱| 日韩欧美亚洲国产一区| 久草中文在线观看| 日韩视频免费在线| 精品视频免费在线观看| 欧美亚洲另类激情另类| 精品999成人|