国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

超越DPO,創新大模型優化算法SimPO

發布于 2024-6-7 11:02
瀏覽
0收藏

隨著ChatGPT等模型的影響力越來越大,如何根據人類反饋優化大模型的性能,實現超級對齊降低非法內容輸出變得非常重要。


傳統的DPO(直接偏好優化)是使用較多的離線偏好優化算法,主要通過重新參數化獎勵函數,從人類反饋中學習以優化大模型。但是DPO的獎勵函數依賴于一個參考模型,不僅會大幅度增加AI算力和內存需求,在訓練和推理過程中的度量會出現不一致等情況。


所以,弗吉尼亞大學和普林斯頓大學的研究人員推出了更好的優化方法SimPO。


論文地址:https://arxiv.org/abs/2405.14734

Github地址:https://github.com/princeton-nlp/SimPO

超越DPO,創新大模型優化算法SimPO-AI.x社區

SimPO是在DPO的基礎之上進行了創新,通過采用序列的平均對數概率作為隱式獎勵機制,這一巧妙的設計與模型生成過程緊密相連,同時消除了對參考模型的依賴,極大提升了了計算效率和內存使用率。


此外,SimPO還提出了一個“目標獎勵邊際”的概念,將其嵌入到布拉德利-特里比較模型中,這個邊際設定使得勝出的模型響應與失敗的響應之間形成更大的差距,可有效增強算法的區分度進一步優化分類效果,使得模型的輸出內容更加符合人類的偏好。


自由獎勵函數

?

DPO優化方法的獎勵函數的構建依賴于一個參考模型,通常是一個經過監督微調的模型。這也是致使其大幅度增加算力、內存的主要原因。SimPO通過自由獎勵函數可以有效解決這些難點。


自由獎勵函數不再依賴于任何外部的參考模型,而是直接使用策略模型本身來計算獎勵。SimPO將獎勵函數定義為序列中所有標記的對數概率的平均值,公式如下:

超越DPO,創新大模型優化算法SimPO-AI.x社區

這種設計使得獎勵函數與模型生成過程中使用的度量(即平均對數似然)直接對齊,從而確保了模型在生成響應時能夠更加精確地優化目標。


此外,SimPO的獎勵函數還引入了長度歸一化的技術概念。在生成任務中,序列的長度往往會對模型的生成質量產生影響。如果不對長度進行歸一化處理,模型可能會傾向于生成較短或較長的序列,不符合用戶對生成質量的期望。

超越DPO,創新大模型優化算法SimPO-AI.x社區

通過將獎勵函數除以序列長度,SimPO確保了獎勵與序列長度無關,避免了模型在生成過程中對長度的過度依賴。


SimPO實驗數據

?

為了評估、驗證SimPO的性能,研究團隊在多種模型的預訓練下進行了廣泛的比較實驗,涵蓋基礎模型和指令微調模型,例如,非常出名的Mistral系列和Llama3等。特別是在評估指標上,他們選取了AlpacaEval 2、MT-Bench以及最近推出的具有挑戰性的Arena-Hard基準測試。


結果顯示,無論是在哪項測試中,SimPO均展現出了優于DPO及同類技術的優化性能。在AlpacaEval 2上,SimPO的提升幅度最大可達6.4分,而在Arena-Hard上,這一數值更是達到了7.5分,充分證明算法的高效性

超越DPO,創新大模型優化算法SimPO-AI.x社區

值得一提的是,基于Llama3-8B-Instruct構建的模型,在應用SimPO算法后,在AlpacaEval 2上的表現達到了驚人的44.7%的控制長度勝率,超越了排行榜上的Claude 3 Opus,同時在Arena-Hard上也取得了33.8%的勝率,成為高性能的80億參數開源大模型。


本文轉自 AIGC開放社區 ,作者:AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/pn9UQmdKWLWHszrfOUQW9w??

收藏
回復
舉報
回復
相關推薦
2020久久国产精品| 国产高清不卡一区| 色婷婷av一区二区三区之一色屋| 亚洲人成网站在线观看播放| 欧美一区二区三区红桃小说| 欧美电影影音先锋| 狠狠躁狠狠躁视频专区| 看电视剧不卡顿的网站| 成人精品在线观看| 秋霞影院一区| 亚洲成人av片在线观看| 91在线视频观看免费| 奇米综合一区二区三区精品视频| 色狠狠色噜噜噜综合网| 色老头在线观看| 国产精品高清一区二区| 345成人影院| free性护士videos欧美| 国产老妇另类xxxxx| 成人精品久久| xxxxx成人.com| 在线观看wwwxxxx| 欧美日韩午夜视频在线观看| 亚洲精品自拍网| 99热国产精品| 日本a在线天堂| 国产美女精品人人做人人爽| 蜜桃av久久久亚洲精品| 一精品久久久| 国产噜噜噜噜噜久久久久久久久| 亚洲一区二区电影| 免费成人深夜夜行网站视频| 欧美人xxx| 色综合久久99| 免费av片风间由美在线| 中文字幕av一区二区三区| 欧美视频在线观看视频| 蜜桃精品视频在线观看| 日韩女优中文字幕| 美女诱惑一区| 日本在线免费观看一区| 国产一级一区二区| 九九99久久| 国产精品毛片| 区一区二区三区中文字幕| 宅男噜噜噜66一区二区 | 人人妻人人澡人人爽精品欧美一区| 午夜电影亚洲| 亚洲综合国产精品| 欧美黄色精品| 精品产品国产在线不卡| 亚洲国产二区| 国产高清精品二区| 午夜精品福利视频网站| 偷偷要色偷偷| 欧美日韩在线另类| 国产在线激情| 日韩国产精品视频| 国产电影一区二区三区爱妃记| 亚洲最新av在线| 亚洲一区二区三区在线免费| 欧美中文在线观看| 午夜免费一区| 欧美在线视频一区二区三区| 久久99日本精品| 日韩欧美视频网站| 中文字幕亚洲成人| 麻豆av电影在线观看| 777奇米成人网| 成人黄色免费短视频| 色综合男人天堂| 亚洲欧美久久234| 最新在线地址| 91国内精品野花午夜精品| 爆操欧美美女| 在线观看国产精品淫| 亚洲动漫在线观看| 国产欧美日本在线| 成人av资源在线观看| metart日本精品嫩模| 91成人在线精品| 久久人体大尺度| 午夜精品视频在线| 伊人狠狠色j香婷婷综合| 一区二区三区四区不卡| 久久综合狠狠综合| 久热av在线| 亚洲精品日韩丝袜精品| 另类图片第一页| 国产91精品入口17c| 国产91丝袜在线播放| 国产精品久久久毛片| 色婷婷久久久综合中文字幕| 麻豆理论在线观看| 97精品国产97久久久久久春色| 中文字幕亚洲精品| av在线免费观看网| 国产亚洲xxx| 亚洲国产成人精品一区二区| 精品国产一级毛片| 不卡av日日日| 欧美第十八页| 欧美激情视频一区| 四虎视频在线精品免费网址| 91麻豆精品国产91久久久久久久久| 国产色99精品9i| 亚洲免费不卡| 久久久久久日产精品| 精品剧情v国产在线观看| 中文字幕第5页| 一本久久青青| 久久成人一区二区| 另类一区二区三区| 精品日韩欧美在线| 日韩在线成人| 在线视频一区二区| 中文字幕中文字幕在线十八区| 国产欧美在线观看一区| 亚洲精品中文字幕乱码三区不卡| 欧美男gay| 欧美亚洲第一页| 亚洲精品久久| 精品免费国产一区二区| 91精品久久久久久蜜臀| 免费永久网站黄欧美| 久久久久美女| 97视频在线免费| 欧美亚洲国产一区二区三区va| 澳门久久精品| 91xxx视频| 欧美日韩免费观看一区三区| 亚洲精品进入| 日本黄网站免费| 亚洲精品理论电影| 亚洲国产清纯| 日本在线丨区| 日韩免费观看av| 久久伊人中文字幕| av成人在线看| 亚洲视频欧美在线| 欧美美女一区二区| 午夜视频精品| 伊人75在线| 国产精品亚洲综合天堂夜夜| 国产精品你懂的在线| 国产精品一区二区三区av| 精品盗摄一区二区三区| 国产精品女人网站| 国产亚洲人成网站| 亚洲一区二区三区久久久| www.黄色网址.com| 精品国产乱码久久久久久影片| 国产精品婷婷| 黄在线免费观看| 国产伦精品一区二区三区免| 欧美日韩国产限制| 99久久99久久精品国产片桃花| h网址在线观看| 成人国产精品久久久| 婷婷综合另类小说色区| 99re6这里只有精品| 欧美日韩伦理片| 国产精品久久久久免费| 在线看不卡av| 国产日韩欧美高清免费| 中文在线观看免费| 亚洲va韩国va欧美va精四季| 日韩三级高清在线| 久国产精品韩国三级视频| 亚洲伊人av| 北条麻妃69av| 国外视频精品毛片| 亚洲自拍另类综合| 国产一级揄自揄精品视频| 亚洲精品18| 美女av在线免费观看| 国产精品高潮呻吟视频| 岛国视频午夜一区免费在线观看| 亚洲成人tv| 美女黄视频在线观看| 日本在线免费观看一区| 亚洲成人三级在线| 欧美一级专区| 午夜日韩成人影院| 男人天堂成人在线| 欧美重口另类videos人妖| 一区二区三区免费观看| 国产精品久久久乱弄| 老司机精品视频在线观看6| 亚洲最大免费| 久久综合88中文色鬼| 亚洲激情成人在线| 国产午夜久久| 国产精品**亚洲精品| 黑人巨大精品欧美一区二区奶水| 亚洲一区美女视频在线观看免费| 欧美精品一区二区三区中文字幕| 亚洲高清一区二| 久久精品人人做人人综合 | 亚洲人成伊人成综合网久久久|