国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

清華UCSD提出全新微調方法,8B小模型媲美GPT-4o!科學問題正確率提高28%

人工智能 新聞
最近,一支來自UCSD和清華的研究團隊提出了一種全新的微調方法。經過這種微調后,一個僅80億參數的小模型,在科學問題上也能和GPT-4o一較高下!或許,單純地卷AI計算能力并不是唯一的出路。

我們都知道,在科研界,LLM在解決簡單科學問題時表現得游刃有余,但在應對復雜問題時往往會出現幻覺。于是,為了讓模型更靠譜,研究人員嘗試給模型裝上科學工具,幫助它們解決高難度任務。

然而,一旦用上工具,模型就「上癮」了!甚至連一些不怎么難的問題都要靠工具解決。這不僅讓計算成本暴漲,還影響了模型自己「獨立思考」的能力——就像有的人有了計算器就不再心算一樣。

相較而言,人類科學專家在解決科學問題時,通常會先評估問題的復雜性,再決定使用基本推理或專業工具。

正是受這種解決問題流程的啟發,一支來自UCSD和清華的研究團隊提出了一種全新的微調方法,讓模型「邊適應邊學習」,學會在使用外部科學工具和依賴內部知識之間做出合理選擇。

圖片

論文地址:https://arxiv.org/abs/2411.00412

這一方法的顯著意義在于它大大提高了模型效率。

研究人員僅使用一個擁有80億參數的LLM——遠小于行業巨頭如GPT-4——便在測試數據集上實現了28.18%的答案準確率提升和13.89%的工具使用精度提高。

這挑戰了AI開發中的一個慣有想法:更大的模型必然能帶來更好的結果。

教會AI在使用外部工具和依賴內部知識之間進行判斷——就像訓練一位年輕科學家如何在相信自己計算的同時知道何時咨詢專業設備——可能比單純地卷AI計算能力更為重要。

微調方法簡介

微調方法由兩部分組成:World Knowledge Distillation(WKD)和Tool Usage Adaptation(TUA)。

圖片

World Knowledge Distillation可以翻譯為「世界知識蒸餾」。在WKD過程中,LLM通過學習那些借助工具生成的解答,來掌握和積累特定領域的知識。

WKD分為監督微調和偏好優化兩部分。

對于所有問題,研究人員提示LLM使用工具生成確定性的解答,然后將這些解答作為目標,進行監督微調(SFT)。

在遇到開放式問題時,除了進行監督微調外,LLM會生成一組不同的解答提議,并使用預定義的指標對這些提議進行排序,以構建偏好對;然后利用這些數據進行偏好優化。

圖片

而在Tool Usage Adaptation中,研究人員首先在基準數據集的問題上評估經過WKD微調后的LLM。對于每個問題,他們采樣生成一組直接回答,以計算其準確率。

基于預設的準確率閾值,他們將問題分為兩個子集:簡單問題集,即LLM可以直接解決的問題;以及復雜問題集,即LLM需要借助工具回答的問題。

對于簡單問題集,保持與WKD一致的對齊目標,即繼續通過內化已有知識直接作答;而對于復雜問題集,研究人員將對齊目標切換為包含工具使用軌跡的增強解答,并訓練LLM準確地遵循這些軌跡。

實驗過程

研究人員使用Llama-3.1-8B-Instruct作為微調方案的基礎模型。同時還對其他最先進的開源和閉源模型進行了廣泛評估,包括GPT-4o、GPT-4o mini、Claude 3.5 Sonnet和Llama-3.1-70B-Instruct。

數據集

研究人員使用了兩個現有的公開數據集MATH和SciBench,并構建了四個新的科學數據集用于實驗:Mujoco、偏微分方程(PDEs)、氣候科學和流行病學。

四個數據集的構建遵循系統化流程:首先,基于專家咨詢和模擬器功能設計了特定領域的問題模板;接著,通過在科學合理的參數范圍內進行采樣,生成單獨的問題;最后,利用LLMs和工具使用軌跡生成相應的解答。

圖片

Mujoco中主要涉及剛體和柔體動力學相關問題。

圖片

在偏微分方程(PDEs)中,研究人員設計了內部的數值求解器,并編制了關于熱傳遞、化學工程、人口模擬等領域的問題。

圖片

氣候科學問題數據集則以神經代理模型為中心。該模型接受時間、氣候情景(如SSP126、SSP245)、溫室氣體排放(CO?,CH?)和氣溶膠氣體(BC,SO?)等輸入,輸出相應的地表溫度。

圖片

圖片

流行病學問題數據集使用了最先進的代理模型。模型輸入包括每個加利福尼亞州縣的28天多維特征以及24維的州級初始條件,用于描述流行病狀態。模型輸出未來28天的流行病狀態預測。

圖片

四個自定義數據集主要由多項選擇題構成,而其中的氣候科學數據集還包含開放式問題(例如關于氣候變化緩解的政策建議)。公開的MATH和SciBench數據集則完全由數值問題組成。

外部科學工具

研究人員為不同數據集使用了不同的工具。

對于Mujoco數據集,他們使用了官方API;

對于PDEs數據集,他們利用了內部的數值求解器;

對于氣候和流行病學數據集,他們使用了封裝對應神經代理模型的API;

對于開放式數據集,他們采用了Python代碼解釋器。

評估指標

實驗主要評估了兩種準確率:答案準確率和工具使用準確率。

答案準確率

答案準確率量化了模型提供的正確答案比例。

對于自定義數據集中的多項選擇題(MCQs),研究人員根據模型是否選擇正確選項來分配二進制分數。

對于MATH和SciBench數據集中的數值答案,如果答案在真實值的±5%的容差范圍內,則視為正確答案。

工具使用準確率

工具使用準確率評估模型是否能在工具使用方面做出智能決策,即在回答較難問題時使用工具,而在回答較簡單問題時直接作答。

問題根據訓練模型是否可通過Pn(無工具使用)回答來劃分為簡單(E)或困難(H)。當使用允許工具選擇的Pi時,決策進一步標記為T(使用工具)或N(不使用工具)。例如,HT表示模型在處理一個困難問題時選擇使用工具。

工具使用準確率定義為:

圖片

實驗結果

答案準確率

該微調方法在自定義數據集上的表現顯著優于所有基準模型,這些數據集通常未在預訓練中涵蓋。

盡管在公開數據集上,微調過的模型并未超越當前的最先進模型,但相比于未微調的基礎模型,該方法顯示出顯著的改進。這一在公開基準測試上的性能差距,可能是由于當前最先進模型具有更多的參數量,并對開源數據集進行了特定優化。

圖片

工具使用準確率

總體而言,訓練模型在所有數據集上均實現了最佳的工具使用準確率,除了在SciBench數據集上排名第二。

圖片

相比之下,其他模型的準確率大約為50%,表明兩種典型情況:要么過度依賴工具,要么從不嘗試使用工具。

除了表中展示的優勢外,研究人員還進一步分析了MATH數據集上的工具使用決策情況,該數據集在下圖中根據問題難度提供了先驗標簽。

圖片

訓練模型在問題難度增加時顯示出合理的工具使用增長?;A模型則無論問題難度如何均表現出對工具的過度依賴;而Claude 3.5在面對簡單和困難問題時均表現出更多的直接回答信心,可能是因為MATH是一個公開數據集,該模型在訓練期間已接觸到類似問題。

作者介紹

Bohan Lyu

Bohan Lyu目前在清華大學修讀計算機科學與經濟學雙學位。

2023年,他加入清華NLP實驗室,受劉知遠教授的指導。

2024年夏天,他前往加州大學圣地亞哥分校(UCSD)的計算機科學與工程系Rose-STL實驗室,導師是Rose Yu教授。本研究部分工作在他訪問UCSD期間完成。

他的研究興趣是設計創新的計算機科學方法,特別是專注于語言技術、知識發現和數據挖掘,以解決現實世界的挑戰。

此前,他曾擔任過ICLR 2024、ICML 2024和ACL 2024研討會的審稿人。

Yadi Cao

Yadi Cao在加州大學圣地亞哥分校(UCSD)計算機科學與工程系擔任博士后研究員,導師是Rose Yu教授。

此前,他在加州大學洛杉磯分校(UCLA)獲得了計算機科學博士學位,導師是Chenfanfu Jiang教授和Demetri Terzopoulos教授。

他的博士研究主要集中在偏微分方程(PDE)的數值解和機器學習方法,特別是在計算固體和流體動力學方面。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達

2025-08-21 16:01:58

2025-10-28 02:11:00

2024-07-23 12:32:11

2025-08-07 14:05:40

OpenAI大模型開源

2025-05-27 15:19:52

GPUMetaGPT-4o

2025-09-28 15:35:32

AI模型強化學習

2025-06-26 09:09:31

2024-07-02 01:09:02

2025-10-10 01:00:00

8B模型GPT-4oAgent

2025-01-16 16:39:44

2025-05-12 08:50:00

2025-12-03 17:17:29

AI圖像生成模型

2025-10-13 08:50:00

2024-08-15 15:45:00

AI訓練

2025-01-08 09:00:00

訓練數據研究

2025-05-06 15:32:23

模型AI測試

2024-10-06 09:00:00

AI訓練數據

2025-09-24 08:53:10

2025-01-21 10:10:56

點贊
收藏

51CTO技術棧公眾號

午夜精品成人在线视频| 国产国语videosex另类| 欧美一区二区精品| 日韩欧美中文字幕公布| 欧美婷婷六月丁香综合色| 欧美午夜影院在线视频| 久久美女艺术照精彩视频福利播放| 精品精品国产高清一毛片一天堂| 欧美日韩在线视频一区二区三区| 97精品视频| 久久婷婷国产麻豆91天堂| 成人动漫在线免费观看| 激情综合色综合久久| 1卡2卡3卡精品视频| 亚洲小说春色综合另类电影| 欧美高清精品3d| 中文字幕在线视频观看| 国产精品女主播在线观看| 中文字幕免费在线不卡| 一区二区三区网站| 国产精品亚洲一区二区三区| 精品中文视频| 九九久久国产精品| 污视频网站在线免费| 福利微拍一区二区| 国产激情99| 亚洲欧洲精品成人久久奇米网| 天天草夜夜草| 免费的国产精品| 国产日产亚洲精品系列| 久久91亚洲精品中文字幕| 91最新地址在线播放| 亚洲国产成人精品无码区99| 国产91露脸合集magnet| 50度灰在线观看| 91天堂素人约啪| 自拍偷拍21p| 狠狠躁夜夜躁人人躁婷婷91 | 国产精品视频自拍| 国内精品久久久久久久影视简单| 久久精品91| 亚洲精品电影在线| 欧美日韩视频在线播放| 91精品久久久久久蜜臀| 麻豆视频在线观看免费网站黄| 日韩成人在线网站| 国产精品玖玖玖在线资源| 国产精品免费久久久久影院| 日韩视频不卡| 88av.com| 7777精品伊人久久久大香线蕉的| 肉色欧美久久久久久久免费看| www.亚洲男人天堂| 激情五月综合| 一级黄色片播放| 亚洲精品视频免费看| 欧美激情黑人| 欧美专区在线视频| 黄页网站大全一区二区| 3dmax动漫人物在线看| 亚洲欧美另类中文字幕| 经典一区二区| 一女被多男玩喷潮视频| 欧美日韩一区二区三区在线看| 欧美日韩卡一卡二| 国内高清免费在线视频| 欧美亚洲在线观看| 蜜桃视频一区二区三区| 中文字幕在线中文字幕二区| 亚洲精品久久久久久久久久久久久 | 亚洲国产欧美在线成人app| 国产激情欧美| 欧美精品一区二区视频| 一区二区三区四区在线播放| 欧美舌奴丨vk视频| 国产精品国产福利国产秒拍| 99久久精品免费精品国产| 老司机精品影院| 成人综合国产精品| 亚洲男人的天堂在线观看| 成人啊v在线| 男人j进女人j| 亚洲国产精品99| 日韩av在线播放中文字幕| 自拍视频在线网| 国产精品一区二区在线观看| 亚洲综合激情网| 欧美一级精品| 久久久久久久久亚洲精品| 91在线播放视频| 欧美视频在线一区| 国内精品久久久久国产盗摄免费观看完整版| 免费看污黄网站| 国产精品爽黄69| 日本韩国一区二区三区| 欧美日本精品| 国产精品久久久久久福利| 国产成人av一区二区三区| 欧美日韩电影在线播放| 精品久久精品| 精品一二三区视频| 欧美美乳视频网站在线观看| 欧美videos大乳护士334| 日本人妖一区二区| 午夜a一级毛片亚洲欧洲| 亚洲国产精品一区二区第一页 | 欧美揉bbbbb揉bbbbb| 精品国产一区二区三区四区四| 欧美最猛性xxxxx(亚洲精品)| 中文字幕网av| 欧美成人性福生活免费看| 亚洲精品国产偷自在线观看| 久久av一区二区三区漫画| 欧美1区2区3区| 日韩国产一级片| 在线观看日韩一区| 久久一区二区三区喷水| 欧美性bbwbbwbbwhd| 国产精品久久久久四虎| 香蕉网站在线观看| 色综合久久九月婷婷色综合| 91av亚洲| 91在线精品视频| 精品日产卡一卡二卡麻豆| 老汉av免费一区二区三区 | 久久久一本精品| 一级在线视频| 成年人看的毛片| 久久精品国产理论片免费| 久久频这里精品99香蕉| 午夜欧美视频在线观看| 九七久久人人| 国产精品久久久久久福利一牛影视| av电影在线观看网址| 日韩欧美精品久久| 久久久久久国产精品| 欧美一级专区免费大片| 亚洲视频你懂的| 日本一区二区三区dvd视频在线| 9999国产精品| 欧美日韩中文字幕一区二区三区| 国产精品xxx| 日本在线免费| 一区二区xxx| 91美女片黄在线观| 日韩精品视频三区| 国产亚洲精品福利| 亚洲免费黄色| 欧美成人一区在线观看| 1024视频在线| 伊人久久大香线蕉精品| 日本免费久久高清视频| 欧美大码xxxx| 在线播放91灌醉迷j高跟美女| 久久99精品久久久久婷婷| 一区在线影院| 国产精品无码av在线播放 | 亚洲亚洲人成综合网络| 我不卡影院28| www免费在线观看| 日本中文字幕在线观看| 欧美成人视屏| 中文字幕免费在线| 一区二区三视频| 国产91精品久久久久| 一区二区三区黄色| 日韩精品在线观| 久久久久久久久久美女| 欧美亚洲国产激情| 91高清视频在线观看| 色视频一区二区三区| 日韩成人激情视频| 日本一二三不卡| 欧美人妖视频| 在线观看爽视频| 亚洲精品套图| 国产精品10p综合二区| 亚洲国产黄色片| 成人免费观看男女羞羞视频| 大桥未久女教师av一区二区| 国产l精品国产亚洲区久久| 中文在线免费| 精品中文字幕一区| 国产在线视频欧美一区二区三区| 色视频一区二区| 国产乱码精品一区二区三区av | 日韩高清不卡在线| 国产欧美一区视频| 欧美电影精品一区二区| 欧美亚洲日本网站| 中文精品一区二区三区| 中文字幕在线看| 日韩漫画puputoon| 中文字幕一区二区三区乱码图片 | 国产欧美日韩专区发布| 人禽交欧美网站免费| 欧美性猛交p30| 国产精品一线天粉嫩av| 日本一区二区三区在线观看| 日韩成人中文字幕在线观看|