国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

AI博士智能體自主科研,o1-preview封神成本暴降84%!AMD霍普金斯新作爆火

人工智能 新聞
AI已經能夠自主科研了!AMD霍普金斯祭出「智能化實驗室」不僅能獨立完成文獻調研到論文撰寫全流程工作,還能將研究成本暴降84%。

AI離自主科研,真的越來越近了!

最近,Hyperbolic聯創Jasper Zhang在采訪中稱,AI智能體已經可以自主租用GPU,利用PyTorch進行開發了。

其實,在科研方面,AI智能體也是一把能手。

只要腦海里有科研的奇思妙想,一份高質量的研究報告甚至連代碼,都能很快呈現在你眼前。

這不,AMD聯手霍普金斯打造出的一款「智能體實驗室」,瞬間在全網爆火。

這個超牛的AI系統,代號叫做Agent Laboratory,全程靠LLM驅動!

圖片

圖片

從文獻綜述開始,到開展實驗,再到最后生成報告,就像一位不知疲倦的科研小能手,一站式搞定整個科研流程。

圖片

Agent Laboratory由LLM驅動的多個專業智能體組成,自動處理編碼、文檔編寫等重復耗時的任務。

在研究的每個階段,用戶都可以提供反饋與指導。Agent Laboratory旨在助力研究人員實現研究創意,加速科學發現,提高研究效率。

圖片

論文地址:https://arxiv.org/abs/2501.04227

研究發現:

  1. 由o1-preview驅動的Agent Laboratory產出的研究成果最佳;
  2. 與現有方法相比,Agent Laboratory生成的代碼達到先進水平;
  3. 人類在各階段提供的反饋,顯著提升了研究的整體質量;
  4. Agent Laboratory大幅降低研究費用,與傳統研究方法相比,費用減少了84%。

Agent Laboratory有三個關鍵階段:文獻綜述、實驗設計和報告撰寫。

由LLM驅動的專業智能體(如博士、博士后等)協同工作,承擔文獻綜述、實驗規劃、數據準備和結果解釋等工作。這些智能體還會集成arXiv、Hugging Face、Python和LaTeX等外部工具,來優化結果。

圖片

文獻綜述

文獻綜述階段,旨在收集、整理與給定研究主題相關的論文,為后續研究提供參考。

在這個過程中,博士智能體借助arXiv API檢索相關論文,并執行三個主要操作:摘要、全文和添加論文。

  • 摘要:從與初始查詢相關的前20篇論文中提取摘要
  • 全文:提取特定論文的完整內容
  • 添加論文:將選定的摘要或全文納入到文獻綜述

該過程并非一次性完成,而是迭代進行。智能體多次執行查詢,依據論文內容評估其相關性,篩選出合適的論文,構建全面的文獻綜述。

當通過「添加論文」命令達到指定數量(N=max)的相關文獻后,文獻綜述才會完成。

實驗環節

實驗環節包括制定計劃、數據準備、運行實驗和結果解釋。

制定計劃

在這個階段,依據文獻綜述和研究目標,智能體需要制定一份詳盡且可行的研究計劃。

博士和博士后智能體通過對話協作,明確研究方法,比如要采用哪些機器學習模型、使用什么數據集,以及實驗的主要步驟。

達成一致后,博士后智能體通過「計劃」命令提交該計劃,作為后續子任務的行動指南。

圖片

數據準備

在此階段,ML工程師智能體負責執行Python命令來運行代碼,為實驗籌備可靠的數據。該智能體有權限訪問 HuggingFace數據集。

代碼完成后,ML工程師智能體通過「提交代碼」命令提交。在正式提交前,代碼會先經過Python編譯器檢查,確保不存在編譯問題。若代碼有錯誤,這個過程將反復進行,直至代碼無誤。

運行實驗

在運行實驗階段,ML工程師智能體借助mle-solver模塊來執行之前制定的實驗計劃。

mle-solver是一個專門的模塊,主要功能是自主生成、測試以及優化機器學習代碼,其工作流程如下:

A. 命令執行

在命令執行階段,初始程序是從預先維護的高性能程序中選取的。

mle-solver通過「REPLACE」和「EDIT」這兩個操作,對這個程序進行迭代優化。

「EDIT」操作會選定一系列行,用新生成的代碼替換指定的內容。「REPLACE」操作會直接生成一個全新的Python文件。

B. 代碼執行

執行代碼命令后,編譯器會檢查新程序在運行時是否存在錯誤。

若程序成功編譯,系統會給出一個得分。若該得分高于現有程序,頂級程序列表就會更新。

要是程序編譯失敗,智能體就會嘗試修復代碼,最多嘗試3次。如果修復失敗,就會返回錯誤提示,重新選擇或生成代碼。

C. 程序評分

通過基于LLM獎勵模型對編譯成功的代碼打分,評估mle-solver生成的機器學習代碼的有效性。

該獎勵模型會依據研究計劃、生成的代碼以及觀察到的輸出,對程序進行評分,評分范圍是0到1。得分越高,表明程序能夠更有效地實現研究目標。

D. 自我反思

無論代碼運行成功與否,mle-solver都會依據實驗結果或者錯誤信號進行反思。智能體會思考每個步驟,力求優化最終結果。

如果程序編譯失敗,求解器就會琢磨下一次迭代時該怎么解決這個問題。要是代碼成功編譯且有了得分,求解器則會思考怎樣提高這個分數。這些反思旨在幫助系統從錯誤中學習,并在后續迭代中提高代碼質量和穩定性。

E. 性能穩定化

為避免性能出現波動,采用了兩種機制:頂級程序采樣和批量并行化。這兩種策略在探索新解決方案和優化現有方案之間找到平衡,讓代碼修改過程更加穩定 。

  • 頂級程序采樣:指維護一組評分最高的程序。在執行命令前,會從這組程序中隨機挑選一個,既能保證程序的多樣性,又能確保質量。
  • 批量并行化:求解器每進行一步操作,都會同時對程序做出N次修改,然后從這些修改中挑選出評分最高的,去替換頂級集合里評分最低的程序。

研究者在MLE-bench的10個ML挑戰中單獨評估了mle-solver。mle-solver始終優于其他求解器,獲得了更多獎牌,并在10個基準中的6個中達到了高于中位數的人類表現。

圖片

解釋結果

在此階段,博士和博士后智能體一同探討對mle-solver得出的實驗結果的理解,旨在從實驗結果中提煉出有價值的見解。

當他們就某個有意義的解釋達成共識,且認為該解釋能為學術論文增添價值時,博士后智能體便會通過「解釋」命令提交該解釋,為后續的報告撰寫提供支撐。

撰寫研究報告

報告寫作階段,博士和教授智能體負責把研究成果整理成一份完整的學術報告。這一過程借助名為paper-solver的模塊,來迭代生成并完善報告。

paper-solver并非要完全取代學術論文的寫作過程,而是以人類易于理解的格式,對已完成的研究成果進行總結。

該模塊生成的報告遵循學術論文的標準結構。paper-solver模塊的工作流程如下:

A. 初始報告框架

paper-solver的首要任務是生成研究論文的初始框架。該框架框架遵循學術規范,采用了LaTeX編譯所需的格式,生成的論文能直接進入審閱和修改環節。

B. ArXiv研究

paper-solver可按文獻綜述接口訪問arXiv,探索與當前撰寫主題相關的文獻,還可以查找可引用的論文。

C. 報告編輯

使用「EDIT」命令,對LaTeX代碼進行迭代和修改,確保論文與研究計劃相符、論點清晰且滿足格式要求。

D. 論文審閱

這個系統借助基于LLM的代理,模擬科學論文的審閱過程,遵循NeurIPS會議的審稿指南對論文進行評估。

E. 論文完善

在論文修改階段,根據三個評審代理給出的反饋意見,博士智能體負責決定論文是需要修訂。這一過程能夠持續優化研究報告,直至達到較高標準。

圖片

輔助駕駛模式

Agent Laboratory有兩種運行模式:自主模式和輔助駕駛模式。

自主模式下,用戶僅需提供初始研究思路,此后整個過程完全無需人工干預。每完成一個子任務,系統便會自動按順序推進至下一個子任務。

輔助駕駛模式下,同樣是先提供研究思路。不同的是,每個子任務結束時設有檢查點。在這些檢查點,人工審閱者會對代理在該階段的工作成果(如文獻綜述總結、生成的報告等)進行審閱。

人工審閱者有兩個選擇:一是讓系統繼續推進到下一個子任務;二是要求代理重復當前子任務,并給出改進建議,助力代理在后續嘗試中表現更佳。

o1-preview總分最高

通過比較15篇由10位博士審閱的論文,研究者分析了3個LLM(gpt-4o、o1-mini、o1-preview)在實驗質量、報告質量和實用性方面的表現。人類評審者使用NeurIPS風格的標準來評估論文。

圖片

o1-preview的總分最高(4.0/10),其次是o1-mini(3.8)和gpt-4o(3.5)。o1-preview在實用性和報告質量方面表現出色,o1-mini在質量上領先。

而在重要性和貢獻這兩項上,所有模型的表現都較為普通,這反映出模型在原創性和影響力方面存在局限。

所有模型的得分均低于NeurIPS的平均分,表明生成的論文在技術性和方法論的嚴謹性上顯著不足。凸顯了進一步優化Agent Laboratory的必要性,讓其生成的內容符合高質量出版物的標準。

圖片

在輔助駕駛模式下,研究人員對論文的實用性(3.5/5)、延續性(3.75/5)、滿意度(3.63/5)和可用性(4.0/5)進行了評分。輔助駕駛模式下的論文質量從3.8/10提高到4.38/10。

圖片

運行時間和成本分析顯示,gpt-4o的計算效率和成本效益最佳,完成時間為1165.4秒,成本為2.33美元,優于o1-mini(3616.8秒,7.51美元)和o1-preview(6201.3秒,13.10美元)。

報告撰寫是成本最高的階段,尤其是o1-preview(9.58美元)。

圖片

Agent Laboratory的出現,無疑是科研領域的一次重大革新,展現了AI在助力科研上的巨大潛力。

盡管它還存在一些需要完善的地方,如生成論文在某些方面與高質量出版物標準尚有差距,但它所帶來的高效、便捷以及新思路,已經讓我們看到了未來科研發展的新方向。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-09-23 16:00:00

AI模型測評

2024-11-15 09:36:07

2025-01-10 14:14:44

2025-01-02 09:53:17

2024-12-20 14:30:00

2025-09-02 09:05:00

AI大模型智能體

2024-10-28 08:50:00

2025-10-14 13:54:01

AI模型測試

2025-01-26 10:25:53

2024-11-20 14:00:00

模型測評

2025-04-04 00:00:00

AI模型數據

2025-02-11 16:17:42

2023-04-11 13:55:20

AI游戲

2023-07-07 17:03:23

AI智能

2024-05-11 07:00:00

AIIC-LightP照片換背景

2023-07-05 13:56:50

2025-05-30 06:48:53

2025-01-13 00:00:00

訓練數據模型

2017-05-23 17:03:15

阿里云VPN網關公網
點贊
收藏

51CTO技術棧公眾號

国产美女在线观看一区| 久久成年人视频| 国产二级片在线观看| 天堂资源在线中文精品| 91手机在线视频| 国产成人精品免费视| 亚洲最新av在线网站| 免费观看成人高潮| 亚洲综合免费观看高清在线观看| 黑人糟蹋人妻hd中文字幕| 国产精品 日产精品 欧美精品| 欧美三级网色| 黄色日韩在线| 亚洲va欧美va国产综合剧情| 私拍精品福利视频在线一区| 精品久久国产精品| 偷拍视频一区二区三区| 欧美精三区欧美精三区| 性色视频在线观看| 亚洲不卡在线观看| 午夜影院韩国伦理在线| 国产精品久久久久aaaa樱花| 欧美亚洲另类色图| 波多野洁衣一区| 9久久9毛片又大又硬又粗| 国产成人在线影院| 蜜臀av无码一区二区三区| 国产成人免费av在线| 路边理发店露脸熟妇泻火| 激情欧美日韩一区二区| 中文字幕中文字幕99 | 欧美乱妇23p| 国产玉足榨精视频在线观看| 色综合激情久久| 精品av中文字幕在线毛片| 婷婷久久综合九色国产成人 | 日色在线视频| 午夜日韩在线观看| 日韩美女一级视频| 欧美视频日韩视频在线观看| а√中文在线8| 亚洲精品ady| 国产精品成人国产| 久久久久久久久久国产| 国产一区二区三区四区| www.久久久| 日韩和欧美一区二区三区| 国产精品av免费观看| 国产日本欧美一区二区| 青柠在线影院观看日本| 欧美精品久久99| 日本综合字幕| 91精品国产色综合久久不卡98| 久久国产亚洲| 视频一区二区在线| 久久久99久久精品欧美| 蜜芽视频在线观看| 精品久久久久久亚洲综合网 | 亚洲精品成人久久久| 国产亚洲人成a在线v网站| 91a在线视频| 99视频一区| 久久精品国产sm调教网站演员| 国产精品视频麻豆| 水莓100在线视频| 91精品综合久久久久久| 成人毛片免费| 国产精品久久久久久久av大片 | 久久久www成人免费精品张筱雨| 精品淫伦v久久水蜜桃| 亚洲va欧美va国产综合剧情| 秋霞av亚洲一区二区三| the porn av| 在线成人av网站| 狂野欧美xxxx韩国少妇| 91原创国产| 91免费看视频| 北岛玲一区二区三区| 中文字幕在线亚洲| 日韩在线高清| 免费看欧美黑人毛片| 狠狠久久五月精品中文字幕| 韩日精品一区二区| 成人两性免费视频| 国产福利一区在线观看| 免费h片在线观看| 欧美大片一区二区| 妖精一区二区三区精品视频 | 同产精品九九九| 欧美在线极品| 91精品国产自产在线老师啪 | 精品亚洲欧美日韩| 国产欧美日韩精品一区| www.欧美日本韩国| 日本精品免费一区二区三区| 青青青伊人色综合久久| 高清中文字幕在线| 亚洲欧美日韩直播| 欧美日韩少妇| 男女午夜网站| 亚洲人成网站色ww在线| 午夜亚洲福利| 91大神影片| 中文字幕亚洲综合久久| 99热这里只有成人精品国产| 羞羞视频立即看| 国产一区二区三区直播精品电影 | 欧美日韩hd| 在线观看免费视频高清游戏推荐| 亚洲成人三级在线| 欧美另类视频| 97超超碰碰| 色妞在线综合亚洲欧美| 亚洲综合国产| 污视频在线观看网站| 欧美成人精品在线| 精品亚洲aⅴ乱码一区二区三区| 日韩美女一级视频| 国产经典一区二区| 中文字幕乱码日本亚洲一区二区 | 欧美gay囗交囗交| 蜜桃传媒一区二区| 欧美日韩在线观看视频| 欧美一级色片| 不卡影院一区二区| 日韩中文字幕在线视频| 久久国产免费看| 色操视频在线| 久久99精品久久久久久水蜜桃| 欧美日韩一区二区在线| 四虎国产精品免费观看| 橘梨纱av一区二区三区在线观看| 久久综合电影一区| 成人激情小说乱人伦| 在线天堂中文资源最新版| 日本亚洲自拍| 日韩一区二区在线观看视频| 亚洲美女91| 18+激情视频在线| 欧美日韩在线精品| 日韩一区二区三| 日本美女一区二区三区视频| 岛国中文字幕在线| 欧美人与物videos另类| 欧美一区二区三区小说| 亚洲在线观看| 色操视频在线| 在线成人av电影| 亚洲欧美国产精品va在线观看| 国产专区欧美精品| 日韩久久一区二区三区| 拔插拔插海外华人免费| 色七七影院综合| 久久久久99精品国产片| 红杏视频成人| 蜜臀在线观看| 国产欧美日本在线| 欧美精品一区在线观看| 国产综合久久久久久久久久久久| 欧美一区久久久| 日韩精品视频久久| 欧美在线免费观看| 亚洲国产视频在线| 日韩欧美一区二区三区在线视频| 青青草观看免费视频在线| 国产一区免费在线| 亚洲国产日韩欧美在线动漫| 成人avav影音| 国产成人调教视频在线观看| 欧美精品少妇| 欧美一区1区三区3区公司 | 亚洲自拍与偷拍| 欧美黄在线观看| 色yeye免费人成网站在线观看| 男人天堂a在线| 国语自产在线不卡| 欧美日韩一区二区在线播放| 天堂在线亚洲视频| 91精品亚洲一区在线观看| 国产网站av| 久久久久se| 日韩在线欧美在线国产在线| 国产精品亲子乱子伦xxxx裸| 性xxxx欧美老肥妇牲乱| 91精品久久久| 18禁男女爽爽爽午夜网站免费| 成人xvideos免费视频| 亚洲护士老师的毛茸茸最新章节| 中文字幕免费在线观看视频一区| 欧美日韩免费| 精品中文在线| 亚洲图片88| 亚洲欧美自偷自拍另类| 国产一区二区三区黄| 欧美精品免费在线观看| 在线播放91灌醉迷j高跟美女| 国产免费成人在线视频| 日本少妇一区二区| 久久麻豆精品| 网站一区二区|