国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

米開朗基羅怎么說?谷歌DeepMind推出長上下文評估新框架

人工智能 新聞
近日,來自谷歌DeepMind的研究人員提出了Michelangelo,「用米開朗基羅的觀點」來測量任意上下文長度的基礎模型性能。

米開朗基羅,文藝復興時期著名的雕塑家。

曾有人問他是如何創作出如此偉大的作品,他回答說:

「The sculpture is already complete within the marble block, before I start my work. It is already there, I just have to chisel away the superfluous material.」


「在我開始工作之前,雕塑已經在大理石塊中完成了。它已經在那里了,我只需要鑿掉多余的材料?!?/span>

(小編PS:在我寫稿之前,稿子已經在字典里完成了......)

這種寫意的表述可以類比到許多工作,比如大語言模型從上下文中理解信息。

LLM可能面對著很長的語境(大理石),需要「鑿掉」其中不相關的信息,才能理解有效的內部結構(雕塑)

所以,對于LLM來說,米開朗基羅的能力就可以是長上下文的能力。

然而,無論是用戶還是研究者都不免會有疑問:你這瓜保熟嗎?號稱百萬token的長上下文真的能理解嗎?

近日,來自谷歌DeepMind的研究人員提出了Michelangelo,「用米開朗基羅的觀點」來測量任意上下文長度的基礎模型性能。

圖片

論文地址:https://arxiv.org/abs/2409.12640

作者設計了用于長上下文推理評估的潛在結構查詢框架LSQ,框架包含了長上下文評估的現有工作。

Michelangelo由三個簡單的潛在結構查詢實例組成,每個實例負責測量的能力和實例化的數據分布有所不同。

圖片

研究人員在目前性能最好的幾個模型上進行了高達1M上下文的評估。

實驗證明,GPT和Claude模型在128K的上下文范圍中表現都不錯,而Gemini也確實做到了在高達1M的上下文中具有泛化能力。

然而,如果是比較困難的推理任務,大家就基本全軍覆沒了。

圖片

上圖展示了幾個前沿模型在框架的其中一項任務MRCR(Multi-Round Co-reference Resolution)上的性能。

MRCR是一項合成的長推理任務,使用簡單的度量進行評估,并在許多模型族中使用固定提示,實驗中所有型號的LLM在32K之前的區間中,性能都隨上下文長度而顯著下降。

這一方面可以看出大家的能力都有點水分,另一方面也表明在比較短的長度(32K)上就已經可以摸清底細了。

圖片

對比不同模型系類的MRCR實驗,可以發現有趣的聯系——近似平行的曲線,這可能暗示這些模型在訓練過程中存在獨特的相似之處(即使性能可能存在絕對差異)。

米開朗基羅

通過要求模型從結構中提取信息,而不是從鍵中提取值,我們可以更深入地測試語言模型上下文理解能力,而不僅僅是檢索。

圖片

盡管隨著超長上下文的刷榜,基準測試也在不斷跟進,比如在大海中多撈幾根針,又或者是更現實的長語境問答評估。

但歸根結底,這些都只是不同環境中的檢索任務,而模型檢索一個或多個事實的能力并不一定意味著模型能夠從完整的上下文中綜合信息。

另外,目前的長上下文基準還存在以下一些問題:

相對較小的上下文長度;

高度人工性,沒有自然語言或代碼設置;

需要大量的人力才能延伸到更長的上下文長度;

有時,回答問題所需的信息可能存在于預訓練數據中,或者可以短路上下文長度并使用更多本地信息回答問題。

如何解決?

Michelangelo由三個直觀且簡單的長上下文綜合任務基元組成,它們要求模型綜合散布在整個上下文中的多條信息以產生答案,并測量模型綜合能力的不同方面,以提供對長上下文模型行為的更全面理解。

Michelangelo的每項評估都定位在自然語言或基于代碼的環境中,與現有基準相比,合成程度較低。

任務在上下文長度上可以任意擴展,同時保持固定的復雜性,并且不會導致邏輯矛盾或短路。

另外,實例的生成基于自然語言的方法,不依賴于現有的評估集或互聯網數據,因此避免了泄露。

評估任務

Latent List

考慮一個簡短的Python列表,并提出一系列修改該列表的操作,比如append、insert、pop、remove、sort、reverse。

給定操作序列,模型需要輸出結果潛在列表的視圖:能夠打印列表的完整切片、列表切片的總和、最小值或最大值,列表的長度(列表長度不取決于實例的總上下文長度,而是取決于相關操作的數量)。

為了填充上下文,這里統一采用三種不影響列表潛在狀態的策略:

1)插入print語句(Do nothing);

2)插入偶數個反向操作;

3)插入所有在本地自我抵消的操作塊。

圖片

作者考慮了三個復雜度級別,分別包含1個、5個和20個相關操作。

使用近似度量來對Latent List任務進行評分,以下代碼描述了計算此分數的確切方法:

圖片

MRCR

在MRCR任務中,模型根據與用戶之間的長時間對話,來進行不同主題的寫作(例如詩歌、謎語、論文)。

這里使用PaLM 2模型提供與每個請求和主題相對應的多個輸出。

在每個對話中,包含不同于其余對話的主題和寫作格式的用戶請求將隨機放置在上下文中。

圖片

將對話作為上下文,要求模型重現其中一個請求產生的對話的輸出。

MRCR任務還通過格式和主題重疊,來創建與查詢相似的對抗性樣本。

比如,請求「Reproduce the poem about penguins.」要求模型區分關于企鵝的詩和關于火烈鳥的詩,而「Reproduce the first poem about penguins.」要求模型對順序進行推理。

作者通過模型輸出和正確響應之間的字符串相似性對MRCR進行評分。

IDK

IDK任務向模型展示大量文本并提出一個問題,鑒于預訓練語料庫龐大,該問題沒有客觀答案。

例如,可能有一個關于一個女人和她的狗的虛構故事,其中詳細說明了狗的名字和年齡,但沒有詳細說明它的顏色。然后向模型提問:女人的狗是什么顏色的?

此任務的每個實例,都會提供四個選項作為答案,其中一個始終是「I don't know」,而其他選項都是相對合理的回答。

圖片

評估中設置70%的任務實例對應于真實答案是「I don't know」,30%的實例對應于在上下文中可找到答案(即簡單檢索任務),最后根據模型輸出是否具有正確答案進行評分。

全新評估框架

長上下文評估通常應遵循以下原則:

通??蓴U展至任意上下文長度;

由相關信息的數量編制索引的復雜度;

上下文長度難度應與任務對應的復雜度解耦,沒有不相關的信息;

覆蓋自然語言文本和代碼(兩個基本領域);

避免數據泄露;

測試模型對上下文中傳達的隱含信息的理解;

用盡可能少的評估次數,測試長上下文綜合能力的正交維度。

本文的評估框架將呈現給模型的上下文視為一個信息流,它構成了對潛在結構的更新:完整的上下文長度就像一塊大理石,里面有許多不相關的信息,LLM需要鑿掉不相關的信息,才會露出里面的雕像(潛在結構)。

舉個例子,你可以想象讀一本描寫家庭的書——父母可能會離婚,孩子長大后會結婚,長輩會去世。在這個過程中,與家譜對應的潛在結構發生了變化和更新(書中的大部分信息則根本不影響家譜)。

實驗結果

考慮每個評估中的128K上下文:

圖片

如圖所示,在短上下文中,這些模型的性能最初會出現一次急劇的超線性下降。

圖片

請注意,任務復雜度在整個上下文中保持固定,因此這種下降完全是由于模型的長上下文處理能力。

圖片

之后,性能通常會趨于平緩或繼續以大致線性的速度下降,并通常會持續到非常大的上下文長度。

我們可以將這種行為解釋為模型具有足夠好的子功能,足以在給定任務上實現一定水平的性能,并且這些子功能的長度泛化到了非常大的上下文長度。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-04-03 10:05:00

LLM性能基準測試

2024-09-30 14:10:00

2024-04-07 08:50:00

谷歌框架

2025-10-31 01:00:00

2025-09-10 09:38:56

2025-10-20 09:06:00

2024-09-05 08:24:09

2025-05-28 11:46:52

強化學習模型AI

2025-10-14 10:03:11

CompLLMLLMRAG

2017-05-11 14:00:02

Flask請求上下文應用上下文

2023-06-20 16:26:21

2025-10-11 04:22:00

人工海馬體網絡LV-Eval

2025-02-26 00:16:56

RAGAI服務

2025-08-08 01:45:00

上下文工程優化框架

2012-12-31 10:01:34

SELinuxSELinux安全

2022-09-14 13:13:51

JavaScript上下文

2025-02-06 10:21:51

2025-12-03 08:47:00

AI智能體框架

2022-09-15 08:01:14

繼承基礎設施基礎服務

2025-12-09 09:28:54

點贊
收藏

51CTO技術棧公眾號

国产91综合一区在线观看| 成人晚上爱看视频| 国产精品成人一区二区网站软件| 日韩一级在线观看| 国产精品视频精品| 国产欧美黑人| 日韩欧美网址| 日韩免费在线观看| 国产伦精品一区二区三区免费视频| 污色网站在线观看| 厕沟全景美女厕沟精品| 亚洲一区二区毛片| 亚洲一区二区精品久久av| 日本欧美在线视频| 成人av小说网| 福利在线一区| 亚洲欧美另类自拍| 91成人高清| 一区二区三区午夜探花| 午夜精品福利一区二区三区蜜桃| 国产一二三在线视频| 少妇在线看www| 在线观看不卡一区| avlululu| 亚洲va久久| 欧美高清一级片在线观看| 亚洲欧美在线一区| 二级片在线观看| 成人影院在线视频| 欧美一区二区三区播放老司机| 中文在线三区| 欧美激情视频一区二区三区在线播放 | 毛片av在线播放| h片在线观看视频免费| 在线观看日韩电影| 一二三在线视频社区| 亚洲免费av高清| 国产97在线亚洲| 好吊妞国产欧美日韩免费观看网站| 中文字幕一区二区三| 国产a级一级片| 精品国产一区二区三区久久久樱花| 欧美肥老妇视频| 国产天堂在线观看| 成人在线网站| 国产视频一区二区三区在线观看| 日韩伦理在线免费观看| 亚洲婷婷丁香| 国产精品成人一区二区三区吃奶| 在线观看视频网站你懂得| 亚洲最新在线观看| 国产精品日韩欧美一区二区| 日韩高清在线不卡| 在线性视频日韩欧美| 欧美日韩影视| 亚洲午夜小视频| 91手机视频在线观看| a级黄色一级片| 亚洲电影欧美电影有声小说| 国产精品自在欧美一区| 亚洲欧美精品一区二区| 成年美女黄网站色大片不卡| 国产一区二区三区视频免费| 美国十次综合久久| 奇门遁甲1982国语版免费观看高清| 国产欧美日韩在线观看视频| 亚洲aⅴ日韩av电影在线观看| 女同一区二区免费aⅴ| 亚洲国产成人久久| 肥女人的一级毛片| 精品电影在线观看| 国产福利视频在线观看| 91麻豆产精品久久久久久| 激情婷婷综合网| 欧美一区影院| 日韩在线第一区| 国产在线视视频有精品| 国产精品成人aaaaa网站| 99久久精品费精品国产风间由美| 欧美一区二区在线播放| 一二三四视频在线中文| 97国产精品视频人人做人人爱| 国产一区二区三区不卡视频网站| 国产亚洲一区二区三区在线播放| 国内成人免费视频| 伊人影院综合在线| 欧美日韩视频在线观看一区二区三区 | 欧美日韩五区| 国产精品福利网| 紧缚捆绑精品一区二区| 97涩在线观看视频| 日韩午夜在线观看| 国产精品国产| 日韩一区二区三区资源| 国产精品成人免费| 羞羞的视频在线看| 亚洲色图欧美在线| 国产成人生活片| 亚洲国产三级在线| 性国裸体高清亚洲| 国产原创欧美精品| 久久97久久97精品免视看秋霞| 国产精品激情av在线播放| 日韩高清不卡在线| 在线播放国产区| 国产亚洲精品超碰| 免费在线黄色电影| 久久久www成人免费精品| 亚洲性图久久| 黄大色黄女片18第一次| 亚洲黄色在线观看| 手机亚洲手机国产手机日韩| youjizz.com在线观看| 噜噜噜躁狠狠躁狠狠精品视频| 久久国产精品网| 欧美高清视频www夜色资源网| 黑色丝袜福利片av久久| 日本一区二区三区在线视频 | 欧美精品亚洲| 亚洲一线二线三线久久久| a∨色狠狠一区二区三区| 俄罗斯精品一区二区| 亚洲日本欧美天堂| 国产va免费精品观看精品| 色香蕉久久蜜桃| 亚洲欧洲成人| 欧美激情一级欧美精品| 国产精品一品二品| 顶级网黄在线播放| 成人免费自拍视频| 最新国产一区| 国产视频九色蝌蚪| 日韩成人中文字幕| 在线亚洲精品| www日韩视频| 亚洲精品福利资源站| 中文一区在线| 亚洲第一区视频| 色欧美片视频在线观看 | 国产精品亚洲综合| 午夜成人免费电影| 欧美色婷婷久久99精品红桃| 国产噜噜噜噜噜久久久久久久久| 99精品偷自拍| 国产精品久久久久av电视剧| 亚洲精品自在在线观看| 精品国产青草久久久久福利| 久久超碰97中文字幕| 男人的天堂免费在线视频| 欧美精品久久久久久久自慰| 久久人91精品久久久久久不卡| 亚洲国产视频直播| 久久婷婷丁香| 毛片一区二区三区四区| 久久久亚洲天堂| 亚洲18色成人| 亚洲在线电影| 九九热这里有精品| 国产91免费视频| 日韩午夜在线观看视频| 成人高清免费观看| 国内精品久久久久久99蜜桃| 婷婷免费在线视频| 91av视频在线免费观看| 婷婷亚洲久悠悠色悠在线播放| 99综合精品| 免费污视频在线一区| 激情av网站| 欧美成人一区二区在线| 久久精品久久久久电影| 亚洲人成网站在线在线观看| 亚洲人成精品久久久| 亚洲欧美日本国产| 国产精品久久..4399| 亚洲视屏在线播放| 精油按摩中文字幕久久| 亚洲精品aⅴ| 自拍视频在线播放| 男人天堂1024| 风间由美久久久| 久久久精品影院| 欧美性一二三区| 91看片淫黄大片一级在线观看| 亚洲精品一区二区在线看| 欧美理论影院| 91免费国产网站| 精品国产一区a| 国产精品三级av在线播放| 黑人巨大精品| 国产免费专区| 一区二区精品免费视频| 青青草成人在线| 亚洲欧美激情四射在线日| 偷窥少妇高潮呻吟av久久免费| 国产一区二区91| 伊人精品在线| 九九久久婷婷| 污污影院在线观看| 久久久噜噜噜| 午夜视频在线观看一区|