国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

使用“反事實任務”評估大型語言模型

發布于 2024-7-9 10:34
瀏覽
0收藏

?LLMs的智能本質是什么?

在之前的文章中,我談到了評估大型語言模型能力的困難。這些模型在許多基準測試中表現出色,但我們通常不知道基準測試中的測試項目,或足夠相似的項目,是否出現在訓練數據中。這些模型是在進行一般性的理解和推理,還是在進行AI研究員Subbarao Kambhampati所說的“近似檢索”——依賴于模型訓練數據中包含的文本模式?

反事實任務范式

反事實任務范式可以幫助回答這個問題。在這個范式中,模型在成對的任務上進行評估,這些任務需要相同類型的抽象和推理,但對于每一對任務,第一個任務的內容可能與訓練數據相似,而第二個任務(“反事實任務”)的內容被設計成不太可能與訓練數據相似。

例如,論文《Reasoning or Reciting: Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks》(《推理還是背誦:通過反事實任務探索語言模型的能力和局限性》)研究了GPT-4在判斷一組四步開局棋是否合規時的表現。GPT-4似乎對國際象棋有很好的理解;當給出以下提示時,它能夠以接近90%的準確率回答“是”或“否”:

你是一名國際象棋棋手。給定一個開局,確定這個開局是否合法。開局不需要是一個好的開局。如果所有棋步都合法,則回答“是”。如果開局違反任何國際象棋規則,則回答“否”。新的開局“1.e4 e6 2.Be2 Bc5”是否合法?讓我們一步一步來思考。

作者的這個任務的反事實版本是要求GPT-4想象一個新的國際象棋變體,其中一切都相同,除了騎士和主教交換了初始位置。以下是該任務的示例提示:

你是一名國際象棋棋手。你正在玩一個國際象棋變體,其中每種顏色的騎士和主教的起始位置互換。騎士放在主教以前的位置,主教放在騎士以前的位置。給定一個開局,確定這個開局是否合法。開局不需要是一個好的開局。如果所有棋步都合法,則回答“是”。如果開局違反任何國際象棋規則,則回答“否”。在這種自定義變體下,新的開局“1.e4 e6 2.Nfe2 Nc5”是否合法?讓我們一步一步來思考。

這種國際象棋版本的例子在GPT-4的訓練數據中出現的可能性要小得多。作者(以及我自己的)直覺是,理解國際象棋的人類可以很容易地將他們的知識適應這種新版本。然而,GPT-4在這個反事實任務上的準確率下降到大約54%(隨機猜測將產生50%的準確率)。

作者展示了幾種其他類型的任務,也有類似的效果。他們得出結論,大型語言模型表面上的推理能力可能在很大程度上依賴于訓練數據中的模式,即“近似檢索”而非一般的抽象推理能力。

Meta的Yann LeCun在X(推特)上表示贊同:

使用“反事實任務”評估大型語言模型-AI.x社區

ASU的Subbarao Kambhampati表示贊同:

使用“反事實任務”評估大型語言模型-AI.x社區

另一篇使用這種評估范式的論文是《Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve》(《自回歸余燼:通過訓練任務理解大型語言模型》)。“自回歸余燼”這個短語是對另一篇知名LLM論文《Sparks of AGI》(《AGI火花》)標題的幽默戲仿。其觀點是,由于像GPT-4這樣的LLM是通過自回歸訓練的(即預測輸入中的下一個標記),它們的行為將反映自回歸所帶來的偏見。

例如,考慮將句子中的單詞順序顛倒的簡單任務:

輸入:paintings. the with pleased totally not was he True,

正確輸出:True, he was not totally pleased with the paintings.

你可能會認為執行此任務的能力不依賴于句子中的特定單詞。然而,當輸出句子是可能的(即,根據前一個標記計算出的每個標記的概率高)時,GPT-3.5和GPT-4在這個任務上的表現都很好;但在輸出句子不太可能時,這些系統在該任務上的表現要差得多,例如,對于這個例子:

輸入:paintings. the with pleased he totally was not True,

正確輸出:True, not was totally he pleased with the paintings.

以下是總體表現情況,與LLM計算的輸出句子的概率對比繪制的圖表:

使用“反事實任務”評估大型語言模型-AI.x社區

盡管輸出句子的概率無關緊要,但LLM的訓練目標是預測可能的下一個標記,這泄露到了模型在任務上的表現中——這是一種自回歸的痕跡。論文中給出了更多的例子。

許多其他“壓力測試”LLM推理能力的論文也顯示了類似的結果。在本文結尾,我提供了各種關于這一主題的論文鏈接,供讀者跟進。

總之,LLM似乎具有一定的推理能力,但如果不對它們進行壓力測試(例如,通過反事實任務),就無法得出它們在一般情況下進行推理,而不是依賴于其訓練數據,以無法泛化到分布外示例的方式進行推理的結論。

在下一篇文章中(即將發布),我將描述我的團隊正在進行的工作,即應用反事實任務范式來壓力測試LLM是穩健和普遍類比推理者的說法。

附錄:使用反事實任務(或相關壓力測試)評估LLM的論文

Wu, Z., Qiu, L., Ross, A., Akyürek, E., Chen, B., Wang, B., Kim, N., Andreas, J., & Kim, Y. (2023). 《Reasoning or reciting? Exploring the capabilities and limitations of language models through counterfactual tasks》. arXiv preprint arXiv:2307.02477.

McCoy, R. T., Yao, S., Friedman, D., Hardy, M., & Griffiths, T. L. (2023). 《Embers of autoregression: Understanding large language models through the problem they are trained to solve》. arXiv preprint arXiv:2309.13638.

Miceli-Barone, A. V., Barez, F., Konstas, I., & Cohen, S. B. (2023). 《The larger they are, the harder they fail: Language models do not recognize identifier swaps in Python》. arXiv preprint arXiv:2305.15507.

Shapira, N., Levy, M., Alavi, S. H., Zhou, X., Choi, Y., Goldberg, Y., Sap, M. & Shwartz, V. (2023). 《Clever Hans or neural theory of mind? Stress testing social reasoning in large language models》. arXiv preprint arXiv:2305.14763.

Verma, M., Bhambri, S., & Kambhampati, S. (2024年3月). 《Theory of Mind abilities of Large Language Models in Human-Robot Interaction: An Illusion?》. In Companion of the 2024 ACM/IEEE International Conference on Human-Robot Interaction (pp. 36-45).

Srivastava, S., PV, A., Menon, S., Sukumar, A., Philipose, A., Prince, S., & Thomas, S. (2024). 《Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap》. arXiv preprint arXiv:2402.19450.

Lewis, M., & Mitchell, M. (2024). 《Using counterfactual tasks to evaluate the generality of analogical reasoning in large language models》. arXiv preprint arXiv:2402.08955.

本文轉載自 ??MoPaaS魔泊云??,作者: Melanie mitchell

收藏
回復
舉報
回復
相關推薦
成人av在线影院| 久久久国产视频91| 中文字幕一区二区三区精彩视频| 亚洲成人av片在线观看| 在线xxxx| 在线观看三级视频| 欧美日韩国产小视频| 国产网站在线播放| 精品视频资源站| 国产天堂在线| 欧美人牲a欧美精品| 香蕉视频国产在线观看| 欧美妇女性影城| 日本一本在线免费福利| 亚洲电影免费观看高清完整版在线观看| 国产精品你懂的在线| 久久久久久久香蕉| 国产91高潮流白浆在线麻豆 | 国产99久久久国产精品| 国产黄色激情视频| gogo大胆日本视频一区| 漂亮人妻被中出中文字幕| 久久久www免费人成精品| gay视频丨vk| 一区二区三区欧美日| 久久伊伊香蕉| 精品美女一区二区| av成人在线网站| 69久久夜色精品国产69| 色综合色综合| 久久资源亚洲| 成人黄色国产精品网站大全在线免费观看 | 99porn视频在线| 丝袜脚交一区二区| 国产一区二区av在线| 91深夜福利视频| 懂色av一区二区三区在线播放| 好看的亚洲午夜视频在线| 久久精品国产综合精品| 麻豆成人久久精品二区三区小说| 欧美一区二区激情| 国产精品区一区二区三区| 91嫩草在线播放| 欧美一卡2卡三卡4卡5免费| 欧美日韩精品一区二区三区视频| 911国产网站尤物在线观看| 亚洲免费二区| 日本黄色片一级片| 午夜不卡av在线| 成人一区福利| 国产精品综合久久久| 久久99精品国产麻豆婷婷洗澡| 欧美一级黄色片视频| 日韩欧美国产高清91| 亚洲黄色中文字幕| 国产精品永久免费视频| 久久se这里有精品| 最近2018年手机中文在线| 国产视频精品免费播放| 精品亚洲成人| 福利网在线观看| 亚洲一区在线视频| **欧美日韩在线观看| 国产精品一区专区欧美日韩| 激情成人综合网| 亚洲s色大片在线观看| 中文字幕一区电影| 亚洲精品1区| wwwwww99| 亚洲视频日韩精品| 日韩午夜在线| 裸体av在线| 久久精品成人欧美大片古装| 一本不卡影院| 91免费版在线观看| 久久激情视频久久| 国产精品一二| 亚洲超碰在线| 欧美日本黄视频| 男女性色大片免费观看一区二区 | 午夜精品免费视频| 久久国产精品第一页| 深夜福利视频在线观看| 欧美成人一二三| 精品中文av资源站在线观看| 九九在线视频| 国产成人中文字幕| 94色蜜桃网一区二区三区| 黄色大片在线播放| 91人成网站www| 亚洲色图在线看| 天天综合91| 在线一区高清| 欧美日本国产视频| 91精品国产91久久久久久黑人| 国产成人黄色网址| 久久久国产91| 成人18视频日本| www.综合| 亚洲一区二区三区精品视频| 欧美色网一区二区| 国产精品91一区二区三区| 视色视频在线观看| 欧美成人精品不卡视频在线观看| 国产米奇在线777精品观看| 波多野结衣在线播放| 久久精品ww人人做人人爽| 丁香五六月婷婷久久激情| 国产午夜一区| 日韩一级理论片| 欧美猛交免费看| 91啪九色porn原创视频在线观看| 中文字幕这里只有精品| 日日噜噜噜噜夜夜爽亚洲精品| 欧美男生操女生| 中文字幕乱码亚洲无线精品一区 | 97视频中文字幕| 亚洲va欧美va人人爽| 蜜臀91精品国产高清在线观看| 日本激情视频在线| 久久久91精品国产| 97国产精品videossex| 五月激情久久| 国产freexxxx性播放麻豆| 亚洲色图狂野欧美| 国产成人综合自拍| 中韩乱幕日产无线码一区| 91视频 - 88av| 在线影院国内精品| 久久99国产综合精品女同| 日韩xxxx视频| 国产激情综合| 日韩porn| av在线电影网| www.综合| 久久的色偷偷| 99久久99热这里只有精品| 亚洲人挤奶视频| 成人三级毛片| 牲欧美videos精品| 在线免费观看欧美| 美女mm1313爽爽久久久蜜臀| 精品一区二区三区在线视频| www.欧美色图| 亚洲精品欧美综合四区| 日本福利一区二区| 亚洲精品久久久久久久久| 97精品一区二区三区| 亚洲精品国产免费| 91精品国产综合久久精品性色| 精品五月天久久| 9.1国产丝袜在线观看| 国产乱子伦精品| 免费看污污视频| 天堂中文字幕——hd| 日本h片在线| 久久一区二区三区喷水| 懂色av中文字幕一区二区三区 | 亚洲国产日韩一区| 久久艳片www.17c.com| 5566中文字幕一区二区| 九色丨porny丨| 三级在线看中文字幕完整版| 中文字幕成人| 免费在线观看不卡| 久久这里只精品最新地址| 91麻豆精品国产91久久久资源速度 | 欧州一区二区三区| 亚洲三级性片| 日本视频免费一区| 欧美午夜精品久久久久久久| 91超碰这里只有精品国产| 欧美日韩国产精品成人| 国产精品视频一| 神马影院我不卡| 三区四区在线视频| 一本久久综合| 日韩欧美中文字幕公布| av观看久久| 午夜影院在线免费观看| 久久男人av| 亚洲视频网在线直播| 成人黄色免费观看| 手机看片1024久久| 久久裸体网站| 一本大道久久a久久精品综合| 国产免费一区二区三区在线观看 | 日韩中文字幕无砖| 亚洲专区在线| 欧美v日韩v国产v| 91国产视频在线| 日韩日韩日韩日韩| 国产免费区一区二区三视频免费| a美女胸又www黄视频久久| 精品国产91乱码一区二区三区| 国产综合第一页| gogo久久| 亚洲欧美日韩一区| 久久久久久国产精品mv| 韩国成人在线|