国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大語言模型(LLM)是如何思考的?講講推動下一代人工智能推理的五種途徑 原創

發布于 2025-4-8 08:14
瀏覽
0收藏

大語言模型(LLMs)最早時期只是具備自動完成的功能,迄今為止,進步巨大,與當初已經不可同日而語。然而,僅僅是生成流暢的文本并不足以體現真正的智能——真正的智能是需要推理能力的。這意味著,大語言模型需要能夠解決數學問題、能夠調試代碼、能夠得出合乎邏輯的結論,還要能夠檢查和改正自身的錯誤。通常而言,現代大語言模型的訓練目標往往是預測下一個詞語是什么,而不是去思考。那么,它們是如何突然變得非常擅長推理的呢?

答案是一系列新技術使然——從提示工程到代理工具使用——這些技術推動著、指導著或在一定程度上直接促成著大語言模型日益成為有條不紊的思考者。下面,讓我們講講五種最具有影響力的策略,正是它們,推動著推理型大語言模型不斷邁向新的領域。

1.思維鏈提示:教大語言模型“逐步思考”

提高大型語言模型推理能力,起步最早且最能打的技術之一異乎尋常地簡單:讓模型解釋自身。

這種方法被稱為思維鏈(Chain-of-Thought,CoT)提示。意指提示模型在給出最終答案之前產生中間推理步驟。例如,不采用直接去問“17乘以24等于多少?”這種簡單直接的方式,而是用“讓我們一步一步地思考”來提示模型,引導它將問題分解為:17×24=(20×17)+(4×17),諸如此類,等等。

這一理念最早于2022年正式提出,至今仍然是基礎性的指導思想。OpenAI的o1模型就被訓練為“在回答之前更多地思考”——其本質就是內化了類似CoT的推理鏈。它的繼任者o3則更進一步,以模擬推理的方式,在推理過程中暫停,用以反思和完善自身響應。

原理呢,則很簡單:通過強制實施中間步驟,避免模型草率地、跳躍式地一步得出結論,從而提升多步推理演繹能力。

2.推理時間計算擴展:給每個問題更多的思考時間

如果一個問題難度很大,那就用更多的時間去思考——人類是會這么做的,現在大語言模型也可以。

推理時間計算擴展,是指通過在生成過程中分配更多的計算這一途徑,來增強推理能力。模型可能會生成多個推理路徑,但最后會選出最佳路徑。這種“自洽性”方法已成為推理基準的標準。

OpenAI的o3-mini定義了三種推理程度選項(低、中、高),這些選項決定了模型在回答問題之前內部推理的時間長短。在高推理水平下,o3-mini在數學和編碼任務上??的表現甚至優于??完整的o1模型。?

2025年的論文《s1:簡單測試時間擴展》中引入了一種相關技術,預算強制(budget forcing),它使用特殊標記來控制推理深度。通過附加重復的“等待”標記,引導模型生成更長的響應、自我驗證并自我糾正。使用類似“最終答案”這樣的結束思考信號標記何時停止。這種方法在不修改模型權重的情況下擴展推理,從而提高了準確性——這是對經典“逐步思考”提示的現代化升級和改造。

代價也是有的,那就是準確性的延遲。但是如果是面對棘手或艱巨的任務,這通常是值得的,并且是利大于弊的。

3.強化學習和多階段訓練:優秀推理予以獎勵

另一個改變游戲規則的因素:不要僅僅局限于預測單詞,而是要獎勵正確的推理。

OpenAI的o1和DeepSeek-R1這樣的模型是通過強化學習(RL)進行訓練的,以鼓勵優秀的推理模式。這些模型不僅僅是模仿數據,還能夠獎勵生成有邏輯多步答案的推理。DeepSeek-R1的第一個迭代版本R1-Zero僅僅是使用了RL——并沒有監督微調——就開發出了非常強大的推理能力。

然而,僅僅使用強化學習(RL)訓練有可能導致語言不穩定的問題出現。所以最終DeepSeek-R1采用了多階段訓練方法:先進行強化學習推理,然后使用監督微調來提高可讀性。同樣,阿里巴巴的QwQ-32B將強大的基礎模型和持續的強化學習擴展相結合,在數學和代碼方面體現了出色的性能。

結果如何?這些模型不僅能夠給出正確的答案,還能展示出正確答案是如何得到的——甚至學會了自我糾正。

4.自我糾正和回溯:推理,然后倒帶

當模型出錯時會發生什么情況?它自己能夠意識到并改正錯誤嗎?

一直以來,大語言模型都在努力進行自我糾正,但這方面一直有問題存在。2023 年,研究人員??發現??,僅僅是簡單地讓模型“再試一次”,對答案鮮有改善——有時甚至會使情況變得更糟。但2025年有了新的進展,回溯——一種經典AI策略,被引入到大語言模型中來。?

騰訊AI實驗室的王姓工程師等人發現,在o1型模型中存在“思考不足”的問題:模型會在不同的想法之間跳躍,而不是一直堅持一條推理路線。他們的策略是對推理切換進行懲罰,鼓勵對每個想法進行深入探索。

與此同時,楊姓工程師等人提出了自回溯——當模型陷入僵局時,讓其重新回放,然后探尋更好的替代方案。這一策略與只依賴最優推理解決方案的策略相比,準確率提高了超過四十個百分點。

這些創新有效地增加了推理時的搜索和規劃能力,呼應了深度優先搜索等傳統AI方法,并將它們疊加在大語言模型的靈活功能之上。

5.工具的使用以及外部知識的整合:超越模型的推理

有時候,推理意味著知道何時該去尋求幫助。

現代大語言模型越來越多地調用外部工具——計算器、代碼解釋器、各種API甚至網絡搜索——來處理復雜的查詢。

阿里巴巴的QwQ-32B直接集成了代理功能,使其能夠在推理過程中調用函數或訪問API。谷歌的Gemini 2.0(Flash Thinking)也支持類似的功能——例如,它可以在推理過程中啟用代碼執行,允許模型在其推理過程中運行和評估代碼。

這一點非常重要,原因在于某些任務——比如驗證實時數據、執行符號數學或執行代碼——超出了模型內部的能力。將這類子任務轉移出去,能夠讓大語言模型更專注于高階邏輯,從而顯著提高準確性和可靠性。

從本質上講,外部工具能夠讓大語言模型發揮超出其自身能耐的潛力——就像是一把數字瑞士軍刀,用精密儀器來擴展推理能力。

結論:推理是一個堆棧,而不是一個開關

大語言模型并不是一蹴而就就能“學會推理”——它們是通過一系列分層的技術來獲取這種能力的。這些技術包括訓練、提示、推理以及與外部世界的互動。思維鏈提示加強了結構,推理時間擴展增加了深度,強化學習(RL)改善了對齊性,回溯增強了自我意識,外部工具使用增加了覆蓋面。

至于像OpenAI的o1和o3、DeepSeek的R1、谷歌的Gemini 2.0 Flash Thinking以及阿里巴巴的QwQ這樣的頂級模型,則結合了這些策略中的幾種——可以稱之為將巧妙設計與認知支架融合在一起的混合方案。

隨著該領域的不斷發展,可以預見,內部推理過程與外部決策工具之間的耦合將會更加緊密。逐步走近我們的,不是僅僅能夠猜測下一個單詞,而是還能夠真正思考的大語言模型。

譯者介紹

張哲剛,51CTO社區編輯,系統運維工程師,國內較早一批硬件評測及互聯網從業者,曾入職阿里巴巴。

原文標題:??How Do LLMs Think? 5 Approaches Powering the Next Generation of AI Reasoning??,作者:Kate Koidan?


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-4-8 09:33:19修改
收藏
回復
舉報
回復
相關推薦
国产一区二区在线免费视频| 97超级碰碰| а√最新版天堂中文在线| 国产一区二区三区日韩精品| 欧美美女视频在线观看| 久操手机在线视频| 日韩午夜电影网| 日韩精品一区二区在线观看| 成年人免费在线播放| 国产精品sm| 久久综合亚洲社区| 精品美女在线观看视频在线观看 | 日韩在线免费| 欧美精品一二三区| 中文字幕一二三区在线观看| 国产精品视频一区二区三区不卡| 粉嫩av一区二区三区天美传媒 | 欧美中文字幕| 国产在线高清精品| 中文字幕av一区二区三区人| 久久久成人的性感天堂| 91老司机福利在线| 51久久夜色精品国产麻豆| 你懂的在线免费观看| 亚洲高清视频中文字幕| 成人网址大全| 欧美经典一区二区三区| 欧美成人黑人猛交| 91首页免费视频| 欧美高清中文字幕| 国产高清不卡一区| 91看片淫黄大片91| 国产精品一区久久久久| 伊人av成人| 精品在线观看视频| 一区在线电影| 国产精品资源站在线| 国产91在线亚洲| www.日韩大片| 亚洲熟妇av一区二区三区| 国产香蕉久久精品综合网| 欧美色图另类小说| 久久精品在这里| 亚州av影院| 亚洲综合一二区| 亚洲高清国产精品| 欧美三级在线看| 污影院在线观看| 亚洲色无码播放| 精品视频在线播放一区二区三区| 色中色综合影院手机版在线观看| 99久久人爽人人添人人澡| 97超碰国产精品女人人人爽| 久久99视频| 国产精品日韩一区二区免费视频| 香蕉久久a毛片| www.国产在线视频| 国产精品免费av| 色播视频在线观看| 欧美日韩国产美女| 超碰成人av| 欧美日韩电影在线观看| 成人在线免费观看91| 国产一区自拍视频| 国产成人免费网站| 成人黄网18免费观看的网站| 欧美午夜无遮挡| 女人让男人操自己视频在线观看| 亚洲性xxxx| 精品国产第一国产综合精品| 国产精品av免费在线观看| 欧美激情视频一区二区三区免费| 少妇免费毛片久久久久久久久| 成人精品一区二区三区四区 | 色8久久久久| 午夜精品国产精品大乳美女| 国产日韩欧美一区二区三区| 精品九九九九| av一区二区三区黑人| 在线小视频网址| 日韩av在线最新| 亚洲宅男一区| 亚洲不卡一卡2卡三卡4卡5卡精品| 久久精品无码一区二区三区| 亚洲人成电影| 亚洲欧洲激情在线| 欧美日韩伦理在线免费| 亚洲精品中文综合第一页| 国产精品久久久一本精品| 久久77777| 97精品一区二区视频在线观看| 怡红院精品视频在线观看极品| av日韩一区二区三区| 欧美午夜精品久久久久久久| yiren22亚洲综合| 国产精品果冻传媒潘| 国产婷婷色一区二区三区四区| 成人av毛片| 久久久久日韩精品久久久男男| 夜久久久久久| 色偷偷福利视频| 亚洲国产天堂网精品网站| 青青草原综合久久大伊人精品| 亚洲永久激情精品| 欧美视频在线观看免费网址| 成人短视频软件网站大全app| 成人亲热视频网站| 91美女片黄在线| www在线免费观看视频| 日韩免费精品视频| 国产成人午夜视频| 国产免费av在线| 日韩福利在线观看| 国产激情久久久久| 老司机精品视频一区二区三区| caoporen人人| 亚洲天天在线日亚洲洲精| 在线看片不卡| 国产精品久久91| 成人午夜视频网站| 日韩精品成人av| 欧亚精品在线观看| 国产91精品在线观看| 国产精品实拍| 国产精品永久免费| 久久一区二区三区四区| wwwww亚洲| 久久本道综合色狠狠五月| 一区二区三区精密机械公司| 欧洲一级精品| 五月天色一区| 欧美一区二区三区影视| 色综合天天爱| av一卡二卡| 91国内在线视频| 国产欧美日本一区视频| 亚洲a∨精品一区二区三区导航| 天堂精品视频| 3atv在线一区二区三区| 国产国产精品| 久热久精久品这里在线观看| 97超级碰在线看视频免费在线看| 久久免费国产精品 | 亚洲午夜在线视频| 成人免费直播在线| 岳毛多又紧做起爽| 色多多国产成人永久免费网站| 久久精品国产77777蜜臀| 日本h片在线| 欧美三级电影在线播放| 欧美日韩国产免费一区二区| 亚洲先锋影音| 久久久久久久久亚洲精品| 国产人妖伪娘一区91| 亚洲最大成人网4388xx| 欧美黑人巨大videos精品| 成人动漫h在线观看| 午夜精品视频网站| 综合久久给合久久狠狠狠97色| 神马久久影院| 久草在线免费福利| 999久久久| 欧美巨大另类极品videosbest | 成人在线免费观看网站| а√最新版地址在线天堂| 国产精品大陆在线观看| 亚洲国产日产av| 欧美三级第一页| 国产91在线视频蝌蚪| 午夜精品一区二区三区在线观看| 亚洲国产天堂久久国产91| 国产一二精品视频| 欧美三区四区| 狠狠热免费视频| 日韩av黄色在线观看| 欧美性猛交视频| 久久免费国产| 97成人超碰| 777视频在线观看| 亚洲精品日韩av| 日韩一区二区三区四区| 国产精品一区一区| 风间由美性色一区二区三区四区| h精品动漫在线观看| 加勒比在线一区二区三区观看| 精品三级在线看| xfplay精品久久| 俺要去色综合狠狠| 欧美日本一道| 僵尸世界大战2 在线播放| 69影院欧美专区视频| 色综合天天综合色综合av| 奇米影视7777精品一区二区| 亚洲精品自拍| 高清免费观看在线| 视频一区不卡| 欧美福利小视频| 欧美日韩国产片| 2024国产精品视频| 国产综合色产|