大語言模型（LLM）是如何思考的？講講推動下一代人工智能推理的五種途徑原創

發布于 2025-4-8 08:14

瀏覽

0收藏

大語言模型（LLMs）最早時期只是具備自動完成的功能，迄今為止，進步巨大，與當初已經不可同日而語。然而，僅僅是生成流暢的文本并不足以體現真正的智能——真正的智能是需要推理能力的。這意味著，大語言模型需要能夠解決數學問題、能夠調試代碼、能夠得出合乎邏輯的結論，還要能夠檢查和改正自身的錯誤。通常而言，現代大語言模型的訓練目標往往是預測下一個詞語是什么，而不是去思考。那么，它們是如何突然變得非常擅長推理的呢？

答案是一系列新技術使然——從提示工程到代理工具使用——這些技術推動著、指導著或在一定程度上直接促成著大語言模型日益成為有條不紊的思考者。下面，讓我們講講五種最具有影響力的策略，正是它們，推動著推理型大語言模型不斷邁向新的領域。

1.思維鏈提示：教大語言模型“逐步思考”

提高大型語言模型推理能力，起步最早且最能打的技術之一異乎尋常地簡單：讓模型解釋自身。

這種方法被稱為思維鏈（Chain-of-Thought，CoT）提示。意指提示模型在給出最終答案之前產生中間推理步驟。例如，不采用直接去問“17乘以24等于多少？”這種簡單直接的方式，而是用“讓我們一步一步地思考”來提示模型，引導它將問題分解為：17×24=(20×17)+(4×17)，諸如此類，等等。

這一理念最早于2022年正式提出，至今仍然是基礎性的指導思想。OpenAI的o1模型就被訓練為“在回答之前更多地思考”——其本質就是內化了類似CoT的推理鏈。它的繼任者o3則更進一步，以模擬推理的方式，在推理過程中暫停，用以反思和完善自身響應。

原理呢，則很簡單：通過強制實施中間步驟，避免模型草率地、跳躍式地一步得出結論，從而提升多步推理演繹能力。

2.推理時間計算擴展：給每個問題更多的思考時間

如果一個問題難度很大，那就用更多的時間去思考——人類是會這么做的，現在大語言模型也可以。

推理時間計算擴展，是指通過在生成過程中分配更多的計算這一途徑，來增強推理能力。模型可能會生成多個推理路徑，但最后會選出最佳路徑。這種“自洽性”方法已成為推理基準的標準。

OpenAI的o3-mini定義了三種推理程度選項（低、中、高），這些選項決定了模型在回答問題之前內部推理的時間長短。在高推理水平下，o3-mini在數學和編碼任務上??的表現甚至優于??完整的o1模型。?

2025年的論文《s1：簡單測試時間擴展》中引入了一種相關技術，預算強制（budget forcing），它使用特殊標記來控制推理深度。通過附加重復的“等待”標記，引導模型生成更長的響應、自我驗證并自我糾正。使用類似“最終答案”這樣的結束思考信號標記何時停止。這種方法在不修改模型權重的情況下擴展推理，從而提高了準確性——這是對經典“逐步思考”提示的現代化升級和改造。

代價也是有的，那就是準確性的延遲。但是如果是面對棘手或艱巨的任務，這通常是值得的，并且是利大于弊的。