從激勵到心智：雙向強(qiáng)化學(xué)習(xí)提升大語言模型心理推理能力

作者：KGGPT 2025-12-01 01:23:00

本研究通過構(gòu)建專家標(biāo)注的StimuliQA數(shù)據(jù)集和創(chuàng)新的Psy-Interpreter雙向強(qiáng)化學(xué)習(xí)框架，成功提升了大語言模型在心理推理任務(wù)中的表現(xiàn)??。實驗結(jié)果表明，即使是緊湊型模型，在適當(dāng)?shù)睦碚撝笇?dǎo)和結(jié)構(gòu)化訓(xùn)練下，也能達(dá)到專家級的心理解釋能力，為心理AI的發(fā)展開辟了新的道路。

From Stimuli to Minds: Enhancing Psychological Reasoning in LLMs via Bilateral Reinforcement Learning

https://github.com/Githubuseryf/Stimuli2Minds.

圖片

文章摘要

本研究提出了一種基于雙向強(qiáng)化學(xué)習(xí)的框架Psy-Interpreter，通過專家標(biāo)注的心理數(shù)據(jù)集StimuliQA，顯著提升了大語言模型在心理推理任務(wù)中的表現(xiàn)，使小型模型能夠達(dá)到專家級的心理解釋能力。

圖片

研究背景與動機(jī)

大語言模型（LLMs）在情感理解、社會推理和共情識別等心理學(xué)領(lǐng)域展現(xiàn)出巨大潛力，但在需要推斷隱含心理狀態(tài)的復(fù)雜情境中仍表現(xiàn)不佳。這些局限性源于缺乏與理論一致的監(jiān)督信號，以及難以捕捉現(xiàn)實世界敘述中的細(xì)致心理過程。

當(dāng)前心理推理評估面臨三大挑戰(zhàn)：

高質(zhì)量數(shù)據(jù)稀缺：現(xiàn)有基準(zhǔn)如ToMbench規(guī)模較小，許多數(shù)據(jù)集依賴LLM生成內(nèi)容，限制了心理推理調(diào)優(yōu)的效果
跨任務(wù)推理不匹配：不同心理任務(wù)在認(rèn)知需求上存在差異，統(tǒng)一策略可能在直覺驅(qū)動任務(wù)上表現(xiàn)不佳
小型模型泛化能力差：緊湊型LLM容易過擬合，難以泛化，許多依賴昂貴的提示工程

核心創(chuàng)新與方法

1. StimuliQA數(shù)據(jù)集構(gòu)建

研究團(tuán)隊構(gòu)建了大規(guī)模的StimuliQA數(shù)據(jù)集，基于專業(yè)心理學(xué)理論和真實訪談內(nèi)容。該數(shù)據(jù)集包含超過3000個標(biāo)注刺激，涵蓋58個心理變量。

心理變量設(shè)計包括三個維度：

情感反應(yīng)（29個變量）：基于Lazarus評價理論的情感和社會情感反應(yīng)
敘述轉(zhuǎn)換（12個變量）：反映語調(diào)變化和救贖弧線，受McAdams等人研究啟發(fā)
集體心理學(xué)（17個變量）：基于Ryff & Keyes心理健康模型的自我價值和社區(qū)連接指標(biāo)

[Figure 2：心理參數(shù)總結(jié)圖，顯示35,084、24,831和36,890個QA實例的分布]

2. Psy-Interpreter框架

雙向強(qiáng)化學(xué)習(xí)是核心創(chuàng)新，采用軌跡感知的GRPO（Group Relative Policy Optimization）算法。

軌跡緩存機(jī)制：

T-GRPO目標(biāo)函數(shù) = 1/(Bc×G) ∑∑∑[min(rb,i,t(θ)?, clip(rb,i,t(θ), 1-ε, 1+ε)?)] - βDKL(πθ∥πref)

其中Bc = B × C表示批次緩存，用于跟蹤近期性能并通過趨勢調(diào)整獎勵

雙向獎勵機(jī)制包含四個組件：

答案質(zhì)量獎勵：基于預(yù)測答案與標(biāo)準(zhǔn)答案的F1分?jǐn)?shù)
格式合規(guī)獎勵：確保結(jié)構(gòu)一致性的二元獎勵
雙向推理獎勵：鼓勵信息豐富但簡潔的推理
重復(fù)懲罰：基于4-gram重復(fù)比率的懲罰機(jī)制

[Figure 3：框架概覽圖，展示StimuliQA、Psy-Interpreter和持續(xù)學(xué)習(xí)三個組件]

3. 持續(xù)學(xué)習(xí)能力

模型具備自我評估和持續(xù)改進(jìn)能力，學(xué)習(xí)準(zhǔn)則為：

self_train(x) ? valid(x) ∧ confidence(x) > τ

其中x是模型輸出，valid(x)驗證格式，confidence(x)是模型估計的置信度分?jǐn)?shù)

實驗設(shè)計與評估

實驗設(shè)置

研究使用六個數(shù)據(jù)集進(jìn)行評估：StimuliQA和五個分布外數(shù)據(jù)集（ToMbench、SimpleToM、SocialIQa、CosmosQA、BIG-Bench Hard選定子集）。

評估指標(biāo)：

對于StimuliQA使用F1分?jǐn)?shù)
對于分布外基準(zhǔn)使用基于F1的準(zhǔn)確率

核心實驗結(jié)果

RQ1：人工標(biāo)注數(shù)據(jù)的效果

在StimuliQA上訓(xùn)練的模型在所有模型規(guī)模和基準(zhǔn)測試中都持續(xù)優(yōu)于合成數(shù)據(jù)訓(xùn)練的模型。例如，在SimpleToM上，Qwen2.5-3B達(dá)到37.62 F1分?jǐn)?shù)和56.44%準(zhǔn)確率，遠(yuǎn)超Llama 3.3（18.48/26.16%）和Mistral 8×7B（35.02/33.33%）。

[Figure 4：GRPO訓(xùn)練在不同數(shù)據(jù)集上的比較圖]

RQ2：獎勵設(shè)計的影響

雙向獎勵（BR）顯著提升模型性能。BR將Qwen2.5-1.5B的整體F1從34.46提升到39.98，在需求滿足和國家主題方面分別獲得+5.66和+5.71的F1增益。

[Table 2：不同獎勵函數(shù)的性能比較]

RQ3：Psy-Interpreter的泛化能力

Psy-Interpreter在五個不同的分布外基準(zhǔn)測試中展現(xiàn)出強(qiáng)大的零樣本泛化能力。3B變體在ToMbench上達(dá)到28.17 F1，SimpleToM上56.83，SocialIQa上65.54。

RQ4：持續(xù)學(xué)習(xí)的有效性

持續(xù)學(xué)習(xí)框架（Psy-Interpreter-SFT）在所有五個分布外心理基準(zhǔn)測試中都實現(xiàn)了顯著且一致的改進(jìn)。對于0.5B模型，ToMbench準(zhǔn)確率從40.66%提升到58.82%，SocialIQa從51.30%提升到74.04%。

[Table 3：Psy-Interpreter與其他模型在所有分布外數(shù)據(jù)集上的性能對比]

RQ5：推理長度分布分析

雙向獎勵產(chǎn)生更結(jié)構(gòu)化和可解釋的分布：簡單問題的回答保持簡潔，而復(fù)雜問題展現(xiàn)出更長且更有區(qū)別的推理鏈。相比之下，基礎(chǔ)獎勵產(chǎn)生更嘈雜的分布，簡單和復(fù)雜QA對之間的區(qū)分度較低。

[Figure 6：雙向獎勵和基礎(chǔ)獎勵下的推理長度分布對比]

技術(shù)細(xì)節(jié)與創(chuàng)新點

數(shù)據(jù)集優(yōu)勢

StimuliQA在八個維度上都表現(xiàn)出色：

專家標(biāo)注：心理學(xué)專家提供高保真監(jiān)督
心理推理：要求模型推斷潛在心理狀態(tài)
刺激真實性：來源于真實或合理的人類經(jīng)驗
現(xiàn)實世界普遍性：代表日常心理體驗
難度多樣化：從明確情感識別到復(fù)雜心智理論推理
大規(guī)模：提供跨多樣心理狀態(tài)的統(tǒng)計覆蓋
任務(wù)多樣化：支持多種任務(wù)形式
泛化能力：最大化跨任務(wù)和跨域泛化

訓(xùn)練策略創(chuàng)新

軌跡感知訓(xùn)練：通過軌跡緩存跟蹤近期表現(xiàn)，根據(jù)趨勢調(diào)整獎勵，穩(wěn)定估計。

雙向推理機(jī)制：聯(lián)合考慮相對推理長度和答案質(zhì)量，鼓勵對簡單情況采用簡潔回應(yīng)，對復(fù)雜情況進(jìn)行擴(kuò)展推理。

實際應(yīng)用價值

性能突破

盡管規(guī)模較小，訓(xùn)練后的模型經(jīng)常能夠匹敵或超越大型商業(yè)LLM。Psy-Interpreter-SFT（3B）在SocialIQa上達(dá)到82.82 F1，超過GPT-4 nano（57.03）和Claude 3 Haiku（15.94）。

社會意義

StimuliQA被設(shè)計為社會的縮影，收集跨多個年齡段的刺激以反映心理推理的生命階段差異，每個倫理主題都確保跨性別覆蓋以避免人口統(tǒng)計偏見。

未來展望與局限性

技術(shù)優(yōu)勢

理論基礎(chǔ)扎實：基于成熟的心理學(xué)理論構(gòu)建
數(shù)據(jù)質(zhì)量高：專業(yè)心理學(xué)學(xué)生標(biāo)注，確保領(lǐng)域?qū)I(yè)性
方法創(chuàng)新性：雙向強(qiáng)化學(xué)習(xí)框架在心理推理領(lǐng)域的首次應(yīng)用
可擴(kuò)展性強(qiáng)：在不同模型規(guī)模上都表現(xiàn)良好

應(yīng)用前景

心理健康篩查：支持心理健康分診和初步評估
社會行為分析：幫助理解和分析人類社會行為模式
人機(jī)交互優(yōu)化：提升AI助手的情感理解和共情能力
教育心理支持：為教育領(lǐng)域提供心理狀態(tài)評估工具

結(jié)論

本研究通過構(gòu)建專家標(biāo)注的StimuliQA數(shù)據(jù)集和創(chuàng)新的Psy-Interpreter雙向強(qiáng)化學(xué)習(xí)框架，成功提升了大語言模型在心理推理任務(wù)中的表現(xiàn)。實驗結(jié)果表明，即使是緊湊型模型，在適當(dāng)?shù)睦碚撝笇?dǎo)和結(jié)構(gòu)化訓(xùn)練下，也能達(dá)到專家級的心理解釋能力，為心理AI的發(fā)展開辟了新的道路。

這項工作不僅在技術(shù)上實現(xiàn)了突破，更重要的是為AI系統(tǒng)理解人類心理狀態(tài)、促進(jìn)更自然的人機(jī)交互奠定了堅實基礎(chǔ)。隨著該框架的進(jìn)一步完善和應(yīng)用，我們有理由相信AI將在心理健康、教育、社會服務(wù)等領(lǐng)域發(fā)揮更大作用。

責(zé)任編輯：武曉燕來源：知識圖譜科技

大語言模型框架緊湊型模型

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看