国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

從激勵到心智:雙向強(qiáng)化學(xué)習(xí)提升大語言模型心理推理能力

人工智能
本研究通過構(gòu)建專家標(biāo)注的StimuliQA數(shù)據(jù)集和創(chuàng)新的Psy-Interpreter雙向強(qiáng)化學(xué)習(xí)框架,成功提升了大語言模型在心理推理任務(wù)中的表現(xiàn)??。實驗結(jié)果表明,即使是緊湊型模型,在適當(dāng)?shù)睦碚撝笇?dǎo)和結(jié)構(gòu)化訓(xùn)練下,也能達(dá)到專家級的心理解釋能力,為心理AI的發(fā)展開辟了新的道路。

From Stimuli to Minds: Enhancing Psychological Reasoning in LLMs via Bilateral Reinforcement Learning

https://github.com/Githubuseryf/Stimuli2Minds.

圖片圖片

文章摘要

本研究提出了一種基于雙向強(qiáng)化學(xué)習(xí)的框架Psy-Interpreter,通過專家標(biāo)注的心理數(shù)據(jù)集StimuliQA,顯著提升了大語言模型在心理推理任務(wù)中的表現(xiàn),使小型模型能夠達(dá)到專家級的心理解釋能力。

圖片圖片

研究背景與動機(jī)

大語言模型(LLMs)在情感理解、社會推理和共情識別等心理學(xué)領(lǐng)域展現(xiàn)出巨大潛力,但在需要推斷隱含心理狀態(tài)的復(fù)雜情境中仍表現(xiàn)不佳。這些局限性源于缺乏與理論一致的監(jiān)督信號,以及難以捕捉現(xiàn)實世界敘述中的細(xì)致心理過程。

當(dāng)前心理推理評估面臨三大挑戰(zhàn):

  1. 高質(zhì)量數(shù)據(jù)稀缺:現(xiàn)有基準(zhǔn)如ToMbench規(guī)模較小,許多數(shù)據(jù)集依賴LLM生成內(nèi)容,限制了心理推理調(diào)優(yōu)的效果
  2. 跨任務(wù)推理不匹配:不同心理任務(wù)在認(rèn)知需求上存在差異,統(tǒng)一策略可能在直覺驅(qū)動任務(wù)上表現(xiàn)不佳
  3. 小型模型泛化能力差:緊湊型LLM容易過擬合,難以泛化,許多依賴昂貴的提示工程

核心創(chuàng)新與方法

1. StimuliQA數(shù)據(jù)集構(gòu)建

研究團(tuán)隊構(gòu)建了大規(guī)模的StimuliQA數(shù)據(jù)集,基于專業(yè)心理學(xué)理論和真實訪談內(nèi)容。該數(shù)據(jù)集包含超過3000個標(biāo)注刺激,涵蓋58個心理變量。

心理變量設(shè)計包括三個維度:

  • 情感反應(yīng)(29個變量):基于Lazarus評價理論的情感和社會情感反應(yīng)
  • 敘述轉(zhuǎn)換(12個變量):反映語調(diào)變化和救贖弧線,受McAdams等人研究啟發(fā)
  • 集體心理學(xué)(17個變量):基于Ryff & Keyes心理健康模型的自我價值和社區(qū)連接指標(biāo)

[Figure 2:心理參數(shù)總結(jié)圖,顯示35,084、24,831和36,890個QA實例的分布]

2. Psy-Interpreter框架

雙向強(qiáng)化學(xué)習(xí)是核心創(chuàng)新,采用軌跡感知的GRPO(Group Relative Policy Optimization)算法。

軌跡緩存機(jī)制:

T-GRPO目標(biāo)函數(shù) = 1/(Bc×G) ∑∑∑[min(rb,i,t(θ)?, clip(rb,i,t(θ), 1-ε, 1+ε)?)] - βDKL(πθ∥πref)

其中Bc = B × C表示批次緩存,用于跟蹤近期性能并通過趨勢調(diào)整獎勵

雙向獎勵機(jī)制包含四個組件:

  • 答案質(zhì)量獎勵:基于預(yù)測答案與標(biāo)準(zhǔn)答案的F1分?jǐn)?shù)
  • 格式合規(guī)獎勵:確保結(jié)構(gòu)一致性的二元獎勵
  • 雙向推理獎勵:鼓勵信息豐富但簡潔的推理
  • 重復(fù)懲罰:基于4-gram重復(fù)比率的懲罰機(jī)制

[Figure 3:框架概覽圖,展示StimuliQA、Psy-Interpreter和持續(xù)學(xué)習(xí)三個組件]

3. 持續(xù)學(xué)習(xí)能力

模型具備自我評估和持續(xù)改進(jìn)能力,學(xué)習(xí)準(zhǔn)則為:

self_train(x) ? valid(x) ∧ confidence(x) > τ

其中x是模型輸出,valid(x)驗證格式,confidence(x)是模型估計的置信度分?jǐn)?shù)

實驗設(shè)計與評估

實驗設(shè)置

研究使用六個數(shù)據(jù)集進(jìn)行評估:StimuliQA和五個分布外數(shù)據(jù)集(ToMbench、SimpleToM、SocialIQa、CosmosQA、BIG-Bench Hard選定子集)。

評估指標(biāo):

  • 對于StimuliQA使用F1分?jǐn)?shù)
  • 對于分布外基準(zhǔn)使用基于F1的準(zhǔn)確率

核心實驗結(jié)果

RQ1:人工標(biāo)注數(shù)據(jù)的效果

在StimuliQA上訓(xùn)練的模型在所有模型規(guī)模和基準(zhǔn)測試中都持續(xù)優(yōu)于合成數(shù)據(jù)訓(xùn)練的模型。例如,在SimpleToM上,Qwen2.5-3B達(dá)到37.62 F1分?jǐn)?shù)和56.44%準(zhǔn)確率,遠(yuǎn)超Llama 3.3(18.48/26.16%)和Mistral 8×7B(35.02/33.33%)。

[Figure 4:GRPO訓(xùn)練在不同數(shù)據(jù)集上的比較圖]

RQ2:獎勵設(shè)計的影響

雙向獎勵(BR)顯著提升模型性能。BR將Qwen2.5-1.5B的整體F1從34.46提升到39.98,在需求滿足和國家主題方面分別獲得+5.66和+5.71的F1增益。

[Table 2:不同獎勵函數(shù)的性能比較]

RQ3:Psy-Interpreter的泛化能力

Psy-Interpreter在五個不同的分布外基準(zhǔn)測試中展現(xiàn)出強(qiáng)大的零樣本泛化能力。3B變體在ToMbench上達(dá)到28.17 F1,SimpleToM上56.83,SocialIQa上65.54。

RQ4:持續(xù)學(xué)習(xí)的有效性

持續(xù)學(xué)習(xí)框架(Psy-Interpreter-SFT)在所有五個分布外心理基準(zhǔn)測試中都實現(xiàn)了顯著且一致的改進(jìn)。對于0.5B模型,ToMbench準(zhǔn)確率從40.66%提升到58.82%,SocialIQa從51.30%提升到74.04%。

圖片

[Table 3:Psy-Interpreter與其他模型在所有分布外數(shù)據(jù)集上的性能對比]

RQ5:推理長度分布分析

雙向獎勵產(chǎn)生更結(jié)構(gòu)化和可解釋的分布:簡單問題的回答保持簡潔,而復(fù)雜問題展現(xiàn)出更長且更有區(qū)別的推理鏈。相比之下,基礎(chǔ)獎勵產(chǎn)生更嘈雜的分布,簡單和復(fù)雜QA對之間的區(qū)分度較低。

圖片

[Figure 6:雙向獎勵和基礎(chǔ)獎勵下的推理長度分布對比]

技術(shù)細(xì)節(jié)與創(chuàng)新點

數(shù)據(jù)集優(yōu)勢

StimuliQA在八個維度上都表現(xiàn)出色:

  1. 專家標(biāo)注:心理學(xué)專家提供高保真監(jiān)督
  2. 心理推理:要求模型推斷潛在心理狀態(tài)
  3. 刺激真實性:來源于真實或合理的人類經(jīng)驗
  4. 現(xiàn)實世界普遍性:代表日常心理體驗
  5. 難度多樣化:從明確情感識別到復(fù)雜心智理論推理
  6. 大規(guī)模:提供跨多樣心理狀態(tài)的統(tǒng)計覆蓋
  7. 任務(wù)多樣化:支持多種任務(wù)形式
  8. 泛化能力:最大化跨任務(wù)和跨域泛化

訓(xùn)練策略創(chuàng)新

軌跡感知訓(xùn)練:通過軌跡緩存跟蹤近期表現(xiàn),根據(jù)趨勢調(diào)整獎勵,穩(wěn)定估計。

雙向推理機(jī)制:聯(lián)合考慮相對推理長度和答案質(zhì)量,鼓勵對簡單情況采用簡潔回應(yīng),對復(fù)雜情況進(jìn)行擴(kuò)展推理。

實際應(yīng)用價值

性能突破

盡管規(guī)模較小,訓(xùn)練后的模型經(jīng)常能夠匹敵或超越大型商業(yè)LLM。Psy-Interpreter-SFT(3B)在SocialIQa上達(dá)到82.82 F1,超過GPT-4 nano(57.03)和Claude 3 Haiku(15.94)。

社會意義

StimuliQA被設(shè)計為社會的縮影,收集跨多個年齡段的刺激以反映心理推理的生命階段差異,每個倫理主題都確保跨性別覆蓋以避免人口統(tǒng)計偏見。

未來展望與局限性

技術(shù)優(yōu)勢

  1. 理論基礎(chǔ)扎實:基于成熟的心理學(xué)理論構(gòu)建
  2. 數(shù)據(jù)質(zhì)量高:專業(yè)心理學(xué)學(xué)生標(biāo)注,確保領(lǐng)域?qū)I(yè)性
  3. 方法創(chuàng)新性:雙向強(qiáng)化學(xué)習(xí)框架在心理推理領(lǐng)域的首次應(yīng)用
  4. 可擴(kuò)展性強(qiáng):在不同模型規(guī)模上都表現(xiàn)良好

應(yīng)用前景

  • 心理健康篩查:支持心理健康分診和初步評估
  • 社會行為分析:幫助理解和分析人類社會行為模式
  • 人機(jī)交互優(yōu)化:提升AI助手的情感理解和共情能力
  • 教育心理支持:為教育領(lǐng)域提供心理狀態(tài)評估工具

結(jié)論

本研究通過構(gòu)建專家標(biāo)注的StimuliQA數(shù)據(jù)集和創(chuàng)新的Psy-Interpreter雙向強(qiáng)化學(xué)習(xí)框架,成功提升了大語言模型在心理推理任務(wù)中的表現(xiàn)。實驗結(jié)果表明,即使是緊湊型模型,在適當(dāng)?shù)睦碚撝笇?dǎo)和結(jié)構(gòu)化訓(xùn)練下,也能達(dá)到專家級的心理解釋能力,為心理AI的發(fā)展開辟了新的道路。

這項工作不僅在技術(shù)上實現(xiàn)了突破,更重要的是為AI系統(tǒng)理解人類心理狀態(tài)、促進(jìn)更自然的人機(jī)交互奠定了堅實基礎(chǔ)。隨著該框架的進(jìn)一步完善和應(yīng)用,我們有理由相信AI將在心理健康、教育、社會服務(wù)等領(lǐng)域發(fā)揮更大作用。

責(zé)任編輯:武曉燕 來源: 知識圖譜科技
相關(guān)推薦

2025-06-09 09:32:35

2025-05-30 04:00:00

IBMRLVRGRPO

2023-11-15 14:17:23

微軟語言模型AI 模型

2025-08-07 09:16:41

2022-12-01 08:00:00

2025-06-23 09:07:00

2023-08-28 06:52:29

2025-02-17 10:40:20

2025-06-26 09:06:59

2025-11-10 08:46:00

AI模型訓(xùn)練

2025-07-01 09:05:28

2025-04-27 09:23:00

模型訓(xùn)練AI

2025-08-08 09:02:00

AI架構(gòu)模型

2024-09-13 06:32:25

2025-05-08 02:02:02

2023-04-06 16:29:18

模型AI

2025-02-20 09:21:51

2025-02-18 15:02:13

點贊
收藏

51CTO技術(shù)棧公眾號

久久久蜜桃一区二区人| 色久优优欧美色久优优| 日韩av观看网址| 亚洲人成亚洲精品| 亚洲综合丝袜美腿| 蜜臀久久99精品久久久画质超高清| 精品国产自在精品国产浪潮| 噜噜噜噜噜在线视频| 99久久免费视频.com| 国产在线播放一区二区| 欧美伦理影院| 午夜精品蜜臀一区二区三区免费| 色戒汤唯在线观看| 日韩亚洲电影在线| 日韩一区av| 亚洲精品视频在线观看免费| 国产精品国产亚洲精品看不卡| 久久这里只有| 国产超碰91| 97精品一区二区| 国产成人综合精品| 婷婷精品视频| 欧美成人黑人xx视频免费观看| 51精品在线| 欧美一区午夜视频在线观看| 蜜桃视频在线免费| 亚洲成人av一区二区三区| 视频二区在线播放| 久久综合丝袜日本网| 国产视频九色蝌蚪| 99国内精品久久| 欧美亚洲国产成人| 26uuu色噜噜精品一区二区| 麻豆tv在线播放| 国产不卡高清在线观看视频| 国产精品12p| 国产乱码精品一区二区三区av | 国产精品亚洲成人| 中文精品一区二区三区| 日韩一区欧美二区| 色一情一区二区三区四区| 久久福利毛片| 亚洲激情电影在线| 国产成人精品免费网站| 日本韩国欧美在线观看| 91天堂素人约啪| 先锋成人影音| 无吗不卡中文字幕| jizz在线免费观看| 精品久久国产字幕高潮| 国产精品扒开腿做爽爽爽视频软件| 日韩电影中文字幕在线观看| 丝袜老师在线| 久久中国妇女中文字幕| swag国产精品一区二区| 午夜免费日韩视频| 国产精品久久久久久久久久10秀| 91传媒视频在线观看| 久久精品女人天堂| 一区二区三区日韩视频| 97精品电影院| 最近最好的中文字幕2019免费| 色综合 综合色| 蜜桃视频在线观看播放| 久久成人在线视频| 欧美精品系列| 欧美人与性禽动交精品| 国产剧情av麻豆香蕉精品| 无码少妇一区二区三区芒果| 亚洲激情第一区| 欧美激情视频在线播放| 日韩电影大片中文字幕| 欧美电影在线观看一区| 国产一区红桃视频| 九色porny丨国产精品| 日韩亚洲在线视频| 欧美丝袜第一区| 高端美女服务在线视频播放| 久久久这里只有精品视频| 一区二区三区四区在线观看国产日韩| 精品在线视频一区二区三区| 国产精品一区一区| 日本五十路在线| 日韩精品中文字幕一区二区三区 | 成人午夜av电影| 黄色三及免费看| 日韩欧美国产一区二区三区| 秋霞午夜一区二区三区视频| 国产人妖伪娘一区91| 久久99热国产| 国外亚洲成av人片在线观看| 日韩一区二区三区观看| 国产精品xxx在线观看| 久久精品aaaaaa毛片| av不卡在线播放| eeuss影院在线播放| 久久精品视频亚洲| 欧美成人首页| 嫩草av久久伊人妇女超级a| 欧美老女人在线| 国产精品美女在线观看直播| 欧洲av一区| 亚洲二区在线视频| 日日夜夜一区| 久久久久资源| 国产精品污网站| 国产乱码午夜在线视频| 国产伊人精品在线| 久久久精品中文字幕麻豆发布| caoporn97在线视频| 国产精品毛片a∨一区二区三区|国| 激情图区综合网| 自拍视频在线免费观看| 日本久久久久亚洲中字幕| 国产裸体歌舞团一区二区| 人操人视频在线观看| 欧美激情一区二区三区高清视频 | 日韩美女写真福利在线观看| 欧美videossexotv100| 黑鬼大战白妞高潮喷白浆| 欧美日韩国产美| 中文字幕伦av一区二区邻居| 男女日批视频在线观看| 日韩一级免费观看| 香蕉久久网站| 国产一级粉嫩xxxx| 久久天天躁日日躁| 亚洲欧美bt| 欧洲一级在线观看| 国产大片精品免费永久看nba| 国产成人精品影院| 高端美女服务在线视频播放| 欧美大陆一区二区| 欧美日韩亚洲综合一区二区三区| 日韩欧美精品综合| 婷婷六月激情| 97成人超碰免| 国产欧美一区二区精品婷婷| 欧美大片1688网站| 日本一级黄视频| 亚洲欧美日韩中文视频| 精品在线播放午夜| 日本不卡网站| 9色视频在线观看| 亚洲欧美在线看| 国产一区二区三区免费观看| a级片免费在线观看| 一区二区免费电影| 日韩精品一区二区三区四区 | 欧美精品18| 日中文字幕在线| 成人h片在线播放免费网站| 亚洲三级在线播放| 欧美日韩黑人| 中文字幕在线中文字幕二区| 成人综合国产精品| 欧洲精品中文字幕| 99热精品在线| 欧美卡一卡二| 国产专区在线视频| 日韩网站免费观看| 91美女视频网站| 国产999精品在线观看| 青青草av网站| 欧美性在线视频| 性做久久久久久久免费看| 日韩专区精品| 色综合久久影院| 国产奶头好大揉着好爽视频| 色偷偷噜噜噜亚洲男人的天堂| 99国产精品久久久久久久久久| 精品国产乱码久久久久久樱花| 亚洲欧美激情网| 国产精品自产拍高潮在线观看| 色偷偷久久一区二区三区| 老色鬼久久亚洲一区二区| 国模视频一区| 91人成在线| 国产欧美日韩一区| 日韩国产精品视频| 久久人人97超碰com| 成人综合专区| 欧美xxxx免费虐| 99热在线这里只有精品| 茄子视频成人在线| 欧美色大人视频| 国产盗摄精品一区二区三区在线 | 欧美丝袜一区二区三区| 香蕉影视欧美成人| 四虎国产精品成人免费影视| 男人透女人免费视频| 国产精品综合网站| 欧美变态口味重另类| 久久久不卡网国产精品一区| 999久久久精品国产| 超碰激情在线| 1024亚洲| 日韩在线电影一区| 69**夜色精品国产69乱| 日韩欧美国产综合一区 |