生成式AI賦能需求工程:一場(chǎng)正在發(fā)生的變革
作者團(tuán)隊(duì):早稻田大學(xué)博士生 / 蒙特利爾工程學(xué)院訪問(wèn)研究員程浩偉(通訊作者),特爾科姆大學(xué)助理教授 Jati H. Husen,早稻田大學(xué)博士生蘆一均,東北大學(xué)副教授 / JAIST 客座教授 Teeradaj Racharak,早稻田大學(xué)教授 / QAML 株式會(huì)社 CEO 吉岡信和,九州大學(xué)名譽(yù)教授鵜林尚靖,早稻田大學(xué)教授鷲崎弘宜。
在軟件開(kāi)發(fā)領(lǐng)域,需求工程(Requirements Engineering, RE)一直是項(xiàng)目成功的關(guān)鍵環(huán)節(jié)。然而,傳統(tǒng) RE 方法面臨著效率低下、需求變更頻繁等挑戰(zhàn)。根據(jù) Standish Group 的報(bào)告,僅有 31% 的軟件項(xiàng)目能在預(yù)算和時(shí)間內(nèi)完成,而需求相關(guān)問(wèn)題導(dǎo)致的項(xiàng)目失敗率高達(dá) 37%。
隨著 ChatGPT 等大語(yǔ)言模型的爆發(fā)式發(fā)展,生成式 AI(GenAI)為需求工程帶來(lái)了前所未有的機(jī)遇。來(lái)自早稻田大學(xué)、東北大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì),對(duì) 2019 年至 2025 年間發(fā)表的 238 篇相關(guān)論文進(jìn)行了系統(tǒng)性文獻(xiàn)綜述,為我們揭示了這一新興領(lǐng)域的全貌。

- 論文標(biāo)題:Generative AI for Requirements Engineering: A Systematic Literature Review
- 論文地址:https://onlinelibrary.wiley.com/doi/10.1002/spe.70029
這是目前為止對(duì)生成式 AI 在需求工程領(lǐng)域最系統(tǒng)、最全面的文獻(xiàn)綜述,揭示了從技術(shù)到落地的全貌與未來(lái)路線,是理解「GenAI 如何重塑軟件開(kāi)發(fā)起點(diǎn)」的必讀論文。
研究現(xiàn)狀:
快速增長(zhǎng)但分布不均
爆發(fā)式的研究熱度
數(shù)據(jù)顯示,GenAI 在需求工程領(lǐng)域的研究呈現(xiàn)指數(shù)級(jí)增長(zhǎng):
- 2022 年僅有 4 篇相關(guān)論文;
- 2023 年激增至 23 篇;
- 2024 年達(dá)到 113 篇;
- 2025 年前 5 個(gè)月已有 97 篇。

Distribution of papers across years (N=238).
這種增長(zhǎng)軌跡充分反映了 ChatGPT 發(fā)布后,學(xué)術(shù)界對(duì) GenAI 應(yīng)用于 RE 領(lǐng)域的濃厚興趣。
研究聚焦點(diǎn)的失衡
盡管研究熱度高漲,但不同 RE 階段受到的關(guān)注度嚴(yán)重失衡:
- 需求分析占據(jù) 30.0% 的研究比重,位居首位;
- 需求獲取和需求規(guī)約各占 22.1%;
- 需求驗(yàn)證占 19.0%;
- 需求管理僅占 6.8%,嚴(yán)重缺乏關(guān)注。
這種分布反映出當(dāng)前研究主要集中在 GenAI 擅長(zhǎng)的文本分析和生成任務(wù),而對(duì)需求管理等涉及復(fù)雜社會(huì)技術(shù)因素的階段探索不足。

Distribution of RE phases (N=238).
GenAI 在 RE 領(lǐng)域已進(jìn)入「快速擴(kuò)張但尚未成熟」的階段,研究數(shù)量暴漲但深度不足,仍停留在「概念驗(yàn)證」層面。
技術(shù)圖景:GPT 主導(dǎo)下的同質(zhì)化困境
模型選擇的單一化
研究發(fā)現(xiàn),67.3% 的研究采用 GPT 系列模型,其中:
- GPT-4 系列占 36.7%,主要應(yīng)用于復(fù)雜需求分析;
- GPT-3.5 系列占 25.3%,在常規(guī)分類任務(wù)中表現(xiàn)良好;
- 開(kāi)源替代方案(如 LLaMA、CodeLlama)僅占 11.6%。
這種過(guò)度依賴單一模型家族的現(xiàn)象,限制了多樣化技術(shù)路徑的探索。值得注意的是,CodeLlama 在代碼 - 需求追溯任務(wù)中表現(xiàn)出色,幻覺(jué)率比通用模型低 23%,但采用率仍然很低。

Distribution of GenAI models (N=238).
提示工程的實(shí)踐模式
在提示工程方面,研究呈現(xiàn)出以下特點(diǎn):
- 指令式提示占 62.2%,反映 RE 任務(wù)的高度結(jié)構(gòu)化特性;
- 少樣本學(xué)習(xí)占 43.6%,成為最受歡迎的學(xué)習(xí)范式;
- 零樣本學(xué)習(xí)占 37.7%,適用于相對(duì)簡(jiǎn)單的 RE 任務(wù);
- 思維鏈(CoT)方法僅占 14.0%,采用率相對(duì)較低。
令人欣慰的是,超過(guò) 80% 的研究公開(kāi)了提示詞細(xì)節(jié),這為研究的可復(fù)現(xiàn)性奠定了基礎(chǔ)。

Distribution of learning paradigm (N=238).

Distribution of prompt types (N=238).
質(zhì)量關(guān)注的偏頗
在軟件質(zhì)量特性方面,當(dāng)前研究呈現(xiàn)明顯的短期導(dǎo)向:
- 功能適用性獲得最多關(guān)注(124 次提及);
- 可靠性次之(80 次);
- 安全性僅被提及 39 次;
- 可解釋性和準(zhǔn)確性幾乎被忽視。
這種關(guān)注度分布表明,研究者更注重即時(shí)的功能表現(xiàn),而忽視了長(zhǎng)期的系統(tǒng)級(jí)質(zhì)量屬性。這種質(zhì)量關(guān)注的偏頗表明,當(dāng)前研究仍以「可用性優(yōu)先」驅(qū)動(dòng),而非「可靠性與可解釋性優(yōu)先」,這是 AI 走向工業(yè)級(jí)軟件系統(tǒng)的最大隱患。
三大核心挑戰(zhàn):緊密交織的困境
研究識(shí)別出 10 個(gè)主要挑戰(zhàn),其中三個(gè)核心挑戰(zhàn)形成了緊密關(guān)聯(lián)的「三角關(guān)系」:
- 可復(fù)現(xiàn)性(66.8%)可復(fù)現(xiàn)性是最嚴(yán)重的問(wèn)題。LLM 的隨機(jī)性、參數(shù)敏感性以及黑盒 API 的不透明性,使得研究結(jié)果難以驗(yàn)證和重現(xiàn)。這在需求生成和驗(yàn)證等關(guān)鍵場(chǎng)景中尤為嚴(yán)重。
- 幻覺(jué)問(wèn)題(63.4%)AI 生成的需求可能與輸入沖突或包含虛構(gòu)內(nèi)容。在 RE 領(lǐng)域,需求的精確性和可追溯性至關(guān)重要,幻覺(jué)問(wèn)題可能導(dǎo)致嚴(yán)重的系統(tǒng)設(shè)計(jì)偏差。
- 可解釋性(57.1%)LLM 的決策過(guò)程不透明,在醫(yī)療、法律等高風(fēng)險(xiǎn)領(lǐng)域尤為致命。研究發(fā)現(xiàn),這三個(gè)挑戰(zhàn)的共現(xiàn)率達(dá) 35%,表明它們必須被整體性地解決,而非孤立應(yīng)對(duì)。

Correlations among the LLM issues reported in literature on RE (%).
可復(fù)現(xiàn)性影響幻覺(jué)問(wèn)題的驗(yàn)證,幻覺(jué)問(wèn)題又加劇可解釋性缺失;三者相互強(qiáng)化,構(gòu)成當(dāng)前 GenAI 研究最難攻克的「信任瓶頸」。
評(píng)估實(shí)踐:基礎(chǔ)設(shè)施的薄弱環(huán)節(jié)
工具和數(shù)據(jù)集的可用性困境
盡管越來(lái)越多研究開(kāi)發(fā)了工具和數(shù)據(jù)集,但實(shí)際可用性令人擔(dān)憂:
- 僅 23.9% 的研究公開(kāi)發(fā)布了工具;
- 45.8% 的研究使用了不公開(kāi)的數(shù)據(jù)集;
- 缺乏統(tǒng)一的基準(zhǔn)測(cè)試框架。
評(píng)估指標(biāo)的表面化
評(píng)估方法主要依賴傳統(tǒng) NLP 指標(biāo):
- 精確率 / 召回率 / F1 分?jǐn)?shù)最常用(119 項(xiàng)研究);
- 準(zhǔn)確率次之(40 項(xiàng)研究);
- 人工評(píng)估較少(22 項(xiàng)研究);
- 錯(cuò)誤分析極為罕見(jiàn)(僅 11 項(xiàng)研究)。
這種表面化的評(píng)估無(wú)法捕捉 RE 任務(wù)的復(fù)雜性和領(lǐng)域特異性。

Distribution of tool and dataset availability (N=238)

Distribution of evaluation metrics and methodology (N=238)
當(dāng)前 RE 領(lǐng)域缺乏類似 MMLU、HumanEval 那樣的標(biāo)準(zhǔn)基準(zhǔn)測(cè)試,導(dǎo)致學(xué)術(shù)成果難以橫向比較,這也是產(chǎn)業(yè)界遲遲未能采用的重要原因。
工業(yè)落地:從實(shí)驗(yàn)室到生產(chǎn)的鴻溝
成熟度現(xiàn)狀令人擔(dān)憂
研究顯示,GenAI 在 RE 領(lǐng)域的工業(yè)化進(jìn)程嚴(yán)重滯后:
- 90.3% 的研究停留在概念或原型階段;
- 僅 8.4% 達(dá)到原型或?qū)嶒?yàn)部署水平;
- 只有 1.3% 實(shí)現(xiàn)生產(chǎn)級(jí)集成。

Industrial adoption stages of GenAI use in RE (N=238).
系統(tǒng)性障礙
研究識(shí)別出 11 類主要限制因素:
- 泛化能力和領(lǐng)域適應(yīng)(39.9%);
- 數(shù)據(jù)質(zhì)量和可用性(39.1%);
- 評(píng)估方法(28.8%);
- 人工介入需求(27.0%)。
值得注意的是,47.2% 的研究面臨三個(gè)或以上的限制類別,表明這是系統(tǒng)性而非孤立的問(wèn)題。
從產(chǎn)業(yè)角度看,GenAI 在 RE 的價(jià)值主要體現(xiàn)在「加速需求文檔生成」和「減少溝通成本」,但由于缺乏合規(guī)性與風(fēng)險(xiǎn)控制標(biāo)準(zhǔn),企業(yè)普遍持觀望態(tài)度。
未來(lái)路線圖:四階段推進(jìn)策略
基于系統(tǒng)性分析,研究團(tuán)隊(duì)提出了多階段研究路線圖:
- 第一階段:強(qiáng)化評(píng)估基礎(chǔ)設(shè)施
建立標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試、RE 特定指標(biāo)和可復(fù)現(xiàn)性協(xié)議,這是解決當(dāng)前 90% 研究停留在早期階段問(wèn)題的關(guān)鍵。
- 第二階段:治理感知開(kāi)發(fā)
將倫理審計(jì)、公平性約束和利益相關(guān)者驗(yàn)證納入 GenAI 系統(tǒng)設(shè)計(jì),應(yīng)對(duì)當(dāng)前治理相關(guān)問(wèn)題關(guān)注不足的困境。
- 第三階段:可擴(kuò)展的情境感知部署
采用模塊化架構(gòu)、參數(shù)高效微調(diào)(LoRA、PEFT)和 RAG 等技術(shù),降低幻覺(jué)率,提高系統(tǒng)可控性。
- 第四階段:工業(yè)級(jí)標(biāo)準(zhǔn)化
建立社區(qū)驅(qū)動(dòng)的工具包、開(kāi)源基準(zhǔn)和法律框架(如著作權(quán)治理),為生產(chǎn)級(jí)應(yīng)用奠定基礎(chǔ)。
對(duì)研究者和實(shí)踐者的啟示
給研究者的建議
- 技術(shù)多元化: 探索 GPT 之外的模型,開(kāi)發(fā) RE 特定的混合架構(gòu)。
- 評(píng)估體系重構(gòu): 建立結(jié)合定量指標(biāo)和人工洞察的混合評(píng)估方法。
- 全生命周期關(guān)注: 將研究擴(kuò)展到需求管理和驗(yàn)證等被忽視的階段。
- 可復(fù)現(xiàn)性優(yōu)先: 建立提示詞共享和實(shí)驗(yàn)協(xié)議的社區(qū)標(biāo)準(zhǔn)。
給實(shí)踐者的建議
- 謹(jǐn)慎采用: 當(dāng)前 GenAI 工具最適合作為輔助加速器,而非自主決策者。
- 聚焦低風(fēng)險(xiǎn)任務(wù): 在自動(dòng)化草稿生成、需求分類等結(jié)構(gòu)化任務(wù)中應(yīng)用。
- 人機(jī)協(xié)同: 在關(guān)鍵任務(wù)中保持人工監(jiān)督,特別是在安全關(guān)鍵領(lǐng)域。
- 關(guān)注新趨勢(shì): RAG 和混合方法顯示出提高可靠性的潛力,值得持續(xù)關(guān)注。
結(jié)語(yǔ)
GenAI 在需求工程領(lǐng)域展現(xiàn)出變革性潛力,但要實(shí)現(xiàn)從學(xué)術(shù)探索到工業(yè)應(yīng)用的跨越,仍需克服可復(fù)現(xiàn)性、幻覺(jué)控制和可解釋性這三大核心挑戰(zhàn)。研究表明,這些挑戰(zhàn)高度關(guān)聯(lián),必須采用整體性解決方案。
更重要的是,成功應(yīng)用 GenAI 需要技術(shù)健壯性、方法論成熟度和治理整合的協(xié)同發(fā)展。從 90% 的研究停留在早期階段到僅 1.3% 達(dá)到生產(chǎn)級(jí)別的現(xiàn)狀來(lái)看,這條路還很長(zhǎng)。但隨著評(píng)估基礎(chǔ)設(shè)施的完善、治理框架的建立和標(biāo)準(zhǔn)化工作的推進(jìn),GenAI 終將成為需求工程領(lǐng)域不可或缺的智能助手。
這不僅是一場(chǎng)技術(shù)革命,更是軟件工程實(shí)踐的范式轉(zhuǎn)變。當(dāng)需求從「人工編寫」轉(zhuǎn)向「人機(jī)共創(chuàng)」,軟件工程正進(jìn)入一個(gè)全新的智能時(shí)代。























