生成式AI賦能需求工程：一場(chǎng)正在發(fā)生的變革

2025-11-28 08:51:42

隨著 ChatGPT 等大語(yǔ)言模型的爆發(fā)式發(fā)展，生成式 AI（GenAI）為需求工程帶來(lái)了前所未有的機(jī)遇。來(lái)自早稻田大學(xué)、東北大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)，對(duì) 2019 年至 2025 年間發(fā)表的 238 篇相關(guān)論文進(jìn)行了系統(tǒng)性文獻(xiàn)綜述，為我們揭示了這一新興領(lǐng)域的全貌。

作者團(tuán)隊(duì)：早稻田大學(xué)博士生 / 蒙特利爾工程學(xué)院訪問(wèn)研究員程浩偉（通訊作者），特爾科姆大學(xué)助理教授 Jati H. Husen，早稻田大學(xué)博士生蘆一均，東北大學(xué)副教授 / JAIST 客座教授 Teeradaj Racharak，早稻田大學(xué)教授 / QAML 株式會(huì)社 CEO 吉岡信和，九州大學(xué)名譽(yù)教授鵜林尚靖，早稻田大學(xué)教授鷲崎弘宜。

在軟件開(kāi)發(fā)領(lǐng)域，需求工程（Requirements Engineering, RE）一直是項(xiàng)目成功的關(guān)鍵環(huán)節(jié)。然而，傳統(tǒng) RE 方法面臨著效率低下、需求變更頻繁等挑戰(zhàn)。根據(jù) Standish Group 的報(bào)告，僅有 31% 的軟件項(xiàng)目能在預(yù)算和時(shí)間內(nèi)完成，而需求相關(guān)問(wèn)題導(dǎo)致的項(xiàng)目失敗率高達(dá) 37%。

論文標(biāo)題：Generative AI for Requirements Engineering: A Systematic Literature Review
論文地址：https://onlinelibrary.wiley.com/doi/10.1002/spe.70029

這是目前為止對(duì)生成式 AI 在需求工程領(lǐng)域最系統(tǒng)、最全面的文獻(xiàn)綜述，揭示了從技術(shù)到落地的全貌與未來(lái)路線，是理解「GenAI 如何重塑軟件開(kāi)發(fā)起點(diǎn)」的必讀論文。

研究現(xiàn)狀：

快速增長(zhǎng)但分布不均

爆發(fā)式的研究熱度

數(shù)據(jù)顯示，GenAI 在需求工程領(lǐng)域的研究呈現(xiàn)指數(shù)級(jí)增長(zhǎng)：

2022 年僅有 4 篇相關(guān)論文；
2023 年激增至 23 篇；
2024 年達(dá)到 113 篇；
2025 年前 5 個(gè)月已有 97 篇。

Distribution of papers across years (N=238).

這種增長(zhǎng)軌跡充分反映了 ChatGPT 發(fā)布后，學(xué)術(shù)界對(duì) GenAI 應(yīng)用于 RE 領(lǐng)域的濃厚興趣。

研究聚焦點(diǎn)的失衡

盡管研究熱度高漲，但不同 RE 階段受到的關(guān)注度嚴(yán)重失衡：

需求分析占據(jù) 30.0% 的研究比重，位居首位；
需求獲取和需求規(guī)約各占 22.1%；
需求驗(yàn)證占 19.0%；
需求管理僅占 6.8%，嚴(yán)重缺乏關(guān)注。

這種分布反映出當(dāng)前研究主要集中在 GenAI 擅長(zhǎng)的文本分析和生成任務(wù)，而對(duì)需求管理等涉及復(fù)雜社會(huì)技術(shù)因素的階段探索不足。

Distribution of RE phases (N=238).

GenAI 在 RE 領(lǐng)域已進(jìn)入「快速擴(kuò)張但尚未成熟」的階段，研究數(shù)量暴漲但深度不足，仍停留在「概念驗(yàn)證」層面。

技術(shù)圖景：GPT 主導(dǎo)下的同質(zhì)化困境

模型選擇的單一化

研究發(fā)現(xiàn)，67.3% 的研究采用 GPT 系列模型，其中：

GPT-4 系列占 36.7%，主要應(yīng)用于復(fù)雜需求分析；
GPT-3.5 系列占 25.3%，在常規(guī)分類任務(wù)中表現(xiàn)良好；
開(kāi)源替代方案（如 LLaMA、CodeLlama）僅占 11.6%。

這種過(guò)度依賴單一模型家族的現(xiàn)象，限制了多樣化技術(shù)路徑的探索。值得注意的是，CodeLlama 在代碼 - 需求追溯任務(wù)中表現(xiàn)出色，幻覺(jué)率比通用模型低 23%，但采用率仍然很低。

Distribution of GenAI models (N=238).

提示工程的實(shí)踐模式

在提示工程方面，研究呈現(xiàn)出以下特點(diǎn)：

指令式提示占 62.2%，反映 RE 任務(wù)的高度結(jié)構(gòu)化特性；
少樣本學(xué)習(xí)占 43.6%，成為最受歡迎的學(xué)習(xí)范式；
零樣本學(xué)習(xí)占 37.7%，適用于相對(duì)簡(jiǎn)單的 RE 任務(wù)；
思維鏈（CoT）方法僅占 14.0%，采用率相對(duì)較低。

令人欣慰的是，超過(guò) 80% 的研究公開(kāi)了提示詞細(xì)節(jié)，這為研究的可復(fù)現(xiàn)性奠定了基礎(chǔ)。

Distribution of learning paradigm (N=238).

Distribution of prompt types (N=238).

質(zhì)量關(guān)注的偏頗

在軟件質(zhì)量特性方面，當(dāng)前研究呈現(xiàn)明顯的短期導(dǎo)向：

功能適用性獲得最多關(guān)注（124 次提及）；
可靠性次之（80 次）；
安全性僅被提及 39 次；
可解釋性和準(zhǔn)確性幾乎被忽視。

這種關(guān)注度分布表明，研究者更注重即時(shí)的功能表現(xiàn)，而忽視了長(zhǎng)期的系統(tǒng)級(jí)質(zhì)量屬性。這種質(zhì)量關(guān)注的偏頗表明，當(dāng)前研究仍以「可用性優(yōu)先」驅(qū)動(dòng)，而非「可靠性與可解釋性優(yōu)先」，這是 AI 走向工業(yè)級(jí)軟件系統(tǒng)的最大隱患。

三大核心挑戰(zhàn)：緊密交織的困境

研究識(shí)別出 10 個(gè)主要挑戰(zhàn)，其中三個(gè)核心挑戰(zhàn)形成了緊密關(guān)聯(lián)的「三角關(guān)系」：

可復(fù)現(xiàn)性（66.8%）可復(fù)現(xiàn)性是最嚴(yán)重的問(wèn)題。LLM 的隨機(jī)性、參數(shù)敏感性以及黑盒 API 的不透明性，使得研究結(jié)果難以驗(yàn)證和重現(xiàn)。這在需求生成和驗(yàn)證等關(guān)鍵場(chǎng)景中尤為嚴(yán)重。
幻覺(jué)問(wèn)題（63.4%）AI 生成的需求可能與輸入沖突或包含虛構(gòu)內(nèi)容。在 RE 領(lǐng)域，需求的精確性和可追溯性至關(guān)重要，幻覺(jué)問(wèn)題可能導(dǎo)致嚴(yán)重的系統(tǒng)設(shè)計(jì)偏差。
可解釋性（57.1%）LLM 的決策過(guò)程不透明，在醫(yī)療、法律等高風(fēng)險(xiǎn)領(lǐng)域尤為致命。研究發(fā)現(xiàn)，這三個(gè)挑戰(zhàn)的共現(xiàn)率達(dá) 35%，表明它們必須被整體性地解決，而非孤立應(yīng)對(duì)。

Correlations among the LLM issues reported in literature on RE (%).

可復(fù)現(xiàn)性影響幻覺(jué)問(wèn)題的驗(yàn)證，幻覺(jué)問(wèn)題又加劇可解釋性缺失；三者相互強(qiáng)化，構(gòu)成當(dāng)前 GenAI 研究最難攻克的「信任瓶頸」。

評(píng)估實(shí)踐：基礎(chǔ)設(shè)施的薄弱環(huán)節(jié)

工具和數(shù)據(jù)集的可用性困境

盡管越來(lái)越多研究開(kāi)發(fā)了工具和數(shù)據(jù)集，但實(shí)際可用性令人擔(dān)憂：

僅 23.9% 的研究公開(kāi)發(fā)布了工具；
45.8% 的研究使用了不公開(kāi)的數(shù)據(jù)集；
缺乏統(tǒng)一的基準(zhǔn)測(cè)試框架。

評(píng)估指標(biāo)的表面化

評(píng)估方法主要依賴傳統(tǒng) NLP 指標(biāo)：

精確率 / 召回率 / F1 分?jǐn)?shù)最常用（119 項(xiàng)研究）；
準(zhǔn)確率次之（40 項(xiàng)研究）；
人工評(píng)估較少（22 項(xiàng)研究）；
錯(cuò)誤分析極為罕見(jiàn)（僅 11 項(xiàng)研究）。

這種表面化的評(píng)估無(wú)法捕捉 RE 任務(wù)的復(fù)雜性和領(lǐng)域特異性。

Distribution of tool and dataset availability (N=238)

Distribution of evaluation metrics and methodology (N=238)

當(dāng)前 RE 領(lǐng)域缺乏類似 MMLU、HumanEval 那樣的標(biāo)準(zhǔn)基準(zhǔn)測(cè)試，導(dǎo)致學(xué)術(shù)成果難以橫向比較，這也是產(chǎn)業(yè)界遲遲未能采用的重要原因。

工業(yè)落地：從實(shí)驗(yàn)室到生產(chǎn)的鴻溝

成熟度現(xiàn)狀令人擔(dān)憂

研究顯示，GenAI 在 RE 領(lǐng)域的工業(yè)化進(jìn)程嚴(yán)重滯后：

90.3% 的研究停留在概念或原型階段；
僅 8.4% 達(dá)到原型或?qū)嶒?yàn)部署水平；
只有 1.3% 實(shí)現(xiàn)生產(chǎn)級(jí)集成。

Industrial adoption stages of GenAI use in RE (N=238).

系統(tǒng)性障礙

研究識(shí)別出 11 類主要限制因素：

泛化能力和領(lǐng)域適應(yīng)（39.9%）；
數(shù)據(jù)質(zhì)量和可用性（39.1%）；
評(píng)估方法（28.8%）；
人工介入需求（27.0%）。

值得注意的是，47.2% 的研究面臨三個(gè)或以上的限制類別，表明這是系統(tǒng)性而非孤立的問(wèn)題。

從產(chǎn)業(yè)角度看，GenAI 在 RE 的價(jià)值主要體現(xiàn)在「加速需求文檔生成」和「減少溝通成本」，但由于缺乏合規(guī)性與風(fēng)險(xiǎn)控制標(biāo)準(zhǔn)，企業(yè)普遍持觀望態(tài)度。

未來(lái)路線圖：四階段推進(jìn)策略

基于系統(tǒng)性分析，研究團(tuán)隊(duì)提出了多階段研究路線圖：

第一階段：強(qiáng)化評(píng)估基礎(chǔ)設(shè)施

建立標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試、RE 特定指標(biāo)和可復(fù)現(xiàn)性協(xié)議，這是解決當(dāng)前 90% 研究停留在早期階段問(wèn)題的關(guān)鍵。

第二階段：治理感知開(kāi)發(fā)

將倫理審計(jì)、公平性約束和利益相關(guān)者驗(yàn)證納入 GenAI 系統(tǒng)設(shè)計(jì)，應(yīng)對(duì)當(dāng)前治理相關(guān)問(wèn)題關(guān)注不足的困境。

第三階段：可擴(kuò)展的情境感知部署

采用模塊化架構(gòu)、參數(shù)高效微調(diào)（LoRA、PEFT）和 RAG 等技術(shù)，降低幻覺(jué)率，提高系統(tǒng)可控性。

第四階段：工業(yè)級(jí)標(biāo)準(zhǔn)化

建立社區(qū)驅(qū)動(dòng)的工具包、開(kāi)源基準(zhǔn)和法律框架（如著作權(quán)治理），為生產(chǎn)級(jí)應(yīng)用奠定基礎(chǔ)。

對(duì)研究者和實(shí)踐者的啟示

給研究者的建議

技術(shù)多元化： 探索 GPT 之外的模型，開(kāi)發(fā) RE 特定的混合架構(gòu)。
評(píng)估體系重構(gòu)： 建立結(jié)合定量指標(biāo)和人工洞察的混合評(píng)估方法。
全生命周期關(guān)注： 將研究擴(kuò)展到需求管理和驗(yàn)證等被忽視的階段。
可復(fù)現(xiàn)性優(yōu)先： 建立提示詞共享和實(shí)驗(yàn)協(xié)議的社區(qū)標(biāo)準(zhǔn)。

給實(shí)踐者的建議

謹(jǐn)慎采用： 當(dāng)前 GenAI 工具最適合作為輔助加速器，而非自主決策者。
聚焦低風(fēng)險(xiǎn)任務(wù)： 在自動(dòng)化草稿生成、需求分類等結(jié)構(gòu)化任務(wù)中應(yīng)用。
人機(jī)協(xié)同： 在關(guān)鍵任務(wù)中保持人工監(jiān)督，特別是在安全關(guān)鍵領(lǐng)域。
關(guān)注新趨勢(shì)： RAG 和混合方法顯示出提高可靠性的潛力，值得持續(xù)關(guān)注。

結(jié)語(yǔ)

GenAI 在需求工程領(lǐng)域展現(xiàn)出變革性潛力，但要實(shí)現(xiàn)從學(xué)術(shù)探索到工業(yè)應(yīng)用的跨越，仍需克服可復(fù)現(xiàn)性、幻覺(jué)控制和可解釋性這三大核心挑戰(zhàn)。研究表明，這些挑戰(zhàn)高度關(guān)聯(lián)，必須采用整體性解決方案。

更重要的是，成功應(yīng)用 GenAI 需要技術(shù)健壯性、方法論成熟度和治理整合的協(xié)同發(fā)展。從 90% 的研究停留在早期階段到僅 1.3% 達(dá)到生產(chǎn)級(jí)別的現(xiàn)狀來(lái)看，這條路還很長(zhǎng)。但隨著評(píng)估基礎(chǔ)設(shè)施的完善、治理框架的建立和標(biāo)準(zhǔn)化工作的推進(jìn)，GenAI 終將成為需求工程領(lǐng)域不可或缺的智能助手。

這不僅是一場(chǎng)技術(shù)革命，更是軟件工程實(shí)踐的范式轉(zhuǎn)變。當(dāng)需求從「人工編寫」轉(zhuǎn)向「人機(jī)共創(chuàng)」，軟件工程正進(jìn)入一個(gè)全新的智能時(shí)代。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心