国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

GPT-3解數學題準確率升至92.5%!微軟提出MathPrompter,無需微調即可打造「理科」語言模型

人工智能 新聞
ChatGPT的文科腦有救了!

大型語言模型最為人詬病的缺點,除了一本正經地胡言亂語以外,估計就是「不會算數」了。

圖片

比如一個需要多步推理的復雜數學問題,語言模型通常都無法給出正確答案,即便有「思維鏈」技術的加持,往往中間步驟也會出錯。

與文科類的自然語言理解任務不同,數學問題通常只有一個正確答案,在不那么開放的答案范圍下,使得生成準確解的任務對大型語言模型來說更具挑戰性。

并且,在數學問題上,現有的語言模型通常不會對自己的答案提供置信度(confidence),讓用戶無從判斷生成答案的可信度。

為了解決這個問題,微軟研究院提出了MathPrompter技術,可以提高 LLM 在算術問題上的性能,同時增加對預測的依賴。

論文鏈接:https://arxiv.org/abs/2303.05398

MathPrompter 使用 Zero-shot 思維鏈提示技術生成多個代數表達式或 Python 函數,以不同方式解決同一個數學問題,從而提高輸出結果的可信度。

相比其他基于提示的 CoT 方法,MathPrompter還會檢查中間步驟的有效性。

基于175B 參數 GPT,使用MathPrompter方法將MultiArith 數據集的準確率從78.7%提升到了92.5%!

專攻數學的Prompt

近幾年,自然語言處理的發展很大程度上要歸功于大型語言模型(LLMs)在規模上的不斷擴展,其展現出了驚人的zero-shot和few-shot能力,也促成了prompting技術的發展,用戶只需要在prompt中給LLM輸入幾個簡單的樣例即可對新任務進行預測。

prompt對于單步的任務來說可以說相當成功,但在需要多步驟推理的任務中,提示技術的性能仍然不夠。

人類在解決一個復雜問題時,會將其進行分解,并嘗試一步步地解決,「思維鏈」(CoT)提示技術就是將這種直覺擴展到LLMs中,在一系列需要推理的NLP任務中都得到了性能改進。

這篇論文主要研究「用于解決數學推理任務」的Zero-shot-CoT方法,之前的工作已經在MultiArith數據集上得到了顯著的準確率改進,從17.7% 提升到了 78.7%,但仍然存在兩個關鍵的不足之處:

1、雖然模型所遵循的思維鏈改進了結果,但卻沒有檢查思維鏈提示所遵循的每個步驟的有效性;

2、沒有對LLM預測結果提供置信度(confidence)。

MathPrompter

為了在一定程度上解決這些差距,研究人員從「人類解決數學題的方式」中得到啟發,將復雜問題分解為更簡單的多步驟程序,并利用多種方式在每一個步驟中對方法進行驗證。

圖片

由于LLM是生成式模型,要確保生成的答案是準確的,特別是對于數學推理任務,就變得非常棘手。

研究人員觀察學生解決算術問題的過程,總結出了學生為驗證其解決方案而采取的幾個步驟:

遵循已知結果(Compliance with known results),通過將解決方案與已知結果進行比較,可以評估其準確性并進行必要的調整;當問題是一個具有成熟解決方案的標準問題時,這一點尤其有用。

多重驗證 Multi-verification,通過從多個角度切入問題并比較結果,有助于確認解決方案的有效性,確保其既合理又準確。

交叉檢查 Cross-checking,解決問題的過程與最終的答案同樣必要;驗證過程中的中間步驟的正確性可以清楚地了解解決方案背后的思維過程。

計算驗證 Compute verification,利用計算器或電腦進行算術計算可以幫助驗證最終答案的準確性

具體來說,給定一個問題Q,

圖片

 在一家餐廳,每份成人餐的價格是5美元,兒童免費用餐。如果有15個人進來,其中8個是孩子,那么這群人要花多少錢吃飯?

1. 生成代數模板 Generating Algebraic template

首先將問題轉化為代數形式,通過使用鍵值映射將數字項替換為變量,然后得到修改后的問題Qt

圖片

2. 數學提示 Math-prompts

基于上述多重驗證和交叉檢查的思維過程所提供的直覺上,使用兩種不同的方法生成Qt的分析解決方案,即代數方式和Pythonic方式,給LLM提供以下提示,為Qt生成額外的上下文。

圖片

提示可以是「推導出一個代數表達式」或「編寫一個Python函數」

LLM模型在響應提示后可以輸出如下表達式。

圖片

上述生成的分析方案為用戶提供了關于LLM的「中間思維過程」的提示,加入額外的提示可以提高結果的準確性和一致性,反過來會提高MathPrompter生成更精確和有效的解決方案的能力。

3. 計算驗證 Compute verification

使用Qt中輸入變量的多個隨機鍵值映射來評估上一步生成的表達式,使用Python的eval()方法對這些表達式進行評估。

然后比較輸出結果,看是否能在答案中找到一個共識(consensus),也可以提供更高的置信度,即答案是正確且可靠的。

圖片

一旦表達式在輸出上達成一致,就使用輸入Q中的變量值來計算最終的答案。

4. 統計學意義 Statistical significance

為了確保在各種表達式的輸出中達成共識,在實驗中將步驟2和3重復大約5次,并報告觀察到的出現最頻繁的答案值。

在沒有明確共識的情況下,重復步驟2、3、4。

實驗結果

在MultiArith數據集上對MathPrompter進行評估,其中的數學問題專門用來測試機器學習模型進行復雜算術運算和推理的能力,要求應用多種算術運算和邏輯推理才能成功地解決。

圖片

在MultiArith數據集上的準確率結果顯示,MathPrompter的表現優于所有的Zero-shot和Zero-shot-CoT基線,將準確率從78.7% 提升到 92.5%

可以看到,基于175B參數GPT3 DaVinci的MathPrompter模型的性能與540B參數模型以及SOTA的Few-shot-CoT方法相當。

圖片

從上表可以看到,MathPrompter的設計可以彌補諸如「生成的答案有時會有一步之差」的問題,可以通過多次運行模型并報告共識結果來避免。

此外,推理步驟可能過于冗長的問題,可以由Pythonic或Algebraic方法可以解決這個問題,通常需要較少的token

此外,推理步驟可能是正確的,但最終的計算結果卻不正確,MathPrompter通過使用Python的eval()方法函數來解決這個問題。

在大部分情況下,MathPrompter都能生成正確的中間和最終答案,不過也有少數情況,如表中的最后一個問題,代數和Pythonic的輸出都是一致的,但卻有錯誤。

責任編輯:張燕妮 來源: 新智元
相關推薦

2022-04-13 10:31:04

微軟Jigsaw大型語言模型

2023-12-13 14:17:10

微軟變色龍框架

2019-11-20 10:03:56

AI 數據人工智能

2021-10-11 17:27:50

框架計算機開發

2022-05-26 14:04:13

GPT-3機器學習AI

2023-12-04 13:51:00

模型數據

2021-08-17 11:29:13

框架架構開發

2025-09-15 09:05:00

AI數學模型

2025-07-30 09:06:02

2023-10-14 13:09:53

谷歌模型

2023-09-19 09:20:16

2025-09-16 12:49:11

2021-11-08 10:01:04

AI 數據語言模型

2023-09-19 14:56:00

模型訓練

2023-10-14 17:24:49

2023-09-25 10:04:37

模型AI

2021-11-01 10:40:15

機器學習人工智能計算機

2021-08-10 16:01:18

模型人工智能深度學習

2025-10-13 02:00:00

2024-08-02 13:14:51

點贊
收藏

51CTO技術棧公眾號

久久精品视频一区| 欧美日韩精品在线播放| 91免费版网站入口| 69堂精品视频在线播放| 欧美揉bbbbb揉bbbbb| 黄页视频在线免费观看| 国产精品网站在线观看| 男女超爽视频免费播放| 久国产精品韩国三级视频| 久久99导航| 一区在线免费观看| 国产精品二区三区| 精品91在线| www.久久久| 黑丝一区二区三区| 99视频在线| 欧美精品首页| 精品视频高清无人区区二区三区| 午夜精彩国产免费不卡不顿大片| 成人激情视频网| 亚洲无中文字幕| 国产成人成网站在线播放青青 | 日本乱人伦aⅴ精品| 最新四虎影在线在永久观看www| 一区二区三区日韩在线观看| 裸体网站视频| 亚洲成人一区在线| 美丽的姑娘在线观看免费动漫| 在线看国产一区| 亚洲资源一区| 中日韩美女免费视频网站在线观看| 成人午夜亚洲| 精品中文字幕在线观看| 久草精品视频| 成人做爽爽免费视频| 99这里有精品| 亚洲 欧洲 日韩| 91在线porny国产在线看| 成人漫画网站免费| 婷婷丁香久久五月婷婷| 免费黄色网址在线观看| 精品成人在线观看| 原纱央莉成人av片| 97在线视频一区| 欧美一区二区三区久久精品| 欧美在线3区| 91首页免费视频| 蜜桃专区在线| 精品av久久707| 国产视频一区二| 91久久综合亚洲鲁鲁五月天| 日韩—二三区免费观看av| 妺妺窝人体色777777| 一区二区三区日韩欧美| 1024在线播放| 久久免费视频网| 亚洲在线视频| 国产三级三级三级看三级| 欧美日韩国产在线播放| а√在线天堂官网| 2021久久精品国产99国产精品| 欧美三级特黄| 久久av综合网| 精品久久久久久久久久久久久| 999精品网| 国产精品av电影| 日本aⅴ精品一区二区三区| 天天爱天天操天天干| 在线播放国产精品二区一二区四区 | 二区在线观看| 日韩在线观看你懂的| 亚洲色图插插| 成人免费视频91| 欧美日韩精品在线| 日本一区免费网站| 99国精产品一二二线| 波多野结衣在线aⅴ中文字幕不卡| 香蕉视频在线免费| 精品国产区一区二区三区在线观看| 91精品国产自产在线观看永久∴| 妞干网这里只有精品| 天天做天天摸天天爽国产一区| 成人免费一区| 九九热久久66| 亚洲国产美女搞黄色| 国产精品一区二区免费福利视频| 91在线免费视频| 国产日韩精品一区二区三区在线| 国产区在线观看| 日本一本a高清免费不卡| 国产制服丝袜一区| 欧美日本韩国一区二区| 欧美黄色片视频| 国产真实乱对白精彩久久| 视频午夜在线| 亚洲**2019国产| 成人午夜精品在线| 美女91在线| 国产主播一区二区三区四区| 一区二区成人在线观看| 国产精品1区| 日韩视频一二三| 7777女厕盗摄久久久| 成人在线免费小视频| 成年人网站大全| 中文字幕免费精品一区高清| 久久精品卡一| 97电影在线观看| 国产精品一区二区久久精品| 亚洲国产高清不卡| 久久99国产精品二区高清软件| 少妇免费毛片久久久久久久久| 在线观看网站黄不卡| 欧美精品乱码| 日本成本人片免费观看| 91产国在线观看动作片喷水| 久久久亚洲欧洲日产国码αv| 天堂av在线网| 三年中文高清在线观看第6集| 欧美日韩一二三| 日韩视频中文| 免费黄色在线| 久久精品国产综合精品| 在线免费不卡电影| 欧美日本不卡高清| 黄色av免费在线观看| 91原创国产| 欧美性一区二区| 欧美激情欧美激情| 精品国精品国产自在久国产应用| 大胆欧美人体视频| 亚洲经典中文字幕| 欧美午夜一区二区三区免费大片| 亚洲黄色免费电影| 成人免费黄色大片| 成人午夜av影视| 一区二区激情| 欧美精品资源| 亚洲日日夜夜| 1pondo在线播放免费| 福利一区在线| 国产资源在线免费观看| 亚洲日本欧美日韩高观看| 久草热8精品视频在线观看| 激情av在线| 亚洲一区尤物| 亚洲激情国产精品| 狠狠网亚洲精品| 黄色成人小视频| 成年人小视频网站| 欧美专区第一页| 五月天欧美精品| 狠久久av成人天堂| 欧美性受ⅹ╳╳╳黑人a性爽| 欧美福利精品| 久久福利视频导航| 午夜精品一区二区三区在线视| 国产成人在线电影| 麻豆精品蜜桃| 日本免费不卡一区二区| 欧美激情久久久| 亚洲欧美另类在线| 日本不卡电影| 最新av免费在线| 国产美女99p| 亚洲国产精品成人精品| 国产91精品露脸国语对白| 国产精品视频一区二区三区综合| 午夜免费福利在线| 91久久精品久久国产性色也91| 91.成人天堂一区| 精品一区二区成人精品| 国产日韩在线观看视频| 热国产热中文视频二区| 国内精品视频在线播放| 日韩高清人体午夜| 91嫩草在线播放| 欧美高清一区二区| 伊人久久五月天| 亚洲永久精品国产| 久久三级福利| 国产在线视频欧美一区| 国产视频一二| 豆国产97在线| 亚洲视频在线观看视频| 一区二区三区在线观看视频| 欧美一级视频| 成人在线视频你懂的| av基地在线| 韩国中文字幕av| 黄色99视频| 日韩视频亚洲视频| 色婷婷av一区二区三区之一色屋| 国产一区视频网站| 国产精品久久久久久久| 国产欧美一区二区三区精品酒店| 韩国版免费三体| 青青草视频国产| 国产富婆一区二区三区| 欧美成在线观看|