DeepSeekMath-V2 從“答案正確” 轉向 “過程正確”
對比閱讀DeepSeekMathV2與V1的論文,筆者感覺V2是一次范式遷移,從追求“答案正確”轉向“過程正確”。預處理自然語言表述的數學問題作為輸入,將問題拆成“證明目標+前提或已知事實+約束”,序列化成prompt供生成器使用。這樣可以把不同類型的數學任務歸一成“證明或推導任務”以便統一處理。生成器微調后的LLM生成模型作為“證明草稿生成器”,生成多條“逐步證明鏈”。V1關注最終答案,而V2強制生成“逐步可檢驗”的中間證明...