近日,字節(jié)跳動旗下的Seed研究團(tuán)隊宣布了一項重大技術(shù)突破,推出了名為VAPO的強(qiáng)化學(xué)習(xí)訓(xùn)練框架。這一框架的主要目標(biāo)是增強(qiáng)大型語言模型在處理復(fù)雜且冗長任務(wù)時的推理能力。
在大型語言模型的強(qiáng)化學(xué)習(xí)訓(xùn)練中,價值導(dǎo)向方法一直備受關(guān)注,因?yàn)樗鼈兡軌蚓_地追蹤每個動作對后續(xù)回報的影響。然而,當(dāng)這種方法應(yīng)用于長鏈?zhǔn)酵评砣蝿?wù)時,卻面臨著一系列挑戰(zhàn)。價值模型在初始化階段可能會引入偏差,傳統(tǒng)方法難以適應(yīng)復(fù)雜任務(wù)中不同長度的序列,而且在驗(yàn)證任務(wù)中,獎勵信號往往非常稀疏,導(dǎo)致優(yōu)化過程需要在探索和利用之間做出艱難權(quán)衡。
為了應(yīng)對這些挑戰(zhàn),字節(jié)跳動推出了VAPO框架,全稱為增強(qiáng)價值的近端政策優(yōu)化。該框架基于PPO框架,并融入了三項創(chuàng)新技術(shù)。首先,VAPO構(gòu)建了一個精細(xì)的價值訓(xùn)練框架,以提高模型對復(fù)雜任務(wù)的理解能力。其次,它引入了長度自適應(yīng)廣義優(yōu)勢估計機(jī)制,能夠根據(jù)響應(yīng)長度的不同動態(tài)調(diào)整參數(shù),從而優(yōu)化長短序列的訓(xùn)練效果。最后,VAPO整合了多項先前的研究成果,形成了一個協(xié)同增效的系統(tǒng)。
據(jù)字節(jié)跳動透露,在沒有依賴特定監(jiān)督微調(diào)數(shù)據(jù)的情況下,通過VAPO優(yōu)化的Qwen2.5-32B模型在AIME24基準(zhǔn)測試中取得了顯著進(jìn)步。其得分從5分大幅提升至60.4分,不僅超過了DeepSeek R1的47分,還領(lǐng)先此前業(yè)界領(lǐng)先的DAPO方法10分,并且只用了60%的更新步驟就達(dá)到了這一成績。
與傳統(tǒng)的Proximal Policy Optimization算法相比,VAPO在數(shù)學(xué)推理能力上有了顯著提升,訓(xùn)練曲線更加平滑,優(yōu)化過程也更加穩(wěn)定。測試結(jié)果顯示,VAPO在長序列任務(wù)中表現(xiàn)出色,得分增長迅速。盡管在后期訓(xùn)練中,由于熵值降低可能會限制探索能力,但VAPO通過其平衡設(shè)計確保了穩(wěn)定性和可重復(fù)性。
VAPO的成功離不開其綜合優(yōu)化設(shè)計。消融研究表明,VAPO中的七項技術(shù)均發(fā)揮了重要作用。價值預(yù)訓(xùn)練有效防止了訓(xùn)練過程中的崩潰現(xiàn)象,解耦GAE支持了長回答的優(yōu)化,自適應(yīng)GAE平衡了短回答和長回答的訓(xùn)練效果,剪裁策略鼓勵了探索,詞級損失增加了長回答的權(quán)重,正例語言模型損失提升了6分,分組采樣則貢獻(xiàn)了5分。