科大訊飛與華為昇騰攜手,在“飛星一號(hào)”平臺(tái)上實(shí)現(xiàn)了MoE模型集群推理性能的顯著提升。這一突破性進(jìn)展,標(biāo)志著國(guó)產(chǎn)算力在AI領(lǐng)域的應(yīng)用邁出了重要一步。
據(jù)悉,雙方聯(lián)合團(tuán)隊(duì)通過(guò)一系列創(chuàng)新優(yōu)化手段,成功將MoE模型在“飛星一號(hào)”平臺(tái)上的集群推理性能翻倍。這一成就不僅彰顯了國(guó)產(chǎn)算力在處理復(fù)雜AI任務(wù)方面的潛力,更為AI技術(shù)的廣泛應(yīng)用提供了有力支持。
在此次優(yōu)化過(guò)程中,聯(lián)合團(tuán)隊(duì)針對(duì)MoE模型的特性,升級(jí)了PD分離+大規(guī)模專家并行系統(tǒng)解決方案。他們通過(guò)定制集合通信協(xié)議,有效消除了集合通信流量沖突,解決了推理過(guò)程中Prefill階段和Decode階段的相互干擾問(wèn)題。這一創(chuàng)新舉措使得P實(shí)例和D實(shí)例均達(dá)到了系統(tǒng)最優(yōu)狀態(tài),性能提升超過(guò)20%。
聯(lián)合團(tuán)隊(duì)還在國(guó)產(chǎn)算力上實(shí)現(xiàn)了MTP多token預(yù)測(cè)技術(shù),這一技術(shù)的引入顯著降低了MTP層的計(jì)算耗時(shí),整體性能提升超過(guò)30%。同時(shí),他們還對(duì)專家負(fù)載均衡算法進(jìn)行了升級(jí),實(shí)現(xiàn)了多DP負(fù)載均衡,卡間負(fù)載均衡差異小于8%,集群推理吞吐性能因此提升了30%以上。
聯(lián)合團(tuán)隊(duì)還創(chuàng)新性地實(shí)現(xiàn)了異步雙發(fā)射技術(shù)。這一技術(shù)有效解決了高并發(fā)下的高CPU負(fù)載問(wèn)題,實(shí)現(xiàn)了CPU和NPU的高效協(xié)同。通過(guò)降低服務(wù)請(qǐng)求調(diào)度耗時(shí),系統(tǒng)性能得到了進(jìn)一步提升,提升幅度達(dá)到10%。
基于上述一系列創(chuàng)新解決方案的迭代與升級(jí),聯(lián)合團(tuán)隊(duì)在“飛星一號(hào)”平臺(tái)上對(duì)星火MoE模型、DeepSeekV3/R1進(jìn)行了實(shí)測(cè)。測(cè)試結(jié)果顯示,推理性能相較于上一個(gè)版本有了顯著提升,幾乎逼近了國(guó)產(chǎn)算力上MoE集群推理的性能上限。這一突破性進(jìn)展無(wú)疑為國(guó)產(chǎn)算力在AI領(lǐng)域的應(yīng)用注入了新的活力。