智快網 - 新科技與新能源行業網絡媒體

          月之暗面Kimi發布Moonlight模型:參數高達30億至160億,性能大幅提升

             發布時間:2025-02-24 09:12 作者:蘇婉清

          近期,人工智能領域迎來了一項引人注目的技術創新。知名技術團隊月之暗面Kimi發布了一項關于Muon優化器的新技術報告,并隨之推出了名為“Moonlight”的混合專家模型(MoE)。這款模型在Muon優化器的基礎上進行了訓練,擁有30億至160億不等的參數規模。

          Moonlight模型在訓練過程中采用了5.7萬億個token的數據量,并且在減少浮點運算次數(FLOPs)的同時,實現了卓越的性能表現。這一成果不僅提升了帕累托效率邊界,更為大規模的語言模型訓練提供了新的思路。

          月之暗面團隊表示,Muon優化器通過引入權重衰減和精細調整每個參數更新幅度的技術,實現了在大規模訓練中的高效應用。這些創新技術使得Muon優化器無需繁瑣的超參數調優,即可直接應用于實際訓練任務。

          據團隊介紹,在擴展法則實驗中,Muon優化器相較于計算最優訓練的AdamW優化器,實現了約2倍的計算效率提升。這一顯著優勢使得Muon優化器在處理大規模數據集時更加得心應手。

          本次發布的Moonlight模型采用了名為Moonlight-16B-A3B的具體配置,總參數量達到15.29B,其中激活參數為2.24B。在5.7T token的訓練數據支持下,Moonlight模型展現出了卓越的性能表現,不僅突破了當前的Pareto前沿,還在大幅減少FLOPs的情況下實現了比以往模型更優的性能。

          為了方便其他研究人員和開發者利用這一創新成果,月之暗面團隊還開源了一個分布式版本的Muon實現。該實現在內存使用和通信效率上都進行了優化,旨在提高整體性能和易用性。團隊還發布了預訓練模型、經過指令調優的模型以及中間訓練檢查點,為未來的研究工作提供了有力支持。

          對于對這項技術感興趣的研究人員和開發者來說,可以通過訪問GitHub和Hugging Face平臺,獲取更多關于Moonlight模型和Muon優化器的詳細信息。

           
           
          更多>同類內容
          全站最新
          熱門內容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數碼群

          精品国产91久久久久久久a | 亚洲日韩精品一区二区三区 | 久久久午夜精品理论片| 国产成人99久久亚洲综合精品| 日韩在线观看免费完整版视频| 久久九九有精品国产23百花影院| 国产精品国产午夜免费福利看| 亚洲国产精品一区第二页| 日韩AV无码精品人妻系列| 精品国产男人的天堂久久| 久热爱精品视频线路一| 91大神精品全国在线观看| 99ri在线精品视频| 久久一本精品久久精品66| 国内精品伊人久久久久AV影院 | 91精品国产91| 亚洲精品亚洲人成在线观看| 国产精品高清2021在线 | 久久的精品99精品66| 久久精品成人免费网站| 国产在线精品一区二区三区直播| 精品久久久无码中文字幕天天| 国产成人无码精品一区在线观看 | 久久精品成人免费网站| 亚洲精品美女久久久久99| 少妇人妻偷人精品一区二区| 中国大陆精品视频XXXX| assbbwbbwbbwbbwbw精品| 亚洲精品中文字幕乱码三区| 99久久精品影院老鸭窝| 中文字幕久热精品视频在线| 999精品视频这里只有精品| 国产成人亚洲精品狼色在线 | 国产精品久久久久AV福利动漫| 久久99国产精品久久99| 国产精品久久久久jk制服| 三上悠亚久久精品| 久久久99精品一区二区| 亚洲国产日韩综合久久精品| 亚洲精品国产日韩| 天天爽夜夜爽8888视频精品|