智快網 - 新科技與新能源行業網絡媒體

          英偉達推出6.3萬億Token AI訓練數據庫,能否重塑大語言模型訓練格局?

             發布時間:2025-01-13 21:49 作者:顧青青

          英偉達公司近日在其官方博客上宣布了一項重大進展,推出了一款名為Nemotron-CC的大型英文AI訓練數據庫。這一數據庫規模龐大,包含了6.3萬億個Token,其中1.9萬億為精心合成的數據。據英偉達介紹,這一數據庫旨在為學術界和企業界提供更為強大的資源,以推動大語言模型的訓練進程。

          當前,AI模型的性能在很大程度上依賴于其訓練數據的質量和數量。然而,現有的公開數據庫在規模和質量上往往存在限制,難以滿足日益增長的訓練需求。英偉達表示,Nemotron-CC正是為了解決這一難題而生。該數據庫不僅規模巨大,而且包含大量經過驗證的高質量數據,被視為訓練大型語言模型的理想選擇。

          為了驗證Nemotron-CC的性能,英偉達進行了多項測試。結果顯示,與目前業界領先的公開英文訓練數據庫DCLM相比,使用Nemotron-CC-HQ訓練的模型在MMLU基準測試中的分數提高了5.6分。使用Nemotron-CC訓練的80億參數模型也在MMLU和ARC-Challenge等多個基準測試中取得了顯著的成績提升。

          在進一步測試中,該80億參數模型在MMLU基準測試中分數提升了5分,在ARC-Challenge基準測試中提升了3.1分,并在10項不同任務的平均表現中提高了0.5分。這一成績甚至超越了基于Llama 3訓練數據集開發的Llama 3.1 8B模型,充分展示了Nemotron-CC在訓練大型語言模型方面的優勢。

          英偉達在開發Nemotron-CC的過程中,采用了多種先進技術來確保數據的高質量和多樣性。例如,他們使用了模型分類器和合成數據重述等技術來優化數據處理流程。同時,他們還針對特定高質量數據降低了傳統的啟發式過濾器處理權重,從而進一步提高了數據庫中高質量Token的數量,并避免了對模型精確度造成損害。

          英偉達已經將Nemotron-CC訓練數據庫在Common Crawl網站上公開。用戶可以通過訪問該網站來獲取這一數據庫。英偉達還表示,相關文檔文件將在稍晚時候在其GitHub頁面上公布。這將為更多研究人員和開發者提供便利,推動大語言模型的進一步發展。

           
           
          更多>同類內容
          全站最新
          熱門內容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數碼群

          国产乱人伦偷精品视频下| 亚洲精品久久久久无码AV片软件| 国产精品片在线观看手机版| 亚洲AV日韩AV天堂一区二区三区| 精品国产中文字幕| 亚洲国产精品无码久久| 精品久久久无码人妻中文字幕| 小辣椒福利视频精品导航| 国产精品网站在线观看免费传媒| 国产午夜精品一区二区三区不卡| 合区精品中文字幕| 日韩亚洲人成网站| 久久精品国产亚洲av日韩| 亚洲无码日韩精品第一页| 国产精品美女网站在线看| 高清国产精品久久| 精品亚洲国产成人av| 国产成人午夜精品影院游乐网| 国产精品天天影视久久综合网 | 久久亚洲精品国产精品黑人| 国产成人麻豆亚洲综合无码精品 | 亚洲国产精品人人做人人爱| 亚洲欧美日韩国产成人| 日韩精品一区二区三区大桥未久 | 中国国产成人精品久久| 精品午夜国产人人福利| 青草热在线精品视频99app| 无码日韩人妻精品久久| 青青草99热这里都是精品| 五月天婷亚洲天综合网精品偷| 无码人妻一区二区三区精品视频| 免费国产在线精品一区| 亚洲国产成人精品女人久久久 | 久久久无码精品亚洲日韩蜜臀浪潮| 久久精品视频免费看| 久久久精品免费视频| 少妇精品久久久一区二区三区| 久久亚洲伊人中字综合精品| 99久久综合精品国产| 337p日本欧洲亚洲大胆精品555588| 亚洲自偷精品视频自拍|