智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡媒體

          中國信通院開啟大模型幻覺測試,涵蓋人文社科等五大維度

             發(fā)布時間:2025-03-19 16:50 作者:馮璃月

          近日,中國信息通信研究院(中國信通院)通過其官方微信公眾號發(fā)布了一項重要舉措,旨在深入探索大型人工智能模型(大模型)的“幻覺”現(xiàn)象,并推動其在實際應用中的安全與可靠性。該舉措基于前期AI Safety Benchmark的測評經(jīng)驗,正式啟動了針對大模型的幻覺測試項目。

          所謂大模型幻覺(AI Hallucination),是指當這些模型在生成文本或回答問題時,可能會創(chuàng)造出看似合理但實際上與用戶輸入不符(即忠實性幻覺)或違背事實(即事實性幻覺)的內(nèi)容。隨著大模型在醫(yī)療、金融等關(guān)鍵行業(yè)的廣泛應用,這種幻覺現(xiàn)象所帶來的潛在風險日益凸顯,引起了業(yè)界的廣泛關(guān)注。

          本次幻覺測試主要針對的是大語言模型,測試內(nèi)容涵蓋了忠實性幻覺和事實性幻覺兩大類型。為了全面評估這些模型,測試數(shù)據(jù)包含了超過7000條中文測試樣本,測試形式則分為信息抽取、知識推理(針對忠實性幻覺)以及事實判別(針對事實性幻覺)等題型。測試維度廣泛,涵蓋了人文科學、社會科學、自然科學、應用科學和形式科學等多個領(lǐng)域。

          具體來看,測試體系的設計旨在通過多樣化的題型和豐富的測試樣本,準確捕捉大模型在不同情境下的幻覺表現(xiàn)。這不僅有助于揭示模型潛在的缺陷,也為后續(xù)的優(yōu)化和改進提供了重要依據(jù)。

          為了推動大模型的安全應用,中國信通院誠摯邀請相關(guān)企業(yè)積極參與此次模型測評。通過共同的努力,旨在提升大模型的準確性和可靠性,降低幻覺現(xiàn)象帶來的應用風險。

          中國信通院還強調(diào)了測試工作的重要性,指出這不僅是對大模型性能的一次全面檢驗,更是推動人工智能領(lǐng)域健康發(fā)展的重要一環(huán)。通過持續(xù)的測試和評估,將有助于提高整個行業(yè)對大模型幻覺現(xiàn)象的認識和應對能力。

           
           
          更多>同類內(nèi)容
          全站最新
          熱門內(nèi)容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數(shù)碼群

          中日韩精品视频在线观看| 国产精品美女网站在线看| 久久精品人人做人人爽| 精品国产呦系列在线观看免费| 日韩蜜芽精品视频在线观看| 国产精品国产三级国产AV麻豆| 91精品视频观看| 久久99久久99精品免视看动漫| 久久96国产精品久久久| 91精品国产色综合久久| 国产精品偷窥熟女精品视频| 日韩AV片无码一区二区不卡| 日韩亚洲国产二区| 国产精品久久久久毛片真精品| 99偷拍视频精品一区二区| 中文精品一区二区三区四区| 国产在视频线精品视频2021| 亚洲精品456在线播放| 91精品国产入口| 青青草原精品99久久精品66| 久久老子午夜精品无码| 久久亚洲国产午夜精品理论片| 中文字幕精品无码久久久久久3D日动漫 | 国产最新进精品视频| 国产午夜精品一区二区| 精品视频在线观看你懂的一区 | 91精品啪在线观看国产| 久久青青草原精品国产软件| 精品国产高清在线拍| 精品第一国产综合精品蜜芽| 国产成人综合久久精品尤物| 亚洲一区精品伊人久久伊人 | 亚洲精品视频久久| 91精品国产成人网在线观看| 3d动漫精品成人一区二区三 | 无码人妻精品一区二区三区99不卡 | 日韩三级草久国产| 日韩人妻一区二区三区免费| 2015日韩永久免费视频播放| 日韩精品中文字幕无码专区| 日韩a视频在线观看|