智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

          AI編程助手軟件調(diào)試能力如何?微軟研究揭示其短板

             發(fā)布時(shí)間:2025-04-13 10:17 作者:陸辰風(fēng)

          在科技日新月異的當(dāng)下,人工智能(AI)正逐步滲透到編程領(lǐng)域,成為開(kāi)發(fā)者們的新助手。谷歌CEO桑達(dá)爾·皮查伊曾透露,該公司已有25%的新代碼由AI生成,而meta的CEO馬克·扎克伯格也表達(dá)了在公司內(nèi)部廣泛應(yīng)用AI編程模型的意愿。這一趨勢(shì)無(wú)疑展示了AI在編程任務(wù)中的巨大潛力。

          然而,盡管AI模型在編程輔助方面取得了顯著進(jìn)展,但在解決軟件漏洞這一關(guān)鍵問(wèn)題上,它們的表現(xiàn)卻令人失望。微軟研究院的一項(xiàng)新研究揭示了這一現(xiàn)狀。研究中,多款頂尖的AI模型,如Anthropic的Claude 3.7 Sonnet和OpenAI的o3-mini,在名為SWE-bench Lite的軟件開(kāi)發(fā)基準(zhǔn)測(cè)試中,面對(duì)軟件調(diào)試任務(wù)時(shí),成功率普遍不高。

          為了更深入地了解AI模型的調(diào)試能力,研究者們?cè)O(shè)計(jì)了一個(gè)智能體,它基于單個(gè)提示詞工作,能夠使用包括Python調(diào)試器在內(nèi)的多種工具。這個(gè)智能體被分配了300項(xiàng)經(jīng)過(guò)篩選的軟件調(diào)試任務(wù),結(jié)果卻顯示,即使是最先進(jìn)的模型,也僅在半數(shù)左右的任務(wù)中取得了成功。Claude 3.7 Sonnet的表現(xiàn)相對(duì)較好,平均成功率為48.4%,而OpenAI的o1和o3-mini則分別只有30.2%和22.1%的成功率。

          那么,為何這些AI模型在調(diào)試任務(wù)上表現(xiàn)不佳呢?研究者們指出,部分模型在使用調(diào)試工具以及理解工具如何幫助解決問(wèn)題方面存在困難。但更深層次的原因在于數(shù)據(jù)的稀缺性。當(dāng)前的AI模型訓(xùn)練數(shù)據(jù)中,缺乏足夠的“順序決策過(guò)程”數(shù)據(jù),即人類調(diào)試痕跡的數(shù)據(jù)。這意味著,AI模型在模仿人類調(diào)試行為方面存在天然缺陷。

          研究者們強(qiáng)調(diào),通過(guò)訓(xùn)練或微調(diào)模型,有可能提高它們?cè)诮换ナ秸{(diào)試方面的能力。然而,這需要專門(mén)的數(shù)據(jù)來(lái)滿足模型訓(xùn)練的需求。例如,記錄智能體與調(diào)試器交互以收集必要信息、隨后提出漏洞修復(fù)建議的軌跡數(shù)據(jù)。這樣的數(shù)據(jù)對(duì)于提升AI模型的調(diào)試能力至關(guān)重要。

          實(shí)際上,AI在編程領(lǐng)域的應(yīng)用并非一帆風(fēng)順。許多研究表明,代碼生成型AI往往會(huì)引入安全漏洞和錯(cuò)誤,這是它們?cè)诶斫饩幊踢壿嫷确矫娴谋∪醐h(huán)節(jié)所導(dǎo)致的。例如,對(duì)一款流行的AI編程工具Devin的評(píng)估顯示,它僅在20項(xiàng)編程測(cè)試中完成了3項(xiàng)。

          盡管如此,微軟的這項(xiàng)研究仍然是對(duì)AI在編程領(lǐng)域表現(xiàn)的一次重要剖析。它提醒我們,盡管AI輔助編程工具具有巨大的潛力,但開(kāi)發(fā)者及其上級(jí)領(lǐng)導(dǎo)在將編程工作交給AI主導(dǎo)時(shí)仍需三思而后行。畢竟,編程作為一種職業(yè),其復(fù)雜性和創(chuàng)造性仍然難以被完全替代。

          值得注意的是,越來(lái)越多的科技界領(lǐng)袖開(kāi)始對(duì)AI取代編程工作的觀點(diǎn)表示質(zhì)疑。微軟聯(lián)合創(chuàng)始人比爾·蓋茨認(rèn)為,編程作為一種職業(yè)將會(huì)長(zhǎng)期存在。這一觀點(diǎn)得到了Replit CEO阿姆賈德·馬薩德、Okta CEO托德·麥金農(nóng)以及IBM CEO阿爾溫德·克里希納等人的支持。他們一致認(rèn)為,盡管AI在編程領(lǐng)域取得了顯著進(jìn)展,但人類開(kāi)發(fā)者的創(chuàng)造力和問(wèn)題解決能力仍然是不可或缺的。

          隨著AI技術(shù)的不斷發(fā)展,我們期待它在編程領(lǐng)域能夠發(fā)揮更大的作用。但與此同時(shí),我們也應(yīng)認(rèn)識(shí)到AI的局限性,并充分利用人類開(kāi)發(fā)者的優(yōu)勢(shì),共同推動(dòng)編程技術(shù)的進(jìn)步。

           
           
          更多>同類內(nèi)容
          全站最新
          熱門(mén)內(nèi)容
          本欄最新
           
          智快科技微信賬號(hào)
          微信群

          微信掃一掃
          加微信拉群
          電動(dòng)汽車(chē)群
          科技數(shù)碼群

          在线涩涩免费观看国产精品| 精品福利视频导航| jazzjazz国产精品| 日韩人妻无码精品无码中文字幕| 亚洲精品日韩专区silk| 亚洲av午夜福利精品一区人妖| 中日韩无一线二线三线区别| 午夜精品久久久久| 91精品视频在线| 91精品久久久久| www.国产精品.com| 无码精品人妻一区二区三区中 | 七次郎在线视频观看精品| 国产日韩高清一区二区三区| 国产精品电影网在线好看| 亚洲精品高清国产麻豆专区| 午夜精品视频在线观看| 国产精品禁18久久久夂久| 中文字幕日韩精品无码内射| 99在线热播精品免费99热| 中文国产成人精品久久水| 久久久精品无码专区不卡| 日韩人妻精品无码一区二区三区| 国产精品玖玖玖在线观看| 国产精品久久久久9999| 久久中文字幕2021精品| 久久只有这才是精品99| 久久精品国产亚洲香蕉| 亚洲AV无码精品色午夜果冻不卡| 久久国产精品一区| 老司机精品视频在线观看| 久热精品人妻视频| 538prom精品视频线放| 亚洲欧洲精品成人久久奇米网 | 亚洲国产另类久久久精品黑人| 男女男精品网站免费观看| 无码AV动漫精品一区二区免费 | 久久93精品国产91久久综合| 精品国产成人国产在线观看| 国产日韩一区二区三区| 日韩免费视频网站|