欧美三级中文视频在线观看_快穿被c翻校园h_国产A级理论片不卡顿_国产日韩在线视看第一页

聊天機器人ChatGPT能力波動(dòng):質(zhì)數識別準確率下降


(資料圖片)

斯坦福大學(xué)的一項新研究發(fā)現,熱門(mén)生成式人工智能(AI)聊天機器人ChatGPT的能力在幾個(gè)月內有所波動(dòng)。研究人員評估了ChatGPT在幾個(gè)月內如何處理不同的任務(wù),發(fā)現ChatGPT的能力隨時(shí)間推移而出現不一致。目前,ChatGPT有兩個(gè)版本,免費的GPT-3.5模型和更智能、更快速的付費GPT-4版本。研究人員發(fā)現,GPT-4在3月份能夠有效地解決數學(xué)問(wèn)題,識別質(zhì)數的準確率為97.6%。但三個(gè)月后,其準確率下降到了2.4%。而另一方面,GPT-3.5卻變得更好,從7.4%的準確率提高到了86.8%。研究人員還注意到,在編寫(xiě)代碼和視覺(jué)推理方面也有類(lèi)似的波動(dòng)。斯坦福大學(xué)計算機科學(xué)教授James Zou表示:“當我們調整一個(gè)大型語(yǔ)言模型來(lái)提高它在某些任務(wù)上的表現時(shí),那可能會(huì )有很多意想不到的后果,可能會(huì )損害這個(gè)模型在其他任務(wù)上的表現……這個(gè)模型回答問(wèn)題的方式有各種各樣的相互依賴(lài)性,這可能導致我們觀(guān)察到的一些惡化行為?!毖芯咳藛T認為,結果并不能真正反映ChatGPT性能的準確性狀態(tài),而是顯示了微調模型帶來(lái)的意外后果。本質(zhì)上,當修改模型的一部分來(lái)改善一個(gè)任務(wù)時(shí),其他任務(wù)可能會(huì )受到影響。為什么會(huì )這樣很難確定,因為沒(méi)有人知道ChatGPT是如何運作的,而且它的代碼也不是開(kāi)源的。隨著(zhù)時(shí)間的推移,研究人員注意到,ChatGPT的回答不僅變得不太準確,而且還停止了解釋其推理過(guò)程。由于ChatGPT的運作方式,要研究和衡量其表現可能很困難。這項研究強調了觀(guān)察和評估驅動(dòng)ChatGPT等工具的大型語(yǔ)言模型(LLM)性能變化的必要性。該研究已經(jīng)在arXiv上發(fā)布,并正在等待同行評審。

推薦DIY文章
性?xún)r(jià)比提升30%+,火山引擎第三代AMD實(shí)例 ECS g3a邀測上線(xiàn)
場(chǎng)景化新品登場(chǎng),北汽藍谷蓄力增長(cháng)新周期
北京衛星制造廠(chǎng)科技園:網(wǎng)紅“北京城市更新最佳實(shí)踐”打卡地
姿素華品牌全面煥新,苦參堿成分洗頭水正式上市
全新門(mén)派“萬(wàn)靈山莊”首曝 《劍網(wǎng)3》十四周年發(fā)布會(huì )全回顧
刷新全智能手表體驗上限,OPPO Watch 4 Pro發(fā)布:2199元起
精彩新聞

超前放送