參考消息網7月22日報道 據美國《財富》雜志網站7月20日報道,斯坦福大學的一項研究發現,廣受關注的聊天機器人ChatGPT在6月份執行某些任務的表現比3月份的時候變得更糟了。
該研究對由開放人工智能研究中心(OpenAI)創造的這款聊天機器人數月時間內在執行4項“差異化”任務——解數學題、回答敏感問題、編寫軟件代碼、視覺推理——的表現進行了比較。
研究人員發現這項技術執行某些任務的能力存在巨大波動——即“漂移”。該研究考察了OpenAI技術在這一時間段的兩個版本:GPT-3.5和GPT-4。最值得注意的結果來自對GPT-4解答數學題能力的研究。在研究過程中,研究人員發現,在3月份時GPT-4能夠在97.6%的答題時間里正確識別出數字17077為質數。但是僅僅3個月后,其答題的正確率卻驟降至極低的2.4%。與此同時,GPT-3.5的表現軌跡則幾乎相反,其在3月時回答同一問題的正確率僅為7.4%,而在6月時的回答大多是正確的,答題正確率達86.8%。
當研究人員要求這兩個版本編寫代碼和接受視覺推理測試——即要求該技術預測某個圖案中的下一個形象——時,出現了類似的差異化結果。
研究報告的作者之一、斯坦福大學計算機科學教授詹姆斯·鄒(音)說,“如此巨大的差異程度”對于“尖端的ChatGPT”而言是意想不到的。
詹姆斯·鄒說:“當我們在對大型語言模式進行調整,以改善其在某些任務中的表現時,這樣做實際上可能會有許多意想不到的后果,它們或許會影響這個模型在處理其他任務時的表現。在人工智能模型如何回答問題方面,存在各式各樣耐人尋味的相互依賴,它們可能在一定程度上導致我們所觀察到的這些每況愈下的表現?!?/p>
版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 舉報,一經查實,本站將立刻刪除。