參考消息網(wǎng)7月22日報(bào)道 據(jù)美國《財(cái)富》雜志網(wǎng)站7月20日報(bào)道,斯坦福大學(xué)的一項(xiàng)研究發(fā)現(xiàn),廣受關(guān)注的聊天機(jī)器人ChatGPT在6月份執(zhí)行某些任務(wù)的表現(xiàn)比3月份的時(shí)候變得更糟了。
該研究對由開放人工智能研究中心(OpenAI)創(chuàng)造的這款聊天機(jī)器人數(shù)月時(shí)間內(nèi)在執(zhí)行4項(xiàng)“差異化”任務(wù)——解數(shù)學(xué)題、回答敏感問題、編寫軟件代碼、視覺推理——的表現(xiàn)進(jìn)行了比較。
研究人員發(fā)現(xiàn)這項(xiàng)技術(shù)執(zhí)行某些任務(wù)的能力存在巨大波動(dòng)——即“漂移”。該研究考察了OpenAI技術(shù)在這一時(shí)間段的兩個(gè)版本:GPT-3.5和GPT-4。最值得注意的結(jié)果來自對GPT-4解答數(shù)學(xué)題能力的研究。在研究過程中,研究人員發(fā)現(xiàn),在3月份時(shí)GPT-4能夠在97.6%的答題時(shí)間里正確識(shí)別出數(shù)字17077為質(zhì)數(shù)。但是僅僅3個(gè)月后,其答題的正確率卻驟降至極低的2.4%。與此同時(shí),GPT-3.5的表現(xiàn)軌跡則幾乎相反,其在3月時(shí)回答同一問題的正確率僅為7.4%,而在6月時(shí)的回答大多是正確的,答題正確率達(dá)86.8%。
當(dāng)研究人員要求這兩個(gè)版本編寫代碼和接受視覺推理測試——即要求該技術(shù)預(yù)測某個(gè)圖案中的下一個(gè)形象——時(shí),出現(xiàn)了類似的差異化結(jié)果。
研究報(bào)告的作者之一、斯坦福大學(xué)計(jì)算機(jī)科學(xué)教授詹姆斯·鄒(音)說,“如此巨大的差異程度”對于“尖端的ChatGPT”而言是意想不到的。
詹姆斯·鄒說:“當(dāng)我們在對大型語言模式進(jìn)行調(diào)整,以改善其在某些任務(wù)中的表現(xiàn)時(shí),這樣做實(shí)際上可能會(huì)有許多意想不到的后果,它們或許會(huì)影響這個(gè)模型在處理其他任務(wù)時(shí)的表現(xiàn)。在人工智能模型如何回答問題方面,存在各式各樣耐人尋味的相互依賴,它們可能在一定程度上導(dǎo)致我們所觀察到的這些每況愈下的表現(xiàn)。”
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。