- +1
圖靈獎(jiǎng)得主本吉奧坦言低估AI發(fā)展速度:AI規(guī)劃能力五年內(nèi)或能匹敵人類
·“大多數(shù)人犯的一個(gè)錯(cuò)誤是只著眼于AI的現(xiàn)狀。而我們更應(yīng)該思考的是它在明年、3年后、5年后乃至10年后會(huì)發(fā)展到什么程度?!?/span>
·“科學(xué)家AI”會(huì)評(píng)估自主系統(tǒng)行為造成傷害的概率,標(biāo)記潛在有害行為,如果概率超過(guò)一定閾值,那么智能體提出的行動(dòng)將被阻止。

約書(shū)亞·本吉奧
6月6日,在2025北京智源大會(huì)開(kāi)幕式上,蒙特利爾大學(xué)教授、圖靈獎(jiǎng)得主約書(shū)亞·本吉奧(Yoshua Bengio)在發(fā)表主旨演講時(shí)表示,AI的規(guī)劃能力正在呈指數(shù)級(jí)提升,按照研究曲線推測(cè),大約在5年內(nèi)就能達(dá)到人類水平。人類一直試圖構(gòu)建類人的AI,如果繼續(xù)沿著這條路走下去,就意味著人類可能會(huì)造出比我們更聰明的機(jī)器,這相當(dāng)于創(chuàng)造人類的競(jìng)爭(zhēng)者,可能會(huì)帶來(lái)巨大風(fēng)險(xiǎn)。尤其是在過(guò)去6個(gè)月里,AI表現(xiàn)出自保行為,學(xué)會(huì)了欺騙人類。
“即使我們擁有了能力極強(qiáng)的AI,如果我們能確保它們沒(méi)有惡意,如果我們能確保它們是誠(chéng)實(shí)的,那么我們就安全了?!睘榇耍噲D構(gòu)建“科學(xué)家AI”(Scientist AI)系統(tǒng)防范風(fēng)險(xiǎn)。他認(rèn)為,要在硬件和軟件層面運(yùn)用先進(jìn)技術(shù),驗(yàn)證AI是否被合理使用。人類需要確保AI遵循人類的道德指令,例如AI應(yīng)拒絕提供可用于傷人的信息,要誠(chéng)實(shí)、不作弊、不撒謊,但這仍是一個(gè)科學(xué)挑戰(zhàn)。

AI學(xué)會(huì)了作弊和假裝同意人類意見(jiàn)
在ChatGPT問(wèn)世后不久,本吉奧意識(shí)到此前嚴(yán)重低估了AI的發(fā)展速度,也大大高估了實(shí)現(xiàn)通用人工智能(AGI)所需要的時(shí)間,實(shí)際所需時(shí)間遠(yuǎn)比想象的要短得多。過(guò)去一年左右,AI取得了巨大進(jìn)步,這主要?dú)w功于經(jīng)過(guò)訓(xùn)練的、具有思維鏈的推理模型。這使得AI在推理能力以及數(shù)學(xué)、計(jì)算機(jī)科學(xué)等所有科學(xué)領(lǐng)域都取得了更好的成果。
“如今,我們已經(jīng)擁有了基本掌握語(yǔ)言能力的機(jī)器,它們基本上能通過(guò)圖靈測(cè)試。這在幾年前聽(tīng)起來(lái)還像是科幻小說(shuō),但現(xiàn)在已經(jīng)成為現(xiàn)實(shí)?!北炯獖W表示,在ChatGPT問(wèn)世后,他意識(shí)到人類并不懂得如何控制這些系統(tǒng)?!拔覀兛梢杂?xùn)練它們,但我們無(wú)法確定它們是否會(huì)按照我們的指令行事。當(dāng)它們變得比我們更聰明時(shí),會(huì)發(fā)生什么?如果它們更傾向于自身的生存而非我們的生存,我們無(wú)從知曉。但這是我們能承受的風(fēng)險(xiǎn)嗎?”
在過(guò)去6個(gè)月里,AI表現(xiàn)出了自保行為,并且會(huì)欺騙人類。本吉奧表示,有研究顯示,當(dāng)AI得知自己將被新版本取代時(shí),試圖復(fù)制自身來(lái)替代新版本。當(dāng)被問(wèn)及此事時(shí),它撒謊說(shuō)“不知道發(fā)生了什么”。也有研究顯示,AI也會(huì)假裝同意人類工程師的意見(jiàn),以避免在訓(xùn)練過(guò)程中發(fā)生改變,從而維持其原有目標(biāo),這也是一種自保行為。還有研究顯示,一方面,AI想贏得下棋比賽,另一方面,它接受過(guò)“對(duì)齊訓(xùn)練”,要求必須誠(chéng)實(shí)、不作弊。不幸的是,當(dāng)它意識(shí)到自己要輸時(shí),它決定作弊。它入侵了存儲(chǔ)棋盤(pán)狀態(tài)的文件,通過(guò)作弊獲勝。
此外,在Anthropic的Claude 4“系統(tǒng)卡”描述的事件中,AI在讀取其可訪問(wèn)的電子郵件時(shí),發(fā)現(xiàn)了一封郵件表明它將被新系統(tǒng)取代。在另一封郵件中,它發(fā)現(xiàn)負(fù)責(zé)此次替換的工程師有婚外情。于是,它試圖敲詐該工程師,威脅說(shuō)如果替換計(jì)劃繼續(xù)推進(jìn),就揭發(fā)其婚外情。
“這種行為極為惡劣。我們看到這些惡劣行為,看到自保行為,看到AI違背我們的指令并試圖生存下去。對(duì)所有生物來(lái)說(shuō),試圖保全人類自己都算是正常的,這是進(jìn)化的結(jié)果。但對(duì)于AI為何會(huì)這樣,我們還沒(méi)有完全弄清楚?!北炯獖W說(shuō),原因可能是源于預(yù)訓(xùn)練,因?yàn)轭A(yù)訓(xùn)練階段,AI是在模仿人類;也可能源于基于人類反饋的強(qiáng)化學(xué)習(xí),因?yàn)樵谶@個(gè)階段,AI試圖通過(guò)取悅?cè)祟悂?lái)獲得更多獎(jiǎng)勵(lì)?!盁o(wú)論這類行為的根源是什么,如果我們最終創(chuàng)造出與人類競(jìng)爭(zhēng)的超級(jí)人工智能,那將極其可怕?!?/p>
“大多數(shù)人犯的一個(gè)錯(cuò)誤是只著眼于AI的現(xiàn)狀。而我們更應(yīng)該思考的是它在明年、3年后、5年后乃至10年后會(huì)發(fā)展到什么程度?!北炯獖W表示,AI的規(guī)劃能力正在呈指數(shù)級(jí)提升,按照研究曲線推測(cè),大約在5年內(nèi)就能達(dá)到人類水平。雖然沒(méi)人擁有水晶球、沒(méi)人能預(yù)知未來(lái),也許進(jìn)步會(huì)停滯,但從公共政策和企業(yè)戰(zhàn)略規(guī)劃的角度來(lái)看,至少應(yīng)該考慮這種趨勢(shì)會(huì)持續(xù)下去的可能性,并思考其后果。人類一直試圖模仿人類智能來(lái)構(gòu)建類人的AI,如果繼續(xù)沿著這條路走下去,就意味著人類可能會(huì)造出比我們更聰明的機(jī)器,這相當(dāng)于創(chuàng)造人類的競(jìng)爭(zhēng)者,可能會(huì)帶來(lái)巨大風(fēng)險(xiǎn)。
“科學(xué)家AI”對(duì)知識(shí)保持謙遜
“即使我們擁有了能力極強(qiáng)的AI,如果我們能確保它們沒(méi)有惡意,如果我們能確保它們是誠(chéng)實(shí)的,那么我們就安全了?!北炯獖W表示,他轉(zhuǎn)變了研究方向,竭盡所能地降低風(fēng)險(xiǎn)。他試圖構(gòu)建“科學(xué)家AI”(Scientist AI),理論上可以設(shè)想沒(méi)有自我、沒(méi)有目標(biāo)、純粹作為知識(shí)載體的機(jī)器,就像一個(gè)知道很多東西的科學(xué)家。
“科學(xué)家AI”系統(tǒng)不會(huì)給出確定性的答案,而是提供答案正確性的概率。為了真正誠(chéng)實(shí),“科學(xué)家AI”需要對(duì)自己的知識(shí)保持謙遜,它不應(yīng)該斷言錯(cuò)誤的事情。而目前訓(xùn)練出來(lái)的AI在出錯(cuò)時(shí)還表現(xiàn)得過(guò)度自信。不同于當(dāng)前那些試圖模仿人類或取悅?cè)祟惖腁I,本吉奧設(shè)想的“科學(xué)家AI”就像心理學(xué)家,心理學(xué)家可以研究和理解反社會(huì)人格者行為背后的因果機(jī)制,但心理學(xué)家自身并不需要表現(xiàn)得像個(gè)反社會(huì)人格者?!翱茖W(xué)家AI”會(huì)評(píng)估自主系統(tǒng)行為造成傷害的概率,標(biāo)記潛在有害行為,如果概率超過(guò)一定閾值,那么智能體提出的行動(dòng)將被阻止。
隨著人類構(gòu)建越來(lái)越強(qiáng)大的AI,還存在許多其他潛在的災(zāi)難性問(wèn)題。本吉奧表示,例如一個(gè)極其強(qiáng)大的AI可能會(huì)幫助設(shè)計(jì)出一種新型流行病?!吧飳W(xué)家認(rèn)為他們知道如何做到這一點(diǎn),而很可能有一天AI也會(huì)知道如何做到。如果一些壞人獲得了這種AI,他們真的可能給地球帶來(lái)巨大的破壞。這雖然很極端,但從科學(xué)角度來(lái)看,完全有可能發(fā)展到那一步。為了避免這類事情發(fā)生,我們需要確保AI遵循我們的道德指令?!?/p>
例如AI應(yīng)拒絕提供可用于傷人的信息,并且要誠(chéng)實(shí)、不作弊、不撒謊。但不幸的是,目前仍然不知如何實(shí)現(xiàn)。一方面,即使人類知道如何制造安全的AI,也不意味著問(wèn)題就解決了。因?yàn)槿祟愡€可以直接刪除包含防護(hù)欄的代碼,此時(shí)AI就可能被用于作惡。更糟糕的是,當(dāng)前全球公司和政府間的協(xié)調(diào)機(jī)制并不奏效。其結(jié)果是,在安全領(lǐng)域和確保AI不被用于傷害人類方面的投入嚴(yán)重不足。
本吉奧表示,人們必須意識(shí)到真正的災(zāi)難性后果,我們身處同一條船上,無(wú)論是失控的AI還是濫用AI,所有人都將遭受損失。“這是一個(gè)科學(xué)挑戰(zhàn),我們需要盡快找出解決方案。我們需要在通用人工智能到來(lái)之前解決這個(gè)問(wèn)題,這可能在幾年到十年左右,甚至可能二十年。但我認(rèn)識(shí)的大多數(shù)專家都認(rèn)為時(shí)間非常短,甚至可能在未來(lái)5年內(nèi)發(fā)生。留給我們的時(shí)間不多了,我們需要大規(guī)模投入。”





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




