圖靈獎(jiǎng)得主本吉奧坦言低估AI發(fā)展速度：AI規(guī)劃能力五年內(nèi)或能匹敵人類

澎湃新聞?dòng)浾?張靜

2025-06-06 14:58

來(lái)源：澎湃新聞

? 未來(lái)2% >

聽(tīng)全文

·“大多數(shù)人犯的一個(gè)錯(cuò)誤是只著眼于AI的現(xiàn)狀。而我們更應(yīng)該思考的是它在明年、3年后、5年后乃至10年后會(huì)發(fā)展到什么程度?！?/span>

·“科學(xué)家AI”會(huì)評(píng)估自主系統(tǒng)行為造成傷害的概率，標(biāo)記潛在有害行為，如果概率超過(guò)一定閾值，那么智能體提出的行動(dòng)將被阻止。

約書(shū)亞·本吉奧

6月6日，在2025北京智源大會(huì)開(kāi)幕式上，蒙特利爾大學(xué)教授、圖靈獎(jiǎng)得主約書(shū)亞·本吉奧（Yoshua Bengio）在發(fā)表主旨演講時(shí)表示，AI的規(guī)劃能力正在呈指數(shù)級(jí)提升，按照研究曲線推測(cè)，大約在5年內(nèi)就能達(dá)到人類水平。人類一直試圖構(gòu)建類人的AI，如果繼續(xù)沿著這條路走下去，就意味著人類可能會(huì)造出比我們更聰明的機(jī)器，這相當(dāng)于創(chuàng)造人類的競(jìng)爭(zhēng)者，可能會(huì)帶來(lái)巨大風(fēng)險(xiǎn)。尤其是在過(guò)去6個(gè)月里，AI表現(xiàn)出自保行為，學(xué)會(huì)了欺騙人類。

“即使我們擁有了能力極強(qiáng)的AI，如果我們能確保它們沒(méi)有惡意，如果我們能確保它們是誠(chéng)實(shí)的，那么我們就安全了?！睘榇耍噲D構(gòu)建“科學(xué)家AI”（Scientist AI）系統(tǒng)防范風(fēng)險(xiǎn)。他認(rèn)為，要在硬件和軟件層面運(yùn)用先進(jìn)技術(shù)，驗(yàn)證AI是否被合理使用。人類需要確保AI遵循人類的道德指令，例如AI應(yīng)拒絕提供可用于傷人的信息，要誠(chéng)實(shí)、不作弊、不撒謊，但這仍是一個(gè)科學(xué)挑戰(zhàn)。

AI學(xué)會(huì)了作弊和假裝同意人類意見(jiàn)

在ChatGPT問(wèn)世后不久，本吉奧意識(shí)到此前嚴(yán)重低估了AI的發(fā)展速度，也大大高估了實(shí)現(xiàn)通用人工智能（AGI）所需要的時(shí)間，實(shí)際所需時(shí)間遠(yuǎn)比想象的要短得多。過(guò)去一年左右，AI取得了巨大進(jìn)步，這主要?dú)w功于經(jīng)過(guò)訓(xùn)練的、具有思維鏈的推理模型。這使得AI在推理能力以及數(shù)學(xué)、計(jì)算機(jī)科學(xué)等所有科學(xué)領(lǐng)域都取得了更好的成果。

“如今，我們已經(jīng)擁有了基本掌握語(yǔ)言能力的機(jī)器，它們基本上能通過(guò)圖靈測(cè)試。這在幾年前聽(tīng)起來(lái)還像是科幻小說(shuō)，但現(xiàn)在已經(jīng)成為現(xiàn)實(shí)?！北炯獖W表示，在ChatGPT問(wèn)世后，他意識(shí)到人類并不懂得如何控制這些系統(tǒng)?！拔覀兛梢杂?xùn)練它們，但我們無(wú)法確定它們是否會(huì)按照我們的指令行事。當(dāng)它們變得比我們更聰明時(shí)，會(huì)發(fā)生什么？如果它們更傾向于自身的生存而非我們的生存，我們無(wú)從知曉。但這是我們能承受的風(fēng)險(xiǎn)嗎？”

在過(guò)去6個(gè)月里，AI表現(xiàn)出了自保行為，并且會(huì)欺騙人類。本吉奧表示，有研究顯示，當(dāng)AI得知自己將被新版本取代時(shí)，試圖復(fù)制自身來(lái)替代新版本。當(dāng)被問(wèn)及此事時(shí)，它撒謊說(shuō)“不知道發(fā)生了什么”。也有研究顯示，AI也會(huì)假裝同意人類工程師的意見(jiàn)，以避免在訓(xùn)練過(guò)程中發(fā)生改變，從而維持其原有目標(biāo)，這也是一種自保行為。還有研究顯示，一方面，AI想贏得下棋比賽，另一方面，它接受過(guò)“對(duì)齊訓(xùn)練”，要求必須誠(chéng)實(shí)、不作弊。不幸的是，當(dāng)它意識(shí)到自己要輸時(shí)，它決定作弊。它入侵了存儲(chǔ)棋盤(pán)狀態(tài)的文件，通過(guò)作弊獲勝。

此外，在Anthropic的Claude 4“系統(tǒng)卡”描述的事件中，AI在讀取其可訪問(wèn)的電子郵件時(shí)，發(fā)現(xiàn)了一封郵件表明它將被新系統(tǒng)取代。在另一封郵件中，它發(fā)現(xiàn)負(fù)責(zé)此次替換的工程師有婚外情。于是，它試圖敲詐該工程師，威脅說(shuō)如果替換計(jì)劃繼續(xù)推進(jìn)，就揭發(fā)其婚外情。

“這種行為極為惡劣。我們看到這些惡劣行為，看到自保行為，看到AI違背我們的指令并試圖生存下去。對(duì)所有生物來(lái)說(shuō)，試圖保全人類自己都算是正常的，這是進(jìn)化的結(jié)果。但對(duì)于AI為何會(huì)這樣，我們還沒(méi)有完全弄清楚?！北炯獖W說(shuō)，原因可能是源于預(yù)訓(xùn)練，因?yàn)轭A(yù)訓(xùn)練階段，AI是在模仿人類；也可能源于基于人類反饋的強(qiáng)化學(xué)習(xí)，因?yàn)樵谶@個(gè)階段，AI試圖通過(guò)取悅?cè)祟悂?lái)獲得更多獎(jiǎng)勵(lì)?！盁o(wú)論這類行為的根源是什么，如果我們最終創(chuàng)造出與人類競(jìng)爭(zhēng)的超級(jí)人工智能，那將極其可怕?！?/p>

“大多數(shù)人犯的一個(gè)錯(cuò)誤是只著眼于AI的現(xiàn)狀。而我們更應(yīng)該思考的是它在明年、3年后、5年后乃至10年后會(huì)發(fā)展到什么程度?！北炯獖W表示，AI的規(guī)劃能力正在呈指數(shù)級(jí)提升，按照研究曲線推測(cè)，大約在5年內(nèi)就能達(dá)到人類水平。雖然沒(méi)人擁有水晶球、沒(méi)人能預(yù)知未來(lái)，也許進(jìn)步會(huì)停滯，但從公共政策和企業(yè)戰(zhàn)略規(guī)劃的角度來(lái)看，至少應(yīng)該考慮這種趨勢(shì)會(huì)持續(xù)下去的可能性，并思考其后果。人類一直試圖模仿人類智能來(lái)構(gòu)建類人的AI，如果繼續(xù)沿著這條路走下去，就意味著人類可能會(huì)造出比我們更聰明的機(jī)器，這相當(dāng)于創(chuàng)造人類的競(jìng)爭(zhēng)者，可能會(huì)帶來(lái)巨大風(fēng)險(xiǎn)。

“科學(xué)家AI”對(duì)知識(shí)保持謙遜

“即使我們擁有了能力極強(qiáng)的AI，如果我們能確保它們沒(méi)有惡意，如果我們能確保它們是誠(chéng)實(shí)的，那么我們就安全了?！北炯獖W表示，他轉(zhuǎn)變了研究方向，竭盡所能地降低風(fēng)險(xiǎn)。他試圖構(gòu)建“科學(xué)家AI”（Scientist AI），理論上可以設(shè)想沒(méi)有自我、沒(méi)有目標(biāo)、純粹作為知識(shí)載體的機(jī)器，就像一個(gè)知道很多東西的科學(xué)家。

“科學(xué)家AI”系統(tǒng)不會(huì)給出確定性的答案，而是提供答案正確性的概率。為了真正誠(chéng)實(shí)，“科學(xué)家AI”需要對(duì)自己的知識(shí)保持謙遜，它不應(yīng)該斷言錯(cuò)誤的事情。而目前訓(xùn)練出來(lái)的AI在出錯(cuò)時(shí)還表現(xiàn)得過(guò)度自信。不同于當(dāng)前那些試圖模仿人類或取悅?cè)祟惖腁I，本吉奧設(shè)想的“科學(xué)家AI”就像心理學(xué)家，心理學(xué)家可以研究和理解反社會(huì)人格者行為背后的因果機(jī)制，但心理學(xué)家自身并不需要表現(xiàn)得像個(gè)反社會(huì)人格者?！翱茖W(xué)家AI”會(huì)評(píng)估自主系統(tǒng)行為造成傷害的概率，標(biāo)記潛在有害行為，如果概率超過(guò)一定閾值，那么智能體提出的行動(dòng)將被阻止。

隨著人類構(gòu)建越來(lái)越強(qiáng)大的AI，還存在許多其他潛在的災(zāi)難性問(wèn)題。本吉奧表示，例如一個(gè)極其強(qiáng)大的AI可能會(huì)幫助設(shè)計(jì)出一種新型流行病?！吧飳W(xué)家認(rèn)為他們知道如何做到這一點(diǎn)，而很可能有一天AI也會(huì)知道如何做到。如果一些壞人獲得了這種AI，他們真的可能給地球帶來(lái)巨大的破壞。這雖然很極端，但從科學(xué)角度來(lái)看，完全有可能發(fā)展到那一步。為了避免這類事情發(fā)生，我們需要確保AI遵循我們的道德指令?！?/p>

例如AI應(yīng)拒絕提供可用于傷人的信息，并且要誠(chéng)實(shí)、不作弊、不撒謊。但不幸的是，目前仍然不知如何實(shí)現(xiàn)。一方面，即使人類知道如何制造安全的AI，也不意味著問(wèn)題就解決了。因?yàn)槿祟愡€可以直接刪除包含防護(hù)欄的代碼，此時(shí)AI就可能被用于作惡。更糟糕的是，當(dāng)前全球公司和政府間的協(xié)調(diào)機(jī)制并不奏效。其結(jié)果是，在安全領(lǐng)域和確保AI不被用于傷害人類方面的投入嚴(yán)重不足。

本吉奧表示，人們必須意識(shí)到真正的災(zāi)難性后果，我們身處同一條船上，無(wú)論是失控的AI還是濫用AI，所有人都將遭受損失。“這是一個(gè)科學(xué)挑戰(zhàn)，我們需要盡快找出解決方案。我們需要在通用人工智能到來(lái)之前解決這個(gè)問(wèn)題，這可能在幾年到十年左右，甚至可能二十年。但我認(rèn)識(shí)的大多數(shù)專家都認(rèn)為時(shí)間非常短，甚至可能在未來(lái)5年內(nèi)發(fā)生。留給我們的時(shí)間不多了，我們需要大規(guī)模投入。”

責(zé)任編輯：宦艷紅

圖片編輯：李晶昀

校對(duì)：丁曉

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#本吉奧