- +1
AlphaGo之父對(duì)話《連線》:曾被導(dǎo)師勸阻研究強(qiáng)化學(xué)習(xí),如今獲得ACM計(jì)算獎(jiǎng)
曉查 編譯整理
量子位 報(bào)道 | 公眾號(hào) QbitAI
本周,DeepMind的MuZero通過(guò)了同行評(píng)審,發(fā)表在了最新一期的Nature雜志上。
MuZero是一個(gè)通用的游戲AI,它在圍棋、象棋、將棋和57款A(yù)tari游戲上都超過(guò)了人類(lèi)的表現(xiàn)。而且這個(gè)AI事先不需要事先知道規(guī)則。近日,DeepMind的首席科學(xué)家、AlphaGo首席研究員David Silver接受了《連線》雜志的采訪,討論了MuZero、強(qiáng)化學(xué)習(xí)以及對(duì)未來(lái)通用人工智能的看法。
David Silver畢業(yè)于劍橋大學(xué),在那里與DeepMind創(chuàng)始人Demis Hassabis成為朋友。Silver曾領(lǐng)導(dǎo)DeepMind的強(qiáng)化學(xué)習(xí)研究小組,由于在計(jì)算機(jī)游戲領(lǐng)域的突破性進(jìn)展,他獲得了2019年ACM計(jì)算獎(jiǎng)。
為何MuZero很重要
連線:MuZero發(fā)表在Nature雜志上。對(duì)于不了解此事人,告訴我們?yōu)槭裁此苤匾?/p>
David Silver:MuZero向前邁出的重要一步是,我們沒(méi)有告訴它環(huán)境的動(dòng)態(tài)。它必須自己想辦法,讓自己提前計(jì)劃,想出最有效的策略。
我們希望擁有在現(xiàn)實(shí)世界中可以運(yùn)行的算法,而現(xiàn)實(shí)世界卻是復(fù)雜、混亂且未知的。所以你不能只向前看,就像下棋一樣。你必須學(xué)會(huì)這個(gè)世界是如何運(yùn)轉(zhuǎn)的。
一些觀察人士指出,MuZero、AlphaGo和AlphaZero并非真正零開(kāi)始。它們使用聰明人設(shè)計(jì)的算法來(lái)學(xué)習(xí)如何執(zhí)行特定任務(wù)。這是不是錯(cuò)過(guò)了重點(diǎn)?我認(rèn)為確實(shí)如此。從來(lái)沒(méi)有真正的一片空白。機(jī)器學(xué)習(xí)中甚至有一個(gè)定理——沒(méi)有自由午餐定理,就是說(shuō)你必須從某件事開(kāi)始,否則將一事無(wú)成。
但是在這種情況下,它是空白的。我們?yōu)樗峁┝艘粋€(gè)神經(jīng)網(wǎng)絡(luò),而神經(jīng)網(wǎng)絡(luò)必須從游戲的輸贏或或分?jǐn)?shù)的反饋中學(xué)會(huì)如何理解世界。
人們注意到的一件事是,我們告訴MuZero在每種情況下的合法舉動(dòng)。但是,如果你進(jìn)行解決未知問(wèn)題的強(qiáng)化學(xué)習(xí),通常會(huì)告知智能體可以做什么。您必須告訴智能體它有哪些選擇,然后讓它再選擇其中之一。
您可能會(huì)批評(píng)到目前為止我們已經(jīng)做了什么?,F(xiàn)實(shí)世界非常復(fù)雜,我們還沒(méi)有建立像人類(lèi)大腦那樣可以適應(yīng)所有這些事物的東西。所以這是一個(gè)公平的批評(píng)。
但是我認(rèn)為MuZero確實(shí)自己找到了如何建立模型,并且從第一性原理去理解它。
MuZero有何實(shí)際用途
DeepMind最近宣布,已利用AlphaZero背后的技術(shù)解決了一個(gè)重要的實(shí)際問(wèn)題:預(yù)測(cè)蛋白質(zhì)折疊的形狀。你認(rèn)為MuZero將在哪方面產(chǎn)生首個(gè)重大影響?
當(dāng)然,我們正在尋找將MuZero應(yīng)用到現(xiàn)實(shí)世界中的方法,并且有一些令人鼓舞的初步結(jié)果。舉一個(gè)具體的例子,互聯(lián)網(wǎng)上的流量主要是視頻,而一個(gè)開(kāi)放的大問(wèn)題是如何盡可能有效地壓縮這些視頻。您可以將其視為強(qiáng)化學(xué)習(xí)問(wèn)題,因?yàn)橛性S多非常復(fù)雜的程序可以壓縮視頻,但是你接下來(lái)看到的是未知的。
但是當(dāng)你把像MuZero之類(lèi)的東西應(yīng)用于其中時(shí),我們的初步結(jié)果顯示,在節(jié)省大量數(shù)據(jù)方面它看起來(lái)很有希望,可能是壓縮視頻所用比特的5%左右。
從長(zhǎng)遠(yuǎn)來(lái)看,您認(rèn)為強(qiáng)化學(xué)習(xí)對(duì)哪些方面影響最大?
我認(rèn)為有一個(gè)系統(tǒng),可以幫助用戶(hù)盡可能有效地實(shí)現(xiàn)目標(biāo)。一個(gè)真正強(qiáng)大的系統(tǒng),可以看到你看到的所有事物,具有與你相同的感官,能夠幫助你實(shí)現(xiàn)人生目標(biāo)。我認(rèn)為那是非常重要的。
從長(zhǎng)遠(yuǎn)來(lái)看,另一個(gè)變革性的東西可以提供個(gè)性化的醫(yī)療保健解決方案。有一些隱私和道德問(wèn)題需要解決,但是它將具有巨大的變革價(jià)值;它將改變醫(yī)學(xué)的面貌和人們的生活質(zhì)量。
你認(rèn)為機(jī)器在你的有生之年能學(xué)會(huì)做什么嗎?
我不想給它設(shè)定一個(gè)時(shí)間表,但我想說(shuō),人類(lèi)能做到的一切,我最終認(rèn)為機(jī)器都能做到。大腦是一個(gè)計(jì)算過(guò)程,我認(rèn)為那里沒(méi)有任何魔法。
我們能達(dá)到像人腦一樣理解和實(shí)現(xiàn)算法有效和強(qiáng)大的地步嗎?嗯,我不知道時(shí)間表會(huì)是怎樣。但是我認(rèn)為這個(gè)旅程是令人興奮的。
我們應(yīng)該致力于實(shí)現(xiàn)這一目標(biāo)。踏上這段旅程的第一步是試圖理解獲得智慧意味著什么?解決智力問(wèn)題,我們?cè)谂鉀Q什么問(wèn)題?
強(qiáng)化學(xué)習(xí)能否通向人工智能
你是否有信心可以從象棋和Atari等游戲到真正的智能?是什么讓你認(rèn)為強(qiáng)化學(xué)習(xí)會(huì)產(chǎn)生有常識(shí)理解的機(jī)器?
有一個(gè)假設(shè),我們稱(chēng)其為“獎(jiǎng)勵(lì)足夠”假設(shè)。這個(gè)假設(shè)說(shuō),智能的基本過(guò)程可以像一個(gè)尋求最大化其獎(jiǎng)勵(lì)的系統(tǒng)一樣簡(jiǎn)單,而試圖實(shí)現(xiàn)目標(biāo)并試圖最大化獎(jiǎng)勵(lì)的過(guò)程,足以產(chǎn)生我們?cè)谧匀恢悄苤锌吹降乃兄悄軐傩浴?/p>
這是一個(gè)假設(shè),我們不知道它是否正確,但這為研究提供了方向。
如果我們具體地理解常識(shí),那么“獎(jiǎng)勵(lì)足夠”的假設(shè)就很好地說(shuō)明了這一點(diǎn),如果常識(shí)對(duì)系統(tǒng)有用,則意味著它實(shí)際上應(yīng)該幫助它更好地實(shí)現(xiàn)其目標(biāo)。
聽(tīng)起來(lái)您認(rèn)為您的專(zhuān)長(zhǎng)領(lǐng)域強(qiáng)化學(xué)習(xí),在某種意義上是理解或“解決”智力的基礎(chǔ)。是這樣嗎?我真的認(rèn)為這非常必要。我認(rèn)為最大的問(wèn)題是,這是真的嗎?
因?yàn)檫@顯然違背了許多人對(duì)人工智能的看法,即智能中涉及到非常復(fù)雜的機(jī)制集合,每個(gè)機(jī)制都有自己要解決的問(wèn)題或自己特殊的工作方式,或者甚至沒(méi)有任何明確的問(wèn)題定義,比如常識(shí)。
這個(gè)理論說(shuō),不,實(shí)際上可能有一個(gè)非常清晰和簡(jiǎn)單的方法來(lái)思考所有的智能,那就是它是一個(gè)目標(biāo)優(yōu)化系統(tǒng)。如果我們找到了真正優(yōu)化目標(biāo)的方法,那么所有這些其他的東西將會(huì)從這個(gè)過(guò)程中出現(xiàn)。
強(qiáng)化學(xué)習(xí)已經(jīng)存在了數(shù)十年,但有一段時(shí)間似乎是死胡同。實(shí)際上,你的一位導(dǎo)師告訴我,她試圖勸阻你不要從事這項(xiàng)工作。你為什么不理她繼續(xù)往前走?
許多人認(rèn)為,強(qiáng)化學(xué)習(xí)是可以用來(lái)解決在AI中許多問(wèn)題的工具之一。我不這樣認(rèn)為,我把強(qiáng)化學(xué)習(xí)視為整體。如果我們想嘗試并盡可能地描述智能,我認(rèn)為強(qiáng)化學(xué)習(xí)本質(zhì)上是我們真正意義上的智能的特征。
當(dāng)您開(kāi)始以這種方式看它時(shí),我為何不能這樣處理呢?如果這確實(shí)是最接近我們所說(shuō)的智能的東西,那么如果我們解決它,我們就將破解它。
你看看我所做的工作,我將一直致力于解決這個(gè)問(wèn)題。解決諸如圍棋之類(lèi)的問(wèn)題時(shí),在解決它的過(guò)程中,我們了解了智能在此過(guò)程中意味著什么。
你可以認(rèn)為強(qiáng)化學(xué)習(xí)是一種能力,它使一個(gè)智能體能夠獲得所有需要的其他能力。
你可以在類(lèi)似AlphaGo的東西中看到一點(diǎn)點(diǎn),在那里我們要求它做的只是贏得游戲,然而它學(xué)到了人類(lèi)過(guò)去曾專(zhuān)有的知識(shí)——比賽的結(jié)束和開(kāi)局。
算力是否會(huì)限制AI發(fā)展
DeepMind是否有壓力再做一次大型展示,例如AlphaGo?
這是個(gè)好問(wèn)題。這個(gè)問(wèn)題問(wèn)得好。我覺(jué)得我們處于一個(gè)非常有利的位置,因?yàn)槲覀兊奈恢煤唾Y金都很安全,所有這些都非常非常安全。
嘗試進(jìn)行一個(gè)新的大規(guī)模的展示,唯一的壓力是推動(dòng)通用智能的進(jìn)步。這是一種真正的特權(quán),當(dāng)你在創(chuàng)業(yè)公司試圖獲得資金時(shí),或者在學(xué)術(shù)界試圖獲得資助時(shí),你就沒(méi)有這種特權(quán)。
強(qiáng)大的AI系統(tǒng)現(xiàn)在需要大量的計(jì)算機(jī)能力才能工作。你是否擔(dān)心這會(huì)阻礙進(jìn)展?讓我們回到MuZero,這是一個(gè)算法的例子,它可以很好地隨著計(jì)算而伸縮。我們?cè)贏tari進(jìn)行了一項(xiàng)實(shí)驗(yàn),結(jié)果表明即使使用非常少量的計(jì)算(大約相當(dāng)于一個(gè)GPU運(yùn)行幾周),它的效果也非常好,并且獲得了遠(yuǎn)遠(yuǎn)超過(guò)人類(lèi)的性能。
有一些數(shù)字表明,如果把現(xiàn)在能利用的所有計(jì)算能力加起來(lái),就能達(dá)到與人腦相當(dāng)?shù)乃?。所以可能更多的是我們需要想出更聰明的算法?/p>
而MuZero的美妙之處在于,它正在建立自己的模型,開(kāi)始了解世界是如何運(yùn)轉(zhuǎn)的。這種想象力是利用計(jì)算開(kāi)始展望未來(lái),想象接下來(lái)會(huì)發(fā)生什么的一種方式。
人工智能倫理
一些軍火商正在利用強(qiáng)化學(xué)習(xí)來(lái)建造更強(qiáng)的武器系統(tǒng)。你對(duì)此有何感想?你有沒(méi)有想過(guò)你的一些作品不應(yīng)該公開(kāi)發(fā)表?
我反對(duì)在任何致命武器中使用AI,并希望我們?cè)诮怪旅詣?dòng)武器方面取得更多進(jìn)展。DeepMind及其聯(lián)合創(chuàng)始人是《致命自動(dòng)武器承諾》的簽署方,攻擊性技術(shù)應(yīng)始終處于適當(dāng)?shù)娜祟?lèi)控制之下。
然而,我們?nèi)匀幌嘈?,適當(dāng)發(fā)布我們的方法是科學(xué)的基石,通用AI算法的發(fā)展將在眾多積極應(yīng)用中帶來(lái)更大的整體社會(huì)效益。
原文鏈接:
https://www.wired.com/story/what-alphago-teach-how-people-learn/
— 完 —
本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。
原標(biāo)題:《AlphaGo之父對(duì)話《連線》,曾被導(dǎo)師勸阻研究強(qiáng)化學(xué)習(xí),如今獲得ACM計(jì)算獎(jiǎng)》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




