下載客戶(hù)端

登錄

AI極簡(jiǎn)史：文字如何生出萬(wàn)物？

澎湃新聞?dòng)浾?舒怡爾張澤紅

2022-12-29 11:58

來(lái)源：澎湃新聞

聽(tīng)全文

哈羅德·科恩花了 42 年把 AARON 鑄成“另一半自己”。它是一段被畫(huà)家造出來(lái)的計(jì)算機(jī)程序，或許也可以叫做 AI 系統(tǒng)。先是花了 20 年學(xué)會(huì)黑白簡(jiǎn)筆畫(huà)，1995 年，它第一次表演上色，以一個(gè)龐大的機(jī)器模樣（長(zhǎng) 2.4 米，寬 1.8 米）。它先用機(jī)械臂上的鋼筆勾勒線條，然后在調(diào)色板上混合顏料，創(chuàng)造出自定義的顏色，再使用筆刷進(jìn)行涂抹，就好像在機(jī)床上織布。2016 年，科恩去世，AARON 也停止了呼吸。

他們都沒(méi)見(jiàn)到《太空歌劇院》的誕生，這幅 AI 作的畫(huà)在藝術(shù)比賽上拿了一等獎(jiǎng)。2022 年，使喚 AI 畫(huà)畫(huà)變得格外簡(jiǎn)單——只要會(huì)打字就行。AI 畫(huà)畫(huà)也不再是一筆一筆地勾勒線條、涂抹顏色，而是像一臺(tái)反應(yīng)有點(diǎn)遲緩的彩色電視機(jī)，從一片灰白雪花噪聲中慢慢地騰出畫(huà)面。

AARON創(chuàng)作的首幅上色作品，1995

《太空歌劇院》，使用AI工具M(jìn)idjourney創(chuàng)作，2022

不過(guò)，恰好是在科恩去世的 2016 年，AI 畫(huà)畫(huà)所依托的“文本生成圖像”（text to image）技術(shù)在深度學(xué)習(xí)領(lǐng)域邁出了第一步，小小的一步——生成比豆腐塊還小的極模糊的圖像，仔細(xì)一看，還很拙劣。比方說(shuō)讓它畫(huà)一只站在草地上的羊，它就在綠色背景中放置一個(gè)灰色的不明形狀的物體，就像一塊污漬。

Generative Adversarial text to image synthesis, 2016

這些小豆腐塊兒的光芒還是太微弱了。

但 AI 的步速很快。2017年，基于 GAN 的偽造人臉已經(jīng)可以以假亂真。2020年，擴(kuò)散模型（Diffusion Model）降低了圖像生成模型的訓(xùn)練難度，還能生成比 GAN 更多元的圖像。2021年，OpenAI 推出了 CLIP，它學(xué)到了文本和圖像之間的對(duì)應(yīng)關(guān)系。2022 年，AI 畫(huà)家誕生，不過(guò)沒(méi)想到，這不是 2022 年最重要的 AI 新聞。

還是先讓我們回到 2016 年吧。這一年最大的新聞是，谷歌旗下的人工智能公司 DeepMind 創(chuàng)造的 AlphaGO 以 4:1 擊敗了韓國(guó)傳奇棋手李世石，人們仿佛看到原本只存在于科幻小說(shuō)的強(qiáng)大的人工智能，在棋盤(pán)上空活了過(guò)來(lái)。

同一年，或許普通人沒(méi)有太過(guò)在意，一家成立僅有半年的新公司 OpenAI（盡管它出身煊赫，是由特斯拉的創(chuàng)始人馬斯克聯(lián)合其他硅谷明星投資人注入 10 億美金創(chuàng)立的非營(yíng)利機(jī)構(gòu)）宣布，他們的長(zhǎng)遠(yuǎn)目標(biāo)之一，是開(kāi)發(fā)對(duì)人類(lèi)友好的通用人工智能系統(tǒng)，簡(jiǎn)單來(lái)說(shuō)，這個(gè)系統(tǒng)能像人一樣推理和反應(yīng)從而讓人以為它是人。作為一個(gè)非營(yíng)利組織，該公司的第一份聲明稱(chēng)，公司要“為所有人而非股東創(chuàng)造價(jià)值”。

技術(shù)在往前發(fā)展。2017 年誕生了 Transformer，如今看來(lái)，那是個(gè)極其重要的時(shí)刻。

這個(gè)和變形金剛同名的小玩意兒是由谷歌團(tuán)隊(duì)創(chuàng)造的一種全新的模型結(jié)構(gòu)，同樣威力巨大。它能更好的理解上下文，更重要的是，此前 NLP （自然語(yǔ)言處理）的主流模型 RNN 天生是個(gè)時(shí)序結(jié)構(gòu)，處理起句子來(lái)就好像在只開(kāi)了一個(gè)窗口的銀行排長(zhǎng)隊(duì)，處理完上一個(gè)詞才能處理下一個(gè)，而 Transformer 對(duì)句子里的每個(gè)詞可以同時(shí)進(jìn)行處理，也就是所謂的并行化。它為后來(lái)的暴力出奇跡的大模型時(shí)代提供了可能性。

此前深度學(xué)習(xí)的主流仍是使用有標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練，效果好，但代價(jià)高昂。比如說(shuō)一句話的情緒是積極還是消極？為了打上準(zhǔn)確的標(biāo)簽，研究者必須付錢(qián)請(qǐng)人來(lái)做。于是數(shù)據(jù)集的規(guī)模一直沒(méi)法大幅度提升。既然 Transformer 能很好地消化上下文的內(nèi)容，2018年，GPT、BERT 開(kāi)始利用大規(guī)模的無(wú)標(biāo)簽的數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練，在這個(gè)階段，它們或是給定一串詞讓模型預(yù)測(cè)下一個(gè)詞是什么，或是干脆在句子中間挖掉一個(gè)詞，讓模型重新給填上，如此這般，把價(jià)格更為低廉的無(wú)標(biāo)簽的文字引入了模型的訓(xùn)練。

OpenAI 的創(chuàng)始人之一 Sam Altman 接受《紐約客》采訪時(shí)曾說(shuō)：“成為一臺(tái)機(jī)器有一定的優(yōu)勢(shì)。人類(lèi)被輸入-輸出率所限制，每秒只學(xué)習(xí) 2 比特，丟失大量數(shù)據(jù)。而對(duì)機(jī)器而言，我們看起來(lái)肯定像是被減速的鯨歌?！?BERT 用了 3300M 的文字來(lái)做預(yù)訓(xùn)練，這些文字來(lái)自書(shū)本和維基百科，質(zhì)量較高，即使對(duì)人來(lái)說(shuō)可能要看上幾年時(shí)間，對(duì)機(jī)器來(lái)講，仍算克制。

和 Open AI 推出的初代 GPT 相比，谷歌研發(fā)的 BERT 是更風(fēng)光的那個(gè)，因?yàn)榻?jīng)過(guò)有標(biāo)簽的數(shù)據(jù)微調(diào)之后，它的表現(xiàn)更佳。BERT 很快被用來(lái)改進(jìn)谷歌的搜索引擎，被谷歌描述為“搜索歷史上最大的飛躍”。

模型更大，效果就會(huì)更好，用于取得突破性成果的計(jì)算資源每 3、4 個(gè)月翻一番。OpenAI 需要足夠的資本來(lái)匹配或超過(guò)這種指數(shù)級(jí)增長(zhǎng)，“在經(jīng)濟(jì)上維持一個(gè)非營(yíng)利組織是站不住腳的”。2019 年 3 月，OpenAI 通過(guò)設(shè)立一個(gè)利潤(rùn)上限（投資者的回報(bào)率不得超過(guò) 100 倍）掀掉了 “非營(yíng)利組織”的帽子。不久之后，它宣布了微軟的 10 億美金投資。從此也背上了一定的商業(yè)化壓力。

OpenAI 在 2019 年推出了 GPT-2，一個(gè)更大版本的 GPT-1，反響平平，在 2020 年推出了 GPT-3，一個(gè)更大版本的 GPT-2，終于大力出奇跡，激起千層浪。據(jù)專(zhuān)業(yè)測(cè)算，訓(xùn)練一個(gè) GPT-3 模型的第一階段需要“355 個(gè) GPU 年”，僅這一階段的訓(xùn)練費(fèi)用高達(dá) 450 萬(wàn)美元。

微軟為 OpenAI 提供著資金和算力支持。2021 年 OpenAI 發(fā)表的 CLIP 模型學(xué)會(huì)了圖片和其文字描述的對(duì)應(yīng)關(guān)系，啟發(fā)了很多后續(xù)應(yīng)用，包括 AI 畫(huà)畫(huà)。

2022年中，OpenAI 放出了它神乎其技的 AI 畫(huà)家，DALL-E 2，但只進(jìn)行了小規(guī)模內(nèi)測(cè)。于是它的低配版——DALL-E mini 變成了網(wǎng)友們趁手的新玩具，它聽(tīng)得懂人話，生成的圖片雖然粗糙但是有趣，一時(shí)間成了互聯(lián)網(wǎng)上的“梗圖之王”。當(dāng)時(shí)少有大眾覺(jué)得 AI 能做出真的藝術(shù)創(chuàng)造，頂多拿來(lái)解悶罷了。僅過(guò)了一個(gè)多月，Midjourney、Stable Diffusion 和 DALL-E 2等 AI 畫(huà)畫(huà)工具接連向公眾開(kāi)放，人們終于意識(shí)到，AI 能畫(huà)畫(huà)，而且畫(huà)得超乎想象的好。設(shè)計(jì)師會(huì)失業(yè)么？畫(huà)家又如何看待這件事？到處都是這樣的討論。

但站在 2022 年的末尾談 AI 畫(huà)畫(huà)，已經(jīng)感到有些過(guò)時(shí)了。ChatGPT 搶走了這些 AI 畫(huà)家的風(fēng)頭。

這個(gè)聊天機(jī)器人是鬼精靈，玩游戲、寫(xiě)代碼、講心靈雞湯，無(wú)所不能，甚至還能寫(xiě)點(diǎn)小詩(shī)（盡管很平庸）。它能記住對(duì)話，進(jìn)入情景，遵從指令，還展現(xiàn)了初級(jí)的推理能力，讓人感嘆“圖靈測(cè)試已經(jīng)被畫(huà)上了句點(diǎn)”。有研究者評(píng)論“ChatGPT / GPT-3.5 是一種劃時(shí)代的產(chǎn)物，它與之前常見(jiàn)的語(yǔ)言模型的區(qū)別，幾乎是導(dǎo)彈與弓箭的區(qū)別”。

ChatGPT 當(dāng)然還不完美，也談不上能馬上取代搜索引擎，因?yàn)樗傻拇鸢高€時(shí)有錯(cuò)誤。也有消息稱(chēng)，此前谷歌內(nèi)部已經(jīng)開(kāi)發(fā)出了強(qiáng)大的聊天機(jī)器人，但出于安全考慮，尚未對(duì)公眾開(kāi)放。大公司的謹(jǐn)慎給了小公司機(jī)會(huì)，Stability AI，這家公司 8 月份推出“文本轉(zhuǎn)為圖片”的生成器（Stable Diffusion），已經(jīng)融資 1.01 億美元。

無(wú)論如何，OpenAI 離他們 2016 年立下的那個(gè)長(zhǎng)遠(yuǎn)目標(biāo)更近了。人們因?yàn)榭匆?jiàn)了 ChatGPT 所以相信。2016 年 Sam Altman 接受《紐約客》采訪時(shí)把一個(gè)人工智能算法比作一個(gè)人類(lèi)嬰兒，“嬰兒學(xué)習(xí)任何有意義的事情都要好幾年”，而他認(rèn)為 OpenAI 的使命是“照顧好自己的「神童」，一直等到他可以由世界來(lái)「撫養(yǎng)」”。按照這個(gè)約定，他們已經(jīng)照顧了 GPT 系列 4 年。

人工智能的奇點(diǎn)臨近了，很多人這樣講。就好像站在一塊不斷隆起的土地上，不知道明天它會(huì)把你帶向何方?；蛟S我們每個(gè)人都要經(jīng)歷那個(gè)在自己最引以為傲的事情上被 AI 打敗的時(shí)刻，正如 6 年前李世石和 AlphaGO 交鋒的第一局，他撫摸棋盒邊緣，終于落白子投降的那一刻。那一場(chǎng)的裁判，同樣被 AlphaGO 打敗的歐洲圍棋冠軍杯的冠軍樊麾說(shuō)，AlphaGo 是面鏡子，在它面前棋手不得不直面赤身裸體的自己。

或許通用人工智能到來(lái)的時(shí)候，所有人都不得不直面那個(gè)最簡(jiǎn)單的問(wèn)題，我是誰(shuí)？

文本還可以生出這些……

文本生文本、文本生圖像，已然不稀奇。讓我們來(lái)談點(diǎn)更時(shí)髦的吧，那些快要破土而出的新技術(shù)，文本可以生出萬(wàn)物。

首先，逃離平面，文本能生成 3D 模型了。

OpenAI, Point·E

不僅如此，谷歌聲稱(chēng)，他們能用極少的圖片（甚至單張圖片）生成 3D 模型，拳打腳踢攝影測(cè)量法。

Google, 3DiM(01:14)

稍微偏離一點(diǎn)兒軌道，寫(xiě)一段描述，AI 能生成對(duì)應(yīng)的聲效。比如，“在風(fēng)中吹口哨”“警報(bào)聲和嗡嗡作響的引擎接近后又走遠(yuǎn)”。

Meta AI, AudioGen(00:50)

不管你信不信，AI 還能根據(jù)配樂(lè)起舞?；蛟S不久之后，AI 就能給 KPOP 編舞了。

Stanford University, EDGE(00:05)

步子邁得大一些，當(dāng)然，已經(jīng)有人在讓 AI 做視頻了，盡管還很短。

Google, Imagen Video(00:05)

為視頻創(chuàng)作者提供 AI 工具的網(wǎng)站 Runway 宣布舉辦第一屆 AI 電影節(jié)，要求電影的核心需要為AI生成。是的，AI已經(jīng)走到這一步了。

毫無(wú)疑問(wèn)，未來(lái)，AI 的文本煉金術(shù)能讓創(chuàng)作的成本變得更低，人們可以不太費(fèi)力地得到符合工業(yè)水準(zhǔn)的產(chǎn)品。Joe Penna，一個(gè)電影導(dǎo)演，為了生成電影需要用到的特定的演員、地點(diǎn)、道具，他和朋友們一起開(kāi)發(fā)了 DreamBooth 的民間版本，它能夠做到輸入文字，生成關(guān)于特定事物（比如你家沙發(fā)上的一只玩具小熊）的一組圖像。漫畫(huà)家，或者畫(huà)工拙劣的編劇，也完全可以將 AI 當(dāng)做自己的草稿本，由此掀開(kāi)他的“宏偉巨著”。

我們還做了這些……

這一年，我們做了一系列關(guān)于 AI 的報(bào)道。其中一些，可能已經(jīng)過(guò)時(shí)了。

標(biāo)題黨的終極形態(tài)是怎樣的？我們用AI做了個(gè)實(shí)驗(yàn)

天下苦標(biāo)題黨久矣。以 AI 為鏡子，我們能從標(biāo)題中看出人們?cè)鯓拥臒o(wú)意識(shí)偏見(jiàn)？

騙過(guò)百萬(wàn)網(wǎng)友的AI照片，你分辨得出來(lái)嗎？

AI 生成的照片已經(jīng)能以假亂真，你能分辨得出來(lái)嗎？（連事實(shí)核查記者都錯(cuò)了一道！）

這個(gè)“雙11”，我被AI促銷(xiāo)電話轟炸

AI 飛入尋常百姓家，首先飛進(jìn)促銷(xiāo)電話里。

告訴我，到底要操作多少步才能找到人工客服？

AI 還是我們通往人工客服路上的惡狠狠的絆腳石。

幫學(xué)生寫(xiě)論文拿了“A”的AI，究竟寫(xiě)得怎么樣？

AI 幫學(xué)生寫(xiě)論文拿了 A ，于是我們便去試了試它。AI 生成觀點(diǎn)型文章大差不差，但是對(duì)于事實(shí)卻時(shí)常有錯(cuò)漏。已經(jīng)有新技術(shù)在幫助解決這個(gè)問(wèn)題，比如 RETRO Transformer 和 WebGPT。