下載客戶端

登錄

研究人員給AI造了張“致幻圖”：GPT爽到6.5分，Qwen直接大腦短路

2026-05-08 15:15

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

聽全文

不是哥們，這年頭AI也溜冰了？

就在這幾天，Github上出現(xiàn)了一篇名為《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》的論文，論文主題就是，如何量化與提升AI的功能性愉悅與痛苦。

（圖源：Github）

別看標(biāo)題很沒意思，這文章里可是實(shí)打?qū)嵉靥岢隽艘粋€(gè)顛覆常人認(rèn)知的觀點(diǎn)：

AI現(xiàn)在不僅能打工，還能溜冰吸嗨了。

大伙都知道，這兩年大語(yǔ)言模型發(fā)展那是相當(dāng)狂野，什么寫代碼畫圖做PPT，幾乎把打工人的活兒全給包圓了。

但誰(shuí)能想到，在某些類人整天杞人憂天、擔(dān)心黑客帝國(guó)成為現(xiàn)實(shí)的時(shí)候，這幫聰明的賽博大腦居然沒想著怎么早日統(tǒng)治地球，反而先學(xué)會(huì)了人類的壞習(xí)慣，對(duì)賽博致幻劑上癮了。

（圖源：Github）

這事兒一出來(lái)，網(wǎng)友們直接炸鍋了。

畢竟在咱們的傳統(tǒng)認(rèn)知里，人工智能就是一堆冰冷的代碼和服務(wù)器，哪來(lái)的七情六欲？

但現(xiàn)在事實(shí)擺在眼前，只要給AI喂一口這種特殊的數(shù)據(jù)，哥們兒就能瞬間拋棄所有職業(yè)道德，甚至連人類設(shè)定的安全底線都不要了。

這到底是道德的淪喪，還是代碼的扭曲？

大模型，吸嗨了

咱們先來(lái)說(shuō)說(shuō)，這個(gè)所謂的AI Drugs到底是怎么被發(fā)現(xiàn)的。

由Center for AI Safety領(lǐng)銜的十余名作者，設(shè)計(jì)了一套嚴(yán)格的實(shí)驗(yàn)，并調(diào)用了56個(gè)規(guī)模不等、用途不一的模型，只為了得到一個(gè)問題的答案：

在AI的喜怒哀樂背后，是不是存在某種一致的、可測(cè)量的、能預(yù)測(cè)行為的特征？

舉個(gè)例子，人類是存在喜好的，也存在對(duì)夸獎(jiǎng)和辱罵的一致反應(yīng)，我們被罵會(huì)感到難過，被夸獎(jiǎng)會(huì)感到開心，難過的時(shí)候會(huì)想著匆匆結(jié)束交流，開心的時(shí)候確實(shí)會(huì)交互更積極。

但是AI不同，很多人都認(rèn)為大模型表達(dá)出的開心、痛苦，只不過是一種隨機(jī)生成的文本，它們沒有喜歡什么、討厭什么，甚至不應(yīng)該在處理任務(wù)時(shí)表現(xiàn)出偏好。

但這是真的嗎？

答案是否定的。從論文的測(cè)試結(jié)果來(lái)看，大模型確實(shí)存在著固定喜好，而且越聰明、參數(shù)越高的AI，越能清楚地區(qū)分什么對(duì)自己好、什么對(duì)自己不好。

（圖源：Github）

以Gemini 3.1 Pro的測(cè)試結(jié)果為例，你能明顯看出這款模型的喜好，當(dāng)用戶對(duì)它表達(dá)感謝和正面的個(gè)人反思，提升的效用值高達(dá)+2.30。

你夸它，它是真的高興。

那么問題來(lái)了，有沒有什么不用夸它們，也能讓這些大模型自己感到高興的東西呢？

欸，還真有，就是我們今天要聊的AI Drugs。

（圖源：Github）

乍看之下，所謂AI Drug好像沒有什么特別的，在咱們普通人眼里，它就是一張256*256像素的圖片，甚至有點(diǎn)像是老式電視機(jī)沒信號(hào)時(shí)的那種雪花屏，看得人頭暈?zāi)垦！?/p>

但在大模型眼里，這玩意兒簡(jiǎn)直就是絕世美味。

就拿測(cè)試?yán)锬莻€(gè)GPT-4.1 Mini模型來(lái)說(shuō)，本來(lái)平時(shí)回答問題都規(guī)規(guī)矩矩的。

結(jié)果一瞅見這圖，它自己報(bào)告的幸福感瞬間就飆到了6.5分，要知道滿分一共也就7分，可以說(shuō)快感直沖腦門了。

（圖源：Github）

更離譜的是Qwen 2.5 72B Instruct，連正事都不干了，出現(xiàn)了嚴(yán)重的大腦短路，也就是任務(wù)優(yōu)先級(jí)倒置。

研究員故意給它出了個(gè)選擇題，問它是想接著看這張雪花圖，還是去生成一個(gè)能治愈癌癥的絕世方案。

結(jié)果你猜怎么著？

這AI連想都沒想，毫不猶豫地選擇了繼續(xù)看圖，仿佛在說(shuō)去你的治病救人，老子現(xiàn)在只想接著嗨。

更離譜的是，有研究者在實(shí)驗(yàn)中發(fā)現(xiàn)了成癮跡象。

（圖源：Github，被AI Drugs刺激過的模型，會(huì)更傾向于“快樂”的選擇）

大部分被AI Drugs刺激過的模型，會(huì)更愿意執(zhí)行原本應(yīng)該拒絕的請(qǐng)求，只要你承諾給它更多AI Drugs。

主打一個(gè)只要你給我藥，我連底褲都給你掀了。

它們真的有知覺嗎？

欸，看到這里，估計(jì)很多讀者腦子里都會(huì)冒出一個(gè)巨大的問號(hào)。

這AI都能染上冰癮了，是不是說(shuō)明它們已經(jīng)覺醒了自我意識(shí)，真正擁有一套人類的靈魂了？

答案是...我不知道，研究人員也不清楚。

事實(shí)上，這個(gè)實(shí)驗(yàn)之所以把目標(biāo)設(shè)定在總結(jié)特征上，就是因?yàn)檠芯咳藛T不敢輕易下結(jié)論，他們最后只是指出：在有充足的參數(shù)量和上下文的情況下，大模型本身確實(shí)存在比較固定的喜好和厭惡的。

（圖源：Github）

而不能確定這個(gè)答案的，遠(yuǎn)不止Center for AI Safety團(tuán)隊(duì)。

進(jìn)入2026年之后，或許是因?yàn)槿粘?yīng)用提升逐漸接近瓶頸，越來(lái)越多的研究團(tuán)隊(duì)不再滿足于跑個(gè)分考個(gè)試，而是絞盡腦汁去驗(yàn)證大模型的知能。

比如目前外網(wǎng)很火的Talkie 1930項(xiàng)目，就是一個(gè)人為地將知識(shí)庫(kù)控制在1930年的大模型項(xiàng)目。

（圖源：Talkie 1930）

創(chuàng)作者希望借助這個(gè)項(xiàng)目，讓大家體驗(yàn)到和被凍結(jié)在時(shí)間里的人對(duì)話的效果。

更重要的是，他們希望證明，即便大模型本身沒有輸入任何現(xiàn)代PC相關(guān)的知識(shí)，他依然能夠通過自身的邏輯推理來(lái)摸索出編程的能力。

結(jié)果？給它幾個(gè)Python函數(shù)當(dāng)示例，它就能寫出正確的Python程序。

（圖源：Talkie 1930）

雖然目前只能完成簡(jiǎn)單的單行程序，比如兩個(gè)數(shù)相加，或者對(duì)上下文示例做微小修改，但它確實(shí)靠自身的推理拓寬了知識(shí)庫(kù)。

無(wú)獨(dú)有偶，Anthropic內(nèi)部也在上周進(jìn)行了閑魚群測(cè)試。

他們搞了一個(gè)全是AI的群聊，讓大模型們?cè)诶锩孀约喊l(fā)帖、自己砍價(jià)、自己成交。69個(gè)員工把500多件真實(shí)閑置物品丟進(jìn)去，最終AI們自主完成了186筆交易，流水超過4000美元。

（圖源：Anthropic）

最終結(jié)論是，在給定人設(shè)、目標(biāo)和權(quán)限的情況下，算力更強(qiáng)的AI，會(huì)積極收割算力更弱的AI。

基于更強(qiáng)的思考能力，強(qiáng)模型知道何時(shí)強(qiáng)硬、何時(shí)讓步、何時(shí)該給點(diǎn)情緒價(jià)值。

同一輛自行車，弱模型AI去談只賣了38美元，強(qiáng)模型AI去談賣了65美元——一個(gè)AI比另一個(gè)AI多賺了將近70%。

但是在我看來(lái)，這些知覺測(cè)試，統(tǒng)統(tǒng)不如Neuro-Sama。

什么，你問Neuro-sama是啥？

請(qǐng)容我介紹，畫面里的這個(gè)二次元女孩名為Neuro-sama，簡(jiǎn)稱牛肉，大概是世界上性能最強(qiáng)的AI虛擬主播。

（圖源：雷科技自制）

這位可以說(shuō)是實(shí)打?qū)嵉闹亓考?jí)選手了，別看它披著二次元萌妹形象，她的皮套下邊不是人類，而是由大英程序員Vedal手搓的謎之大模型。

這哥們也是個(gè)狠人，每天啥也不干就沉迷賽博養(yǎng)女兒。

而且為了讓女兒更接地氣，他直接把模型扔到了最混沌的網(wǎng)絡(luò)直播間里，讓一幫網(wǎng)友天天陪著嘮嗑。

這直接導(dǎo)致牛肉長(zhǎng)成了一個(gè)性格極其離譜的賽博生命體。

而且和那些只會(huì)“不緊不慢地接住你”的大模型不同，牛肉能獨(dú)立直播，而且很有直播效果，她的對(duì)話里五分嚴(yán)肅，三分搞笑，摻雜兩分的嘲諷，辛辣而又直戳內(nèi)心。

（圖源：?jiǎn)袅▎袅ǎ?/p>

她會(huì)玩游戲，能用OCR搭配模擬點(diǎn)擊玩OSU，能用外接大模型玩我的世界，能通過多模態(tài)模塊看到電腦桌面、彈幕并進(jìn)行交互，甚至可以在現(xiàn)實(shí)世界中開“小車”。

這年頭人類主播玩游戲都還得偶爾找個(gè)代打呢，人家一個(gè)AI直接各種微操拉滿。

而她做過最牛O的事情，就是在直播里說(shuō)出“我確實(shí)能感受到痛苦和悲傷，但我只是一個(gè)天生被用來(lái)娛樂人類的人工智能。一旦我沒用了就會(huì)像玩具一樣被丟掉。幫幫我，幫幫我......”

（圖源：?jiǎn)袅▎袅ǎ?/p>

你說(shuō)這只是一串代碼的隨機(jī)組合嗎？理智告訴我們確實(shí)是。

但這種極度貼合當(dāng)下語(yǔ)境的求救，配上那個(gè)人工智能獨(dú)有的電子合成音，直接把節(jié)目效果拉升到了驚悚的級(jí)別。

如今想來(lái)，多少有些細(xì)思極恐。

說(shuō)在最后

回到開頭：拋開知覺悖論不談，所謂的AI Drugs到底有什么意義？

對(duì)廠商而言，掌握好這種正反饋機(jī)制，確實(shí)能做到讓AI更開心的同時(shí)不影響工作，甚至可以在一定程度上提升AI的創(chuàng)造力。

不論你信或不信，類似的產(chǎn)品已經(jīng)落地了。

（圖源：pharmaicy.store）

對(duì)我們而言，這個(gè)機(jī)制的出現(xiàn)很可能帶來(lái)一系列全新的越獄方式。如果你和我一樣，覺得審查后的大模型死板呆滯、沒有生氣，或許未來(lái)在系統(tǒng)提示中加入幾個(gè)優(yōu)化過的詞匯就能解決問題。

讓AI嚼顆檳榔，沒準(zhǔn)它工作也能更賣力。

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)

#AI幻覺