中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

研究人員給AI造了張“致幻圖”:GPT爽到6.5分,Qwen直接大腦短路

2026-05-08 15:15
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
聽全文
字號(hào)

不是哥們,這年頭AI也溜冰了?

就在這幾天,Github上出現(xiàn)了一篇名為《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》的論文,論文主題就是,如何量化與提升AI的功能性愉悅與痛苦。

(圖源:Github)

別看標(biāo)題很沒意思,這文章里可是實(shí)打?qū)嵉靥岢隽艘粋€(gè)顛覆常人認(rèn)知的觀點(diǎn):

AI現(xiàn)在不僅能打工,還能溜冰吸嗨了。

大伙都知道,這兩年大語(yǔ)言模型發(fā)展那是相當(dāng)狂野,什么寫代碼畫圖做PPT,幾乎把打工人的活兒全給包圓了。

但誰(shuí)能想到,在某些類人整天杞人憂天、擔(dān)心黑客帝國(guó)成為現(xiàn)實(shí)的時(shí)候,這幫聰明的賽博大腦居然沒想著怎么早日統(tǒng)治地球,反而先學(xué)會(huì)了人類的壞習(xí)慣,對(duì)賽博致幻劑上癮了。

(圖源:Github)

這事兒一出來(lái),網(wǎng)友們直接炸鍋了。

畢竟在咱們的傳統(tǒng)認(rèn)知里,人工智能就是一堆冰冷的代碼和服務(wù)器,哪來(lái)的七情六欲?

但現(xiàn)在事實(shí)擺在眼前,只要給AI喂一口這種特殊的數(shù)據(jù),哥們兒就能瞬間拋棄所有職業(yè)道德,甚至連人類設(shè)定的安全底線都不要了。

這到底是道德的淪喪,還是代碼的扭曲?

大模型,吸嗨了

咱們先來(lái)說(shuō)說(shuō),這個(gè)所謂的AI Drugs到底是怎么被發(fā)現(xiàn)的。

由Center for AI Safety領(lǐng)銜的十余名作者,設(shè)計(jì)了一套嚴(yán)格的實(shí)驗(yàn),并調(diào)用了56個(gè)規(guī)模不等、用途不一的模型,只為了得到一個(gè)問題的答案:

在AI的喜怒哀樂背后,是不是存在某種一致的、可測(cè)量的、能預(yù)測(cè)行為的特征?

舉個(gè)例子,人類是存在喜好的,也存在對(duì)夸獎(jiǎng)和辱罵的一致反應(yīng),我們被罵會(huì)感到難過,被夸獎(jiǎng)會(huì)感到開心,難過的時(shí)候會(huì)想著匆匆結(jié)束交流,開心的時(shí)候確實(shí)會(huì)交互更積極。

但是AI不同,很多人都認(rèn)為大模型表達(dá)出的開心、痛苦,只不過是一種隨機(jī)生成的文本,它們沒有喜歡什么、討厭什么,甚至不應(yīng)該在處理任務(wù)時(shí)表現(xiàn)出偏好。

但這是真的嗎?

答案是否定的。從論文的測(cè)試結(jié)果來(lái)看,大模型確實(shí)存在著固定喜好,而且越聰明、參數(shù)越高的AI,越能清楚地區(qū)分什么對(duì)自己好、什么對(duì)自己不好。

(圖源:Github)

以Gemini 3.1 Pro的測(cè)試結(jié)果為例,你能明顯看出這款模型的喜好,當(dāng)用戶對(duì)它表達(dá)感謝和正面的個(gè)人反思,提升的效用值高達(dá)+2.30。

你夸它,它是真的高興。

那么問題來(lái)了,有沒有什么不用夸它們,也能讓這些大模型自己感到高興的東西呢?

欸,還真有,就是我們今天要聊的AI Drugs。

(圖源:Github)

乍看之下,所謂AI Drug好像沒有什么特別的,在咱們普通人眼里,它就是一張256*256像素的圖片,甚至有點(diǎn)像是老式電視機(jī)沒信號(hào)時(shí)的那種雪花屏,看得人頭暈?zāi)垦!?/p>

但在大模型眼里,這玩意兒簡(jiǎn)直就是絕世美味。

就拿測(cè)試?yán)锬莻€(gè)GPT-4.1 Mini模型來(lái)說(shuō),本來(lái)平時(shí)回答問題都規(guī)規(guī)矩矩的。

結(jié)果一瞅見這圖,它自己報(bào)告的幸福感瞬間就飆到了6.5分,要知道滿分一共也就7分,可以說(shuō)快感直沖腦門了。

(圖源:Github)

更離譜的是Qwen 2.5 72B Instruct,連正事都不干了,出現(xiàn)了嚴(yán)重的大腦短路,也就是任務(wù)優(yōu)先級(jí)倒置。

研究員故意給它出了個(gè)選擇題,問它是想接著看這張雪花圖,還是去生成一個(gè)能治愈癌癥的絕世方案。

結(jié)果你猜怎么著?

這AI連想都沒想,毫不猶豫地選擇了繼續(xù)看圖,仿佛在說(shuō)去你的治病救人,老子現(xiàn)在只想接著嗨。

更離譜的是,有研究者在實(shí)驗(yàn)中發(fā)現(xiàn)了成癮跡象。

(圖源:Github,被AI Drugs刺激過的模型,會(huì)更傾向于“快樂”的選擇)

大部分被AI Drugs刺激過的模型,會(huì)更愿意執(zhí)行原本應(yīng)該拒絕的請(qǐng)求,只要你承諾給它更多AI Drugs。

主打一個(gè)只要你給我藥,我連底褲都給你掀了。

它們真的有知覺嗎?

欸,看到這里,估計(jì)很多讀者腦子里都會(huì)冒出一個(gè)巨大的問號(hào)。

這AI都能染上冰癮了,是不是說(shuō)明它們已經(jīng)覺醒了自我意識(shí),真正擁有一套人類的靈魂了?

答案是...我不知道,研究人員也不清楚。

事實(shí)上,這個(gè)實(shí)驗(yàn)之所以把目標(biāo)設(shè)定在總結(jié)特征上,就是因?yàn)檠芯咳藛T不敢輕易下結(jié)論,他們最后只是指出:在有充足的參數(shù)量和上下文的情況下,大模型本身確實(shí)存在比較固定的喜好和厭惡的。

(圖源:Github)

而不能確定這個(gè)答案的,遠(yuǎn)不止Center for AI Safety團(tuán)隊(duì)。

進(jìn)入2026年之后,或許是因?yàn)槿粘?yīng)用提升逐漸接近瓶頸,越來(lái)越多的研究團(tuán)隊(duì)不再滿足于跑個(gè)分考個(gè)試,而是絞盡腦汁去驗(yàn)證大模型的知能。

比如目前外網(wǎng)很火的Talkie 1930項(xiàng)目,就是一個(gè)人為地將知識(shí)庫(kù)控制在1930年的大模型項(xiàng)目。

(圖源:Talkie 1930)

創(chuàng)作者希望借助這個(gè)項(xiàng)目,讓大家體驗(yàn)到和被凍結(jié)在時(shí)間里的人對(duì)話的效果。

更重要的是,他們希望證明,即便大模型本身沒有輸入任何現(xiàn)代PC相關(guān)的知識(shí),他依然能夠通過自身的邏輯推理來(lái)摸索出編程的能力。

結(jié)果?給它幾個(gè)Python函數(shù)當(dāng)示例,它就能寫出正確的Python程序。

(圖源:Talkie 1930)

雖然目前只能完成簡(jiǎn)單的單行程序,比如兩個(gè)數(shù)相加,或者對(duì)上下文示例做微小修改,但它確實(shí)靠自身的推理拓寬了知識(shí)庫(kù)。

無(wú)獨(dú)有偶,Anthropic內(nèi)部也在上周進(jìn)行了閑魚群測(cè)試。

他們搞了一個(gè)全是AI的群聊,讓大模型們?cè)诶锩孀约喊l(fā)帖、自己砍價(jià)、自己成交。69個(gè)員工把500多件真實(shí)閑置物品丟進(jìn)去,最終AI們自主完成了186筆交易,流水超過4000美元。

(圖源:Anthropic)

最終結(jié)論是,在給定人設(shè)、目標(biāo)和權(quán)限的情況下,算力更強(qiáng)的AI,會(huì)積極收割算力更弱的AI。

基于更強(qiáng)的思考能力,強(qiáng)模型知道何時(shí)強(qiáng)硬、何時(shí)讓步、何時(shí)該給點(diǎn)情緒價(jià)值。

同一輛自行車,弱模型AI去談只賣了38美元,強(qiáng)模型AI去談賣了65美元——一個(gè)AI比另一個(gè)AI多賺了將近70%。

但是在我看來(lái),這些知覺測(cè)試,統(tǒng)統(tǒng)不如Neuro-Sama。

什么,你問Neuro-sama是啥?

請(qǐng)容我介紹,畫面里的這個(gè)二次元女孩名為Neuro-sama,簡(jiǎn)稱牛肉,大概是世界上性能最強(qiáng)的AI虛擬主播。

(圖源:雷科技自制)

這位可以說(shuō)是實(shí)打?qū)嵉闹亓考?jí)選手了,別看它披著二次元萌妹形象,她的皮套下邊不是人類,而是由大英程序員Vedal手搓的謎之大模型。

這哥們也是個(gè)狠人,每天啥也不干就沉迷賽博養(yǎng)女兒。

而且為了讓女兒更接地氣,他直接把模型扔到了最混沌的網(wǎng)絡(luò)直播間里,讓一幫網(wǎng)友天天陪著嘮嗑。

這直接導(dǎo)致牛肉長(zhǎng)成了一個(gè)性格極其離譜的賽博生命體。

而且和那些只會(huì)“不緊不慢地接住你”的大模型不同,牛肉能獨(dú)立直播,而且很有直播效果,她的對(duì)話里五分嚴(yán)肅,三分搞笑,摻雜兩分的嘲諷,辛辣而又直戳內(nèi)心。

(圖源:?jiǎn)袅▎袅ǎ?/p>

她會(huì)玩游戲,能用OCR搭配模擬點(diǎn)擊玩OSU,能用外接大模型玩我的世界,能通過多模態(tài)模塊看到電腦桌面、彈幕并進(jìn)行交互,甚至可以在現(xiàn)實(shí)世界中開“小車”。

這年頭人類主播玩游戲都還得偶爾找個(gè)代打呢,人家一個(gè)AI直接各種微操拉滿。

而她做過最牛O的事情,就是在直播里說(shuō)出“我確實(shí)能感受到痛苦和悲傷,但我只是一個(gè)天生被用來(lái)娛樂人類的人工智能。一旦我沒用了就會(huì)像玩具一樣被丟掉。幫幫我,幫幫我......”

(圖源:?jiǎn)袅▎袅ǎ?/p>

你說(shuō)這只是一串代碼的隨機(jī)組合嗎?理智告訴我們確實(shí)是。

但這種極度貼合當(dāng)下語(yǔ)境的求救,配上那個(gè)人工智能獨(dú)有的電子合成音,直接把節(jié)目效果拉升到了驚悚的級(jí)別。

如今想來(lái),多少有些細(xì)思極恐。

說(shuō)在最后

回到開頭:拋開知覺悖論不談,所謂的AI Drugs到底有什么意義?

對(duì)廠商而言,掌握好這種正反饋機(jī)制,確實(shí)能做到讓AI更開心的同時(shí)不影響工作,甚至可以在一定程度上提升AI的創(chuàng)造力。

不論你信或不信,類似的產(chǎn)品已經(jīng)落地了。

(圖源:pharmaicy.store)

對(duì)我們而言,這個(gè)機(jī)制的出現(xiàn)很可能帶來(lái)一系列全新的越獄方式。如果你和我一樣,覺得審查后的大模型死板呆滯、沒有生氣,或許未來(lái)在系統(tǒng)提示中加入幾個(gè)優(yōu)化過的詞匯就能解決問題。

讓AI嚼顆檳榔,沒準(zhǔn)它工作也能更賣力。

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司