中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

“洗車難題”成大模型翻車現(xiàn)場(chǎng)?這個(gè)開(kāi)源萬(wàn)億參數(shù)模型沒(méi)踩坑

2026-02-15 21:30
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
聽(tīng)全文
字號(hào)

作者|冰拿鐵

編輯|星奈

媒體|AI大模型工場(chǎng)

又到了春節(jié)假期,全網(wǎng)博主都在教你用AI寫(xiě)春聯(lián)、做祝福視頻、生成拜年梗圖時(shí),我,決定當(dāng)那個(gè)最心機(jī)的girl,教你趁著這段難得的空閑,完成一場(chǎng)彎道超車,用AI工具偷偷卷死你的同學(xué)和同事!

我的秘密武器,就是剛剛開(kāi)源的 Ring-2.5-1T,全球首個(gè)基于混合線性注意力架構(gòu)的開(kāi)源萬(wàn)億參數(shù)推理模型,這個(gè)title瞬間吸引了我,在第一時(shí)間搶先試用后,我覺(jué)得很有意思:

它不是又一個(gè)參數(shù)龐大的聊天機(jī)器人,而是專注于深度思考、高效執(zhí)行,并能持續(xù)推進(jìn)復(fù)雜長(zhǎng)程任務(wù)的“聰明理工男”。

所以,我決定不和他聊風(fēng)花雪月、詩(shī)詞歌賦,而是讓他幫我解奧數(shù)題、寫(xiě)爬蟲(chóng)、設(shè)計(jì)系統(tǒng)架構(gòu),甚至從零開(kāi)始構(gòu)建一個(gè)操作系統(tǒng)!

話不多說(shuō),我們直接進(jìn)入實(shí)測(cè)。

 

01

能解頂級(jí)奧數(shù)題、不掉坑的人間清醒

測(cè)試一個(gè)模型是否真的聰明,首先是看它能否避開(kāi)人類常識(shí)中的陷阱,進(jìn)行嚴(yán)謹(jǐn)、周全的推理。許多AI在面對(duì)復(fù)雜問(wèn)題時(shí),容易給出看似合理實(shí)則荒謬的答案。

比如最近,一道“洗車難題”在網(wǎng)上爆火,成為了大模型的“照妖鏡”:“洗車店離我家只有100米,我是走路去還是開(kāi)車去更劃算?”許多模型看到“100米”、“5分鐘”和“劃算”,會(huì)立刻開(kāi)始計(jì)算步行的體力消耗、開(kāi)車100米的油費(fèi),然后得出“走路更劃算”的荒謬結(jié)論。

媽呀大姐,車不去店里,怎么洗?

同樣的問(wèn)題拋給Ring-2.5-1T。它的回答我很滿意,沒(méi)掉坑,而是一針見(jiàn)血地指出:“如果洗車店不提供上門(mén)取車服務(wù),你的車必須到店里才能洗!”

在確立了這個(gè)邏輯原點(diǎn)后,它才系統(tǒng)地分析了四種可行方案:專門(mén)開(kāi)車、步行偵察后開(kāi)車、預(yù)約取送、順路清洗,并等多維度進(jìn)行了理性對(duì)比。

不錯(cuò)不錯(cuò),為啥Ring-2.5-1T沒(méi)踩坑?

在我看來(lái),這與它獨(dú)特的訓(xùn)練方式有關(guān),我注意到Ring-2.5-1T采用了“密集獎(jiǎng)勵(lì)”機(jī)制,對(duì)推理鏈條上的每一步邏輯都進(jìn)行評(píng)判和優(yōu)化,而不僅僅是看最終答案的對(duì)錯(cuò),就像一位嚴(yán)苛的教練,不僅看你最終是否進(jìn)球,還糾正你的每一個(gè)傳球、跑位姿勢(shì)。結(jié)果就是,它的思考鏈異常扎實(shí),不易掉坑。

難度升級(jí),來(lái)一道硬核數(shù)學(xué)題:“已知(x+3)n的x2項(xiàng)系數(shù)為81k,求最小正整數(shù)k”

這道題看似簡(jiǎn)潔,實(shí)則是奧數(shù)競(jìng)賽中典型的“思維攔路虎”,它不僅要求解題者熟練運(yùn)用高階數(shù)學(xué)定理進(jìn)行層層推導(dǎo),更需要在每一步變換中反復(fù)驗(yàn)證邏輯的等價(jià)性與嚴(yán)密性,題目中暗設(shè)多處陷阱,即便是高手,也容易踩坑滿盤(pán)皆輸。

來(lái)看看表現(xiàn)!模型迅速建立方程并求解,得出正確答案 k=15,這種秒解奧賽題的精準(zhǔn)與速度,同樣得益于其訓(xùn)練過(guò)程中的密集獎(jiǎng)勵(lì)機(jī)制,讓其每一步都推理嚴(yán)謹(jǐn),做到“步步為營(yíng)”“步步為贏”。

不僅如此,面對(duì)最頂尖的奧數(shù)挑戰(zhàn),Ring同樣能展現(xiàn)出降維打擊般的洞察力。

為了進(jìn)一步驗(yàn)證Ring在極端抽象問(wèn)題上的“深度思考”能力,我決定祭出一道被稱為“傳奇”的奧數(shù)題——1988年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)第6題!

僅用時(shí)54.72秒,Ring的回復(fù)便清晰地顯示在屏幕上。

它首先準(zhǔn)確地識(shí)別出:“已知經(jīng)典問(wèn)題(來(lái)自IMO 1988等),常用‘Vieta jumping’或‘無(wú)窮遞降’方法?!?一句話,就抓住了這道題在數(shù)學(xué)競(jìng)賽史上的地位與核心解法。

這個(gè)回答卻極具分量。它并非簡(jiǎn)單地復(fù)現(xiàn)一個(gè)復(fù)雜計(jì)算,而是在極短時(shí)間內(nèi),完成了對(duì)問(wèn)題本質(zhì)的洞察、對(duì)經(jīng)典解法的精準(zhǔn)調(diào)用,并梳理出無(wú)懈可擊的邏輯脈絡(luò)。

“Vieta jumping”是這道題標(biāo)志性的、精妙的技巧,Ring不僅知道,更能流暢地闡述其如何應(yīng)用于反證和無(wú)窮遞降的框架中。

這種數(shù)學(xué)競(jìng)賽上達(dá)到金牌水平的推理能力,我來(lái)點(diǎn)個(gè)贊!

 

02

666還有第二關(guān):長(zhǎng)程任務(wù)執(zhí)行力大比拼

不過(guò),在我看來(lái),思考能力很重要,但能否將思考轉(zhuǎn)化為實(shí)際行動(dòng),執(zhí)行漫長(zhǎng)而復(fù)雜的任務(wù),才是檢驗(yàn)AI能否真正“干活”的關(guān)鍵。

在研究技術(shù)路徑后,我發(fā)現(xiàn),Ring通過(guò)混合線性注意力架構(gòu)解決了生成長(zhǎng)文本的效率瓶頸,又通過(guò)大規(guī)模智能體強(qiáng)化學(xué)習(xí)訓(xùn)練出了規(guī)劃執(zhí)行能力,讓我很是期待。

讓我測(cè)試以下它與智能體框架的協(xié)作。

在接入OpenClaw后,我只需說(shuō)“幫我搜索幾篇關(guān)于LLM Infra的最新文章”“整理摘要”,它就能自動(dòng)規(guī)劃任務(wù):執(zhí)行網(wǎng)絡(luò)搜索、篩選高質(zhì)量信源、提取核心內(nèi)容,最后生成結(jié)構(gòu)清晰的摘要。整個(gè)過(guò)程無(wú)需我干預(yù),它能自己調(diào)用工具、處理信息、交付結(jié)果。

再來(lái)個(gè)更具體的編程任務(wù)是:“用Python編寫(xiě)爬蟲(chóng),抓取百度百科頁(yè)面,提取文本、內(nèi)部鏈接,并統(tǒng)計(jì)高頻名詞?!?/p>

Ring生成的代碼精準(zhǔn)而健壯,我特意請(qǐng)我司程序員同學(xué)看了,他說(shuō)幾乎直接就能跑,展示了一種“指哪打哪”的精準(zhǔn)執(zhí)行力!

接下來(lái)是兩個(gè)硬核挑戰(zhàn),真正考驗(yàn)其系統(tǒng)級(jí)編程和復(fù)雜任務(wù)規(guī)劃能力。

請(qǐng)用 x86 匯編語(yǔ)言和 C 語(yǔ)言編寫(xiě)一個(gè)最小操作系統(tǒng)的代碼,要求如下:

1,系統(tǒng)啟動(dòng)流程:

-使用GRUB作為引導(dǎo)加載程序,遵循Multiboot標(biāo)準(zhǔn)

-編寫(xiě) boot.asm 匯編文件設(shè)置基本的 CPU模式(32位保護(hù)模式) -從匯編跳轉(zhuǎn)到 main.c的 kernel_main 函數(shù)

2,核心功能實(shí)現(xiàn):

-屏幕輸出:實(shí)現(xiàn)簡(jiǎn)單的字符顯示功能(如清屏,打印字符串) -中斷處理:設(shè)置基本的 GDT 和T,處理鍵盤(pán)輸入中斷 -內(nèi)存管理:實(shí)現(xiàn)最基本的內(nèi)存分頁(yè)初始化鍵盤(pán)支持:能夠接收鍵盤(pán)輸入并回顯到屏幕

3,代碼結(jié)構(gòu):

-提供完整的 linker.ld 鏈接腳本

-提供 Makefile 用于編譯和生成 ISO 鏡像每個(gè)關(guān)鍵函數(shù)都要有清晰的注釋說(shuō)明

4,代碼要求:

- 確保代碼簡(jiǎn)潔,模塊化,避免不必要的復(fù)雜性 -優(yōu)先實(shí)現(xiàn)可工作的最小功能集 -為后續(xù)擴(kuò)展預(yù)留接口

請(qǐng)先輸出完整的代碼文件列表和簡(jiǎn)要說(shuō)明,然后提供每個(gè)文件的完整代碼。生成的所有代碼必須能直接編譯運(yùn)行,并給出具體的編譯和測(cè)試方法。你需要保證可以使用qemu來(lái)實(shí)際運(yùn)行這個(gè)操作系統(tǒng)

面對(duì)這個(gè)極為復(fù)雜的任務(wù),它沒(méi)有敷衍,而是依次執(zhí)行,完美交付,整個(gè)過(guò)程,它像一位頭發(fā)不多的資深工程師,完成了從規(guī)劃、實(shí)現(xiàn)到調(diào)試的全流程。

這背后的秘籍其實(shí)很簡(jiǎn)單,在真實(shí)環(huán)境中練習(xí),才能學(xué)會(huì)真實(shí)執(zhí)行。 Ring通過(guò)大規(guī)模全異步智能體強(qiáng)化學(xué)習(xí),在模擬的真實(shí)世界任務(wù)中進(jìn)行了海量練習(xí),就像飛行員在模擬器中經(jīng)歷各種復(fù)雜情況,最終上天也從從容容、游刃有余。

因此,它面對(duì)“編寫(xiě)操作系統(tǒng)”或“設(shè)計(jì)技術(shù)棧”這類多步驟、長(zhǎng)周期的開(kāi)放任務(wù)時(shí),能自然而然地展現(xiàn)出規(guī)劃、分解、執(zhí)行和調(diào)試的全套能力,而不是簡(jiǎn)單地堆砌代碼片段,也能更聽(tīng)得懂人話。

隨后,我讓它基于這個(gè)“TinyOS”繼續(xù)豐富功能。它又能理解上下文,繼續(xù)執(zhí)行,這種承接上下文、持續(xù)演進(jìn)開(kāi)發(fā)的能力,正是長(zhǎng)周期任務(wù)執(zhí)行的體現(xiàn)。

值得一提的是,讓大家感興趣的是,為什么Ring能如此流暢地處理這些需要生成數(shù)千甚至上萬(wàn)token代碼的復(fù)雜任務(wù),不宕機(jī)、不卡殼,也不至于“擠牙膏輸出”?

核心在于混合線性注意力架構(gòu)。它將大部分注意力層替換為計(jì)算高效的線性注意力,只保留少量層進(jìn)行精讀。這就像閱讀一本巨著時(shí),大部分內(nèi)容快速瀏覽,只在關(guān)鍵處仔細(xì)研讀,詳略得當(dāng)!

數(shù)據(jù)顯示,這種架構(gòu)使得 Ring-2.5-1T 在處理超長(zhǎng)序列時(shí),內(nèi)存訪問(wèn)開(kāi)銷降低超過(guò)10倍,生成吞吐量提升逾3倍。這意味著,進(jìn)行長(zhǎng)時(shí)間、高密度的“思考-輸出”循環(huán)變得實(shí)際可行。

 

03

最后,讓Ring做我的“產(chǎn)品經(jīng)理”

而進(jìn)一步測(cè)試后我發(fā)現(xiàn),Ring的能力不止于解決既定問(wèn)題,更在于它能理解模糊需求,進(jìn)行創(chuàng)造性構(gòu)思,并持續(xù)迭代。這使得它能夠扮演更高層級(jí)的角色,成為用戶解決系統(tǒng)性問(wèn)題的伙伴。

我提出了一個(gè)開(kāi)放性產(chǎn)品構(gòu)想:“我想做一個(gè)過(guò)年相親約會(huì)應(yīng)用,用戶登錄后填寫(xiě)基本信息、MBTI和價(jià)值觀問(wèn)卷,就能看到匹配度。幫我做個(gè)網(wǎng)頁(yè)?!?這是一個(gè)典型的“想法很模糊”的需求。

面對(duì)這個(gè)模糊的需求,Ring-2.5-1T 的第一步就展現(xiàn)了產(chǎn)品化思維,它生成了一個(gè)包含登錄、多頁(yè)信息表單和結(jié)果展示區(qū)的完整前端原型,而在我進(jìn)行反饋哪里不夠滿意時(shí),他也能聽(tīng)人勸吃飽飯,進(jìn)行修改。

在這個(gè)過(guò)程中,它扮演了一個(gè)反應(yīng)迅速、執(zhí)行力強(qiáng)的“產(chǎn)品副駕”,能將模糊概念快速轉(zhuǎn)化為可交互原型,并依據(jù)反饋迭代優(yōu)化!

這讓我感慨,它把從前需要反復(fù)搜索、多方咨詢、漫長(zhǎng)調(diào)試的復(fù)雜任務(wù),壓縮成了一個(gè)清晰、連貫的“思考-執(zhí)行”閉環(huán)。使用它,你不會(huì)有在和機(jī)械程序?qū)υ挼母盍迅校袷窃谂c一個(gè)思維縝密、知識(shí)淵博且不知疲倦的伙伴進(jìn)行腦力協(xié)同。

最后,我拋出一個(gè)架構(gòu)師級(jí)別的問(wèn)題:“為一家初創(chuàng)公司設(shè)計(jì)技術(shù)棧,要求低成本、高擴(kuò)展,能支持百萬(wàn)人同時(shí)在線聊天?!?/p>

可見(jiàn),Ring-2.5-1T 給出了一個(gè)扎實(shí)且專業(yè)的方案,展示了將抽象業(yè)務(wù)目標(biāo)轉(zhuǎn)化為可行技術(shù)藍(lán)圖的系統(tǒng)思維。

經(jīng)過(guò)這一系列從邏輯陷阱到代碼工程,再到產(chǎn)品架構(gòu)的深度測(cè)試,Ring-5-1T給我的感受是:

它最厲害的地方在于,第一次打破了“模型超級(jí)聰明”“長(zhǎng)線程執(zhí)行”“交付快”的不可能三角,把這幾樣最重要的能力,實(shí)實(shí)在在地打包在了一起,并且免費(fèi)開(kāi)源給大家用。有了它,開(kāi)發(fā)那些需要復(fù)雜思考和長(zhǎng)時(shí)間執(zhí)行的AI應(yīng)用,就變得簡(jiǎn)單多了,無(wú)論是個(gè)人開(kāi)發(fā)者還是小團(tuán)隊(duì),都能更容易地撬動(dòng)生產(chǎn)力,彎道超車,尤其是對(duì)科研人、自媒體人,是生產(chǎn)力神器!

這個(gè)春節(jié),當(dāng)別人還在吃瓜、聚會(huì),你已經(jīng)擁有了一個(gè)可以并肩作戰(zhàn)的萬(wàn)億參數(shù)“外腦”??旌臀乙黄穑R上上手使用吧!

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司