- +1
GPT-4震撼發(fā)布:有4個驚喜,但仍有3個遺憾
一覺醒來,萬眾期待的GPT-4終于發(fā)布了,我們來看看他都有哪些迭代,給了我們哪些驚喜,又有哪些還沒解決的問題呢?作為一個重要的迭代升級版本,GPT-4相對于上一代而言,在多個性能上有顯著的提升,這沒有讓我們失望。具體來看,關鍵的升級主要是以下幾個方面:
驚喜1、文字輸入限制提升至2.5萬字
上一個版本,輸入的文字不能超過3000字,而GPT-4將這一限制提升到了2.5萬字。這個提升,將進一步擴展其應用范圍。輸入的不再限制于問題,用戶可以直接輸入文本內(nèi)容,比如一篇文章甚至一篇報告。
驚喜2、可以輸入圖片了
上一代產(chǎn)品只能輸入文本內(nèi)容,此次更新升級,可以輸入圖片內(nèi)容了。
比如,在此次發(fā)布的GPT-4,展示了下面這個例子。
用戶:這張圖有什么好笑的?
GPT-4:該圖顯示了帶有三個面板的“Lightning Cable”適配器的包裝。
圖片1:帶有 VGA 連接器(一種大的藍色 15 針連接器,通常用于計算機顯示器)的智能手機已插入其充電端口。
圖片 2:“Lightning Cable”適配器的包裝,上面有 VGA 連接器的圖片。
圖片 3:VGA 連接器特寫,末端有一個小型閃電連接器(用于為 iPhone 和其他 Apple 設備充電)。
這張圖片中的幽默來自將過時的大型 VGA 連接器插入小型現(xiàn)代智能手機充電端口的荒謬做法。
從這個例子可以看出,GPT-4可以可以“理解”圖片的特征,而且可以理解多個圖片之間的關聯(lián)關系,并可以依據(jù)用戶的指令,來將圖片的特征描述出來。
在相關性能參數(shù)方面,GPT-4的表現(xiàn)也可圈可點,具體對比如下表:

驚喜3、更聰明、更準確
為了了解這兩種模型之間的差異,OpenAI在各種基準測試上進行了實驗,包括最初為人類設計的模擬考試。OpenAI繼續(xù)使用最新的公開測試(在奧林匹克和AP免費回答問題的情況下)或購買2022-2023版的模擬考試。
測試結(jié)果如下:

可以發(fā)現(xiàn),當任務的復雜性達到足夠的閾值時,GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意,并且能夠處理更細微的指令。
此外,OpenAI還在為機器學習模型設計的傳統(tǒng)基準測試上評估了 GPT-4。GPT-4 的性能大大優(yōu)于現(xiàn)有的大型語言模型,以及大多數(shù)最先進的 (SOTA) 模型,具體比較如下表:
驚喜4、深度學習堆??深A測性的擴展
對于像 GPT-4 這樣的大模型,進行廣泛的模型調(diào)整是不可行的。因此,模型的可擴展性就具有重要的價值。
OpenAI在模型的可擴展性方面不斷探索,并在GPT-4 有重要的升級。為了驗證GPT-4 的可擴展性,OpenAI通過從使用相同方法訓練但使用少 10000 倍計算的模型進行推斷,準確預測了 GPT-4 在內(nèi)部代碼庫的最終損失,結(jié)果如下圖:
從上述結(jié)果可以發(fā)現(xiàn),GPT-4 可以用更少的計算量來實現(xiàn)更準確的預測。此外,OpenAI成功預測了HumanEval數(shù)據(jù)集子集的通過率,從計算量減少 1000 倍的模型推斷,其結(jié)果如下:
接下來,OpenAI在Inverse Scaling Prize上進行了測試,其結(jié)果如下:
可以發(fā)現(xiàn),GPT-4 的表現(xiàn)要比GPT-3.5好很多。然而,GPT-4并不是完美的,他依然還存在很多待解的問題,或者說是此次發(fā)布的遺憾。
遺憾1、參數(shù)規(guī)模沒有大規(guī)模提升
GPT-4是一個大規(guī)模預訓練模型,對于大模型而言,參數(shù)規(guī)模往往是一個關鍵指標。一般情況下,更大的參數(shù)規(guī)模意味著更強的技術能力。
在此前不久,業(yè)界就在流傳GPT-4將在參數(shù)規(guī)模上有大幅度提升,甚至傳言將達到100萬億級的參數(shù)規(guī)模,這也拉高了業(yè)界的期待。
此次發(fā)布的GPT-4,并沒有公布準確的參數(shù)規(guī)模。如果參數(shù)規(guī)模提升了一個數(shù)量級,OpenAI肯定會大肆宣揚一番,并將其作為GPT-4的一個關鍵突破。既然沒說,那大概率就是沒有大的改進。
遺憾2、一個假的多模態(tài),不能生成圖片、視頻
大模型的發(fā)展趨勢,除了更好的性能表現(xiàn)外,一個關鍵的突破就是多模態(tài)。所謂多模態(tài),就是文字、圖片、視頻、語音這些不同模態(tài)的信息之間的相互轉(zhuǎn)換。比如,輸入一段文字內(nèi)容,AI應用可以依據(jù)文字描述來自動生成一幅畫甚至是一個視頻。
ChatGPT是很強大,但他的強大只表現(xiàn)在文字領域,還不能跨模態(tài)。GPT-4的一個關鍵升級就是多模態(tài),業(yè)界最期待的也是這個。然而,此次發(fā)布的GPT-4卻有點失望,他在多模態(tài)上有點突破,可以輸入圖片內(nèi)容,但是輸出的卻還只能是文字。用戶最期待的圖片、視頻生成,他沒能實現(xiàn),這是一個巨大的遺憾。
遺憾3、“發(fā)瘋”問題有改善,但沒徹底解決
ChatGPT在使用過程中,偶爾會遇到“發(fā)瘋”的情況,變得胡言亂語,這給微軟帶來了不小的麻煩。那么,GPT-4把這個問題解決了么?
根據(jù)測試結(jié)果來看,這個問題有改善,但還沒能徹底解決。
OpenAI承認,GPT-4 與早期的 GPT 模型具有相似的局限性,它仍然不完全可靠,可能會存在推理錯誤。
但是,但 GPT-4 相對于以前的模型已經(jīng)有比較顯著的改善了。OpenAI對不同模型進行了內(nèi)部對抗性真實性測試,具體來看,進行了涵蓋學習、技術、寫作、歷史、數(shù)學、可惜等九類測試,準確度為 1.0 意味著模型的答案被判斷為與人類理想回答一致。
OpenAI將GPT-4 與ChatGPT-V2、ChatGPT-V3、ChatGPT-V4進行了比較,最終結(jié)果如下:
在OpenAI的內(nèi)部對抗性真實性評估中,GPT-4的得分比我們最新的GPT-3.5高40%。之后,OpenAI在TruthfulQA等外部基準,測試了模型將事實與對抗性選擇的一組錯誤陳述分開的能力。
根據(jù)結(jié)果來看,GPT-4僅比GPT-3.5好一點點,并沒有顯著的提升。此次發(fā)布會,除了GPT-4本身技術性能的提升以外,還有一個很重要的看點,那就是其商業(yè)化進展。從微軟近期的動作來看,他是準備在GPT-4基礎上大干一場。在數(shù)據(jù)猿先前發(fā)布的文章《先用ChatGPT革自己的命,然后干翻所有人!微軟要“梭哈”了!》中,整理了微軟近期將ChatGPT與其業(yè)務體系整合的情況,可以發(fā)現(xiàn),微軟的很多業(yè)務都已經(jīng)可以看到ChatGPT的身影。
大規(guī)模預訓練模型這個賽道異常熱鬧,尤其是OpenAI可以說已經(jīng)成為科技界的明星。然而,大模型的競賽才剛剛開始,鹿死誰手猶未可知。GPT-4再好,也是別人的東西,我們當然更期待中國自己的大模型。
正好,百度將在明天(3月16日)發(fā)布文心一言,讓我們小小期待一下吧。
所以,壓力給到百度了。
往期精彩文章:
先用ChatGPT革自己的命,然后干翻所有人!微軟要“梭哈”了!
★關注數(shù)據(jù)猿公眾號,后臺回復“GPT4技術報告”獲取最新98頁報告原文。
文:月滿西樓 / 數(shù)據(jù)猿
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




