下載客戶端

登錄

GPT-4震撼發(fā)布：有4個驚喜，但仍有3個遺憾

2023-03-15 15:36

來源：澎湃新聞·澎湃號·湃客

聽全文

一覺醒來，萬眾期待的GPT-4終于發(fā)布了，我們來看看他都有哪些迭代，給了我們哪些驚喜，又有哪些還沒解決的問題呢？

作為一個重要的迭代升級版本，GPT-4相對于上一代而言，在多個性能上有顯著的提升，這沒有讓我們失望。具體來看，關鍵的升級主要是以下幾個方面：

驚喜1、文字輸入限制提升至2.5萬字

上一個版本，輸入的文字不能超過3000字，而GPT-4將這一限制提升到了2.5萬字。這個提升，將進一步擴展其應用范圍。輸入的不再限制于問題，用戶可以直接輸入文本內(nèi)容，比如一篇文章甚至一篇報告。

驚喜2、可以輸入圖片了

上一代產(chǎn)品只能輸入文本內(nèi)容，此次更新升級，可以輸入圖片內(nèi)容了。

比如，在此次發(fā)布的GPT-4，展示了下面這個例子。

用戶：這張圖有什么好笑的？

GPT-4：

該圖顯示了帶有三個面板的“Lightning Cable”適配器的包裝。

圖片1：帶有 VGA 連接器（一種大的藍色 15 針連接器，通常用于計算機顯示器）的智能手機已插入其充電端口。

圖片 2：“Lightning Cable”適配器的包裝，上面有 VGA 連接器的圖片。

圖片 3：VGA 連接器特寫，末端有一個小型閃電連接器（用于為 iPhone 和其他 Apple 設備充電）。

這張圖片中的幽默來自將過時的大型 VGA 連接器插入小型現(xiàn)代智能手機充電端口的荒謬做法。

從這個例子可以看出，GPT-4可以可以“理解”圖片的特征，而且可以理解多個圖片之間的關聯(lián)關系，并可以依據(jù)用戶的指令，來將圖片的特征描述出來。

在相關性能參數(shù)方面，GPT-4的表現(xiàn)也可圈可點，具體對比如下表：

驚喜3、更聰明、更準確

為了了解這兩種模型之間的差異，OpenAI在各種基準測試上進行了實驗，包括最初為人類設計的模擬考試。OpenAI繼續(xù)使用最新的公開測試（在奧林匹克和AP免費回答問題的情況下）或購買2022-2023版的模擬考試。

測試結(jié)果如下：

可以發(fā)現(xiàn)，當任務的復雜性達到足夠的閾值時，GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意，并且能夠處理更細微的指令。

此外，OpenAI還在為機器學習模型設計的傳統(tǒng)基準測試上評估了 GPT-4。GPT-4 的性能大大優(yōu)于現(xiàn)有的大型語言模型，以及大多數(shù)最先進的（SOTA）模型，具體比較如下表：

驚喜4、深度學習堆?？深A測性的擴展

對于像 GPT-4 這樣的大模型，進行廣泛的模型調(diào)整是不可行的。因此，模型的可擴展性就具有重要的價值。

OpenAI在模型的可擴展性方面不斷探索，并在GPT-4 有重要的升級。為了驗證GPT-4 的可擴展性，OpenAI通過從使用相同方法訓練但使用少 10000 倍計算的模型進行推斷，準確預測了 GPT-4 在內(nèi)部代碼庫的最終損失，結(jié)果如下圖：

從上述結(jié)果可以發(fā)現(xiàn)，GPT-4 可以用更少的計算量來實現(xiàn)更準確的預測。

此外，OpenAI成功預測了HumanEval數(shù)據(jù)集子集的通過率，從計算量減少 1000 倍的模型推斷，其結(jié)果如下：

接下來，OpenAI在Inverse Scaling Prize上進行了測試，其結(jié)果如下：

可以發(fā)現(xiàn)，GPT-4 的表現(xiàn)要比GPT-3.5好很多。

然而，GPT-4并不是完美的，他依然還存在很多待解的問題，或者說是此次發(fā)布的遺憾。

遺憾1、參數(shù)規(guī)模沒有大規(guī)模提升

GPT-4是一個大規(guī)模預訓練模型，對于大模型而言，參數(shù)規(guī)模往往是一個關鍵指標。一般情況下，更大的參數(shù)規(guī)模意味著更強的技術能力。

在此前不久，業(yè)界就在流傳GPT-4將在參數(shù)規(guī)模上有大幅度提升，甚至傳言將達到100萬億級的參數(shù)規(guī)模，這也拉高了業(yè)界的期待。

此次發(fā)布的GPT-4，并沒有公布準確的參數(shù)規(guī)模。如果參數(shù)規(guī)模提升了一個數(shù)量級，OpenAI肯定會大肆宣揚一番，并將其作為GPT-4的一個關鍵突破。既然沒說，那大概率就是沒有大的改進。

遺憾2、一個假的多模態(tài)，不能生成圖片、視頻

大模型的發(fā)展趨勢，除了更好的性能表現(xiàn)外，一個關鍵的突破就是多模態(tài)。所謂多模態(tài)，就是文字、圖片、視頻、語音這些不同模態(tài)的信息之間的相互轉(zhuǎn)換。比如，輸入一段文字內(nèi)容，AI應用可以依據(jù)文字描述來自動生成一幅畫甚至是一個視頻。

ChatGPT是很強大，但他的強大只表現(xiàn)在文字領域，還不能跨模態(tài)。GPT-4的一個關鍵升級就是多模態(tài)，業(yè)界最期待的也是這個。然而，此次發(fā)布的GPT-4卻有點失望，他在多模態(tài)上有點突破，可以輸入圖片內(nèi)容，但是輸出的卻還只能是文字。用戶最期待的圖片、視頻生成，他沒能實現(xiàn)，這是一個巨大的遺憾。

遺憾3、“發(fā)瘋”問題有改善，但沒徹底解決

ChatGPT在使用過程中，偶爾會遇到“發(fā)瘋”的情況，變得胡言亂語，這給微軟帶來了不小的麻煩。那么，GPT-4把這個問題解決了么？

根據(jù)測試結(jié)果來看，這個問題有改善，但還沒能徹底解決。

OpenAI承認，GPT-4 與早期的 GPT 模型具有相似的局限性，它仍然不完全可靠，可能會存在推理錯誤。

但是，但 GPT-4 相對于以前的模型已經(jīng)有比較顯著的改善了。OpenAI對不同模型進行了內(nèi)部對抗性真實性測試，具體來看，進行了涵蓋學習、技術、寫作、歷史、數(shù)學、可惜等九類測試，準確度為 1.0 意味著模型的答案被判斷為與人類理想回答一致。

OpenAI將GPT-4 與ChatGPT-V2、ChatGPT-V3、ChatGPT-V4進行了比較，最終結(jié)果如下：

在OpenAI的內(nèi)部對抗性真實性評估中，GPT-4的得分比我們最新的GPT-3.5高40%。

之后，OpenAI在TruthfulQA等外部基準，測試了模型將事實與對抗性選擇的一組錯誤陳述分開的能力。

根據(jù)結(jié)果來看，GPT-4僅比GPT-3.5好一點點，并沒有顯著的提升。

此次發(fā)布會，除了GPT-4本身技術性能的提升以外，還有一個很重要的看點，那就是其商業(yè)化進展。從微軟近期的動作來看，他是準備在GPT-4基礎上大干一場。在數(shù)據(jù)猿先前發(fā)布的文章《先用ChatGPT革自己的命，然后干翻所有人！微軟要“梭哈”了！》中，整理了微軟近期將ChatGPT與其業(yè)務體系整合的情況，可以發(fā)現(xiàn)，微軟的很多業(yè)務都已經(jīng)可以看到ChatGPT的身影。