算法相對(duì)論｜吳甜：AI大模型的落地關(guān)鍵是解決技術(shù)與應(yīng)用場(chǎng)景間鴻溝

澎湃新聞?dòng)浾?邵文

2022-06-19 11:30

來(lái)源：澎湃新聞

聽(tīng)全文

“今年是大模型的落地關(guān)鍵年。大模型歷經(jīng)了前幾年的探索期、突破期，已經(jīng)一定程度上到達(dá)推廣期了。那么就會(huì)面對(duì)如何能夠落地，如何能夠在真實(shí)的應(yīng)用場(chǎng)景中產(chǎn)生價(jià)值的問(wèn)題。從應(yīng)用落地角度，對(duì)于大模型落地來(lái)說(shuō)，最關(guān)鍵要解決的問(wèn)題就是這種前沿技術(shù)與真實(shí)應(yīng)用場(chǎng)景之間的鴻溝，怎么能全方位匹配應(yīng)用落地時(shí)的要求？這個(gè)是大模型今年要解決的核心問(wèn)題?！苯?，百度集團(tuán)副總裁、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心副主任吳甜在WAVE SUMMIT 2022深度學(xué)習(xí)開(kāi)發(fā)者峰會(huì)上說(shuō)道。

那么如何解決，如何推進(jìn)呢？吳甜具體概括為三點(diǎn)。

一是建設(shè)大模型體系，而且這個(gè)體系能夠與應(yīng)用場(chǎng)景相銜接。二是配套平臺(tái)、工具，降低應(yīng)用門檻，能夠全流程、端到端支持整個(gè)落地應(yīng)用。三是需要有生態(tài)依托，包括應(yīng)用生態(tài)、硬件生態(tài)的建設(shè)等。

在2022年春季的WAVE SUMMIT深度學(xué)習(xí)開(kāi)發(fā)者峰會(huì)上，百度發(fā)布了十個(gè)大模型、首發(fā)行業(yè)大模型，及一系列工具與平臺(tái)，包括大模型開(kāi)發(fā)套件、大模型API、內(nèi)嵌了大模型能力的EasyDL和BML開(kāi)發(fā)平臺(tái)，還有文心·旸谷社區(qū)。不了解其中邏輯便很容易覺(jué)得眼花繚亂，但理解上述三點(diǎn)就可以看明白百度在這方面的所有動(dòng)作。

首發(fā)行業(yè)大模型：不求“通吃”，分層體系各司其職

“在AI工業(yè)大生產(chǎn)階段，深度學(xué)習(xí)技術(shù)的通用性越來(lái)越強(qiáng)，深度學(xué)習(xí)平臺(tái)的標(biāo)準(zhǔn)化、自動(dòng)化和模塊化特征越來(lái)越顯著，深度學(xué)習(xí)應(yīng)用越來(lái)越廣泛且深入，已經(jīng)遍地開(kāi)花。預(yù)訓(xùn)練大模型的興起，使得人工智能的通用性進(jìn)一步增強(qiáng)。大模型具有效果好、泛化性強(qiáng)、研發(fā)流程標(biāo)準(zhǔn)化程度高等特點(diǎn)，正在成為人工智能技術(shù)及應(yīng)用的新基座?！卑俣仁紫夹g(shù)官、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心主任王海峰說(shuō)道。

早在2021年5月的WAVE SUMMIT峰會(huì)上，吳甜談到企業(yè)AI應(yīng)用三階段：一是“先行者探路階段”，少量先行者在企業(yè)中引入新技術(shù)，做探索和原型驗(yàn)證；二是“工作坊應(yīng)用階段”，一些企業(yè)逐漸設(shè)立小團(tuán)隊(duì)，引入技術(shù)；三是“工業(yè)大生產(chǎn)階段”，企業(yè)內(nèi)部大規(guī)模人力等各項(xiàng)資源協(xié)同進(jìn)行人工智能研發(fā)。

那么在這個(gè)AI工業(yè)大生產(chǎn)階段，百度的思路不是建立一個(gè)大模型“通吃”所有問(wèn)題，而是建設(shè)一個(gè)分層體系。飛槳文心大模型包含三類模型：基礎(chǔ)大模型、任務(wù)大模型和行業(yè)大模型。這次發(fā)布的國(guó)內(nèi)首個(gè)開(kāi)放API調(diào)用的千億大模型ERNIE 3.0 Zeus（宙斯）等10個(gè)大模型就分屬于這三類。

基礎(chǔ)大模型具有學(xué)習(xí)的數(shù)據(jù)、知識(shí)量大、參數(shù)規(guī)模大特點(diǎn)，通用性最高。但直接使用基礎(chǔ)模型往往會(huì)與場(chǎng)景上苛刻的應(yīng)用需求有一定差距，所以在通用模型基礎(chǔ)上，百度增加了兩類模型：任務(wù)大模型和行業(yè)大模型。

任務(wù)大模型主要面向特定任務(wù)，如NLP領(lǐng)域的信息抽取、對(duì)話、搜索等，以及視覺(jué)領(lǐng)域的商品圖文搜索，文檔圖像理解等。

行業(yè)大模型則由通用文心大模型作為基礎(chǔ)，在海量廣泛數(shù)據(jù)中挖掘行業(yè)領(lǐng)域數(shù)據(jù)，并與行業(yè)中的頭部企業(yè)或機(jī)構(gòu)合作引入行業(yè)特色數(shù)據(jù)與知識(shí)。“主要用意是將通用基礎(chǔ)大模型和行業(yè)深度的知識(shí)進(jìn)行結(jié)合和學(xué)習(xí)。行業(yè)大模型的關(guān)鍵點(diǎn)在于會(huì)引入行業(yè)里特有的知識(shí)和特有的數(shù)據(jù)，以及和擁有深度行業(yè)專家Know-how認(rèn)知的專家們，一起針對(duì)行業(yè)設(shè)計(jì)相應(yīng)的預(yù)訓(xùn)練任務(wù)。這樣的話，通用模型就真正變成對(duì)行業(yè)來(lái)說(shuō)效果更適用的模型。”吳甜對(duì)澎湃新聞（m.nxos.com.cn）表示。

吳甜介紹，在能源電力和金融領(lǐng)域，文心聯(lián)合國(guó)家電網(wǎng)研發(fā)了知識(shí)增強(qiáng)的能源行業(yè)NLP大模型“國(guó)網(wǎng)-百度·文心”，聯(lián)合浦發(fā)銀行研發(fā)了知識(shí)增強(qiáng)的金融行業(yè)NLP大模型“浦發(fā)-百度·文心”。

可以從雙方的發(fā)言理解這樣的合作背后的價(jià)值。

以能源電力行業(yè)為例，吳甜認(rèn)為，推進(jìn)行業(yè)大模型更重要的是與國(guó)網(wǎng)專家們一起，引入電力業(yè)務(wù)積累的樣本數(shù)據(jù)和特有知識(shí)，并且在訓(xùn)練中，結(jié)合雙方在預(yù)訓(xùn)練算法和電力領(lǐng)域業(yè)務(wù)與算法的經(jīng)驗(yàn)，設(shè)計(jì)電力領(lǐng)域?qū)嶓w判別、電力領(lǐng)域文檔判別等算法作為預(yù)訓(xùn)練任務(wù)，讓文心模型深入學(xué)習(xí)電力專業(yè)知識(shí)。

國(guó)家電網(wǎng)有限公司數(shù)字化工作部人工智能工作負(fù)責(zé)人蔣煒博士則表示，作為中央企業(yè)數(shù)字化轉(zhuǎn)型的排頭兵，國(guó)家電網(wǎng)公司聯(lián)合百度公司共同打造行業(yè)級(jí)人工智能基礎(chǔ)設(shè)施，探索研發(fā)電力人工智能聯(lián)合大模型，不僅提升了傳統(tǒng)電力專用模型的精度，而且大幅降低了研發(fā)門檻，實(shí)現(xiàn)了算力、數(shù)據(jù)、技術(shù)等資源的統(tǒng)籌優(yōu)化。下一步，國(guó)家電網(wǎng)公司將繼續(xù)深化雙方技術(shù)合作，推動(dòng)人工智能大模型在電力領(lǐng)域的技術(shù)攻關(guān)及應(yīng)用探索，面向更典型的電力業(yè)務(wù)場(chǎng)景，構(gòu)建更具電力特色的人工智能大模型。

同樣地，浦發(fā)-百度·文心大模型基于文心進(jìn)行行業(yè)數(shù)據(jù)挖掘，結(jié)合浦發(fā)場(chǎng)景積累的行業(yè)數(shù)據(jù)與知識(shí)，雙方技術(shù)和業(yè)務(wù)專家可以合作設(shè)計(jì)針對(duì)性的財(cái)報(bào)領(lǐng)域判別、金融客服問(wèn)答匹配等預(yù)訓(xùn)練任務(wù)。

除行業(yè)大模型外，此次還發(fā)布文心基礎(chǔ)大模型和任務(wù)大模型共八個(gè)，包括：融合任務(wù)相關(guān)知識(shí)的千億大模型ERNIE 3.0 Zeus，多任務(wù)視覺(jué)表征學(xué)習(xí)VIMER-UFO 2.0、商品圖文搜索表征學(xué)習(xí)VIMER-UMS、文檔圖像表征學(xué)習(xí)VIMER-StrucTexT 2.0，語(yǔ)音-語(yǔ)言跨模態(tài)大模型ERNIE-SAT、地理-語(yǔ)言跨模態(tài)大模型ERNIE-GeoL，以及面向生物計(jì)算領(lǐng)域的化合物表征學(xué)習(xí)HELIX-GEM和蛋白質(zhì)結(jié)構(gòu)分析HELIX-Fold。

“好馬配好鞍”：大模型的配套工具和平臺(tái)

為了讓大模型的價(jià)值在應(yīng)用場(chǎng)景中充分發(fā)揮，降低使用門檻，百度配套建設(shè)了工具和平臺(tái)。

大模型套件主要提供四方面的能力，如幫助開(kāi)發(fā)者降低數(shù)據(jù)準(zhǔn)備成本的多種數(shù)據(jù)預(yù)處理工具；同時(shí)，考慮大模型需要結(jié)合場(chǎng)景問(wèn)題遷移學(xué)習(xí)，百度提供了多樣化精調(diào)工具，包含對(duì)抗學(xué)習(xí)、小樣本學(xué)習(xí)等多種精調(diào)方法，還包含提示（Prompt-tuning）等新型大模型精調(diào)工具。針對(duì)大模型真正落地部署成本高的問(wèn)題，在文心大模型工具和平臺(tái)中，配套了高性能部署方案以進(jìn)行模型小型化，包括性能加速方案，同時(shí)預(yù)置60多個(gè)NLP、CV的基礎(chǔ)任務(wù)。

文心大模型以及相關(guān)工具在飛槳企業(yè)版EasyDL、BML平臺(tái)中均可使用。據(jù)百度透露，目前平臺(tái)上已有1萬(wàn)多用戶用到了預(yù)訓(xùn)練大模型，創(chuàng)建了超過(guò)3萬(wàn)任務(wù)，并應(yīng)用到輸電通路巡檢、零部件瑕疵檢測(cè)、農(nóng)業(yè)病蟲害識(shí)別、新聞資訊創(chuàng)作等大量場(chǎng)景中。在平臺(tái)上，通過(guò)大模型機(jī)制進(jìn)行AI應(yīng)用模型的開(kāi)發(fā)，數(shù)據(jù)標(biāo)注量平均降低70%，效果平均提升10.7%。文心大模型還提供了直接的API調(diào)用方式，ERNIE 3.0 Zeus、PLATO、ERNIE-ViLG都可以供使用者通過(guò)API直接訪問(wèn)調(diào)用。

總體來(lái)看，飛槳文心大模型核心特色有兩點(diǎn)：產(chǎn)業(yè)級(jí)和知識(shí)增強(qiáng)。

“產(chǎn)業(yè)級(jí)”一方面指文心的整個(gè)技術(shù)是在實(shí)際產(chǎn)業(yè)應(yīng)用過(guò)程中打磨，另一方面，文心大模型在應(yīng)用時(shí)建設(shè)了一系列配套能力，讓行業(yè)更好用。比如怎樣設(shè)計(jì)數(shù)據(jù)的標(biāo)注、建議有多少數(shù)據(jù)、相應(yīng)的遷移學(xué)習(xí)的方法等等。這些配套的工具和平臺(tái)，包括新發(fā)布的大模型API、大模型開(kāi)發(fā)套件、平臺(tái)入口等，都是在提升真實(shí)應(yīng)用的可行性。

“知識(shí)增強(qiáng)”則是與其他行業(yè)大模型相比，百度通過(guò)引入知識(shí)圖譜，將數(shù)據(jù)與知識(shí)融合，目標(biāo)在于讓文心大模型的學(xué)習(xí)效率更高、可解釋性更好。提升了大模型的通用性和泛化性，那么就可以降低開(kāi)發(fā)難度、更少標(biāo)注數(shù)據(jù)。

整體來(lái)說(shuō)，不管是飛槳平臺(tái)還是具體到飛槳模型庫(kù)中的文心大模型，背后的理念都是降低AI使用門檻，提升技術(shù)通用性，加強(qiáng)技術(shù)及平臺(tái)的標(biāo)準(zhǔn)化、自動(dòng)化、模塊化能力。

吳甜認(rèn)為，開(kāi)源、開(kāi)放也是非常直接的門檻降低方式。因?yàn)锳I的應(yīng)用不僅僅是技術(shù)問(wèn)題，更重要的是跟行業(yè)和場(chǎng)景相結(jié)合。并且通過(guò)開(kāi)源開(kāi)放，群智創(chuàng)新、深度協(xié)同的能力也能有顯著提升，可以加速企業(yè)的智能化轉(zhuǎn)型?！敖裉彀l(fā)布的10個(gè)大模型里面，有7個(gè)模型是開(kāi)源的，開(kāi)源是文心大模型一直在做的工作?！眳翘饘?duì)澎湃新聞（m.nxos.com.cn）談到。

如何應(yīng)對(duì)大模型的訓(xùn)練和推理挑戰(zhàn)？

“作為深度學(xué)習(xí)技術(shù)工作者，我們清楚地認(rèn)識(shí)到，AI大模型是深度學(xué)習(xí)技術(shù)的新突破，進(jìn)一步增強(qiáng)了AI技術(shù)的通用性，帶來(lái)了新的AI研發(fā)范式。對(duì)廣大開(kāi)發(fā)者來(lái)說(shuō)，基于預(yù)訓(xùn)練大模型，可以更低成本、低門檻，面向場(chǎng)景研發(fā)更好用的AI模型?！眳翘鹫f(shuō)道。

文心大模型的訓(xùn)練、推理都依托深度學(xué)習(xí)平臺(tái)的支撐，同時(shí)，大模型作為飛槳平臺(tái)中產(chǎn)業(yè)級(jí)模型庫(kù)的重要一員，成為了飛槳平臺(tái)支持AI創(chuàng)新必不可少的能力。

大模型訓(xùn)練的挑戰(zhàn)主要來(lái)自于“大”，模型參數(shù)規(guī)模巨大，且不同模型和算力平臺(tái)特性的差異，給大模型訓(xùn)練帶來(lái)現(xiàn)實(shí)的挑戰(zhàn)。飛槳分布式架構(gòu)統(tǒng)籌考慮這些差異性問(wèn)題，用端到端自適應(yīng)分布式架構(gòu)，根據(jù)模型和算力平臺(tái)的特點(diǎn)，自動(dòng)選擇并行策略，自動(dòng)調(diào)優(yōu)，高效執(zhí)行，實(shí)現(xiàn)方案既具備通用性，又兼顧了高效性。其在并行訓(xùn)練策略上的創(chuàng)新即對(duì)異構(gòu)硬件支持自適應(yīng)并行訓(xùn)練，打造框架與算力、算法相結(jié)合三位一體的大模型訓(xùn)練解決方案，實(shí)現(xiàn)了端到端的極致性能優(yōu)化。

相對(duì)訓(xùn)練而言，大模型推理面臨更大的挑戰(zhàn)。大模型的高效推理是實(shí)現(xiàn)大模型產(chǎn)業(yè)應(yīng)用落地的關(guān)鍵所在。在大模型的落地部署層面，飛槳?jiǎng)t推出針對(duì)大模型的壓縮、推理、服務(wù)化全流程部署方案，幫助大模型更好落地。

其首先通過(guò)精度無(wú)損模型壓縮技術(shù)讓模型輕量化，然后通過(guò)自適應(yīng)分布式推理技術(shù)，充分調(diào)動(dòng)算力資源，比如千億級(jí)模型，只有分布式推理才能跑得起來(lái)。最后通過(guò)大規(guī)模服務(wù)化部署，讓大模型真正落成應(yīng)用。整體方案通用且可擴(kuò)展，能廣泛支持不同種類的模型結(jié)構(gòu)，實(shí)現(xiàn)高速推理，目前已支撐了如自然語(yǔ)言理解、對(duì)話、跨模態(tài)生成等大模型的實(shí)時(shí)在線應(yīng)用。

這些努力都是為了讓大模型更接近產(chǎn)業(yè)，落地在產(chǎn)業(yè)當(dāng)中，而不僅僅是實(shí)驗(yàn)室技術(shù)。

截至目前，文心大模型已應(yīng)用于工業(yè)、能源、教育、金融、通信、媒體等行業(yè)，例如工業(yè)領(lǐng)域的零部件質(zhì)量檢測(cè)、能源領(lǐng)域的輸電線路巡檢、教育行業(yè)的作文靈感激發(fā)、金融行業(yè)的合同信息抽取等等，真正幫助企業(yè)降本增效并激發(fā)創(chuàng)新。同時(shí)，文心大模型也全面應(yīng)用于智能搜索、信息流、智能音箱等互聯(lián)網(wǎng)產(chǎn)品，提升用戶獲取信息、知識(shí)和服務(wù)的效率和效果。

總體而言，吳甜給出支撐飛槳文心大模型產(chǎn)業(yè)落地的3個(gè)關(guān)鍵路徑：搭建更適配場(chǎng)景需求的大模型體系，提供全流程支持應(yīng)用落地的工具和方法，建設(shè)激發(fā)創(chuàng)新的開(kāi)放生態(tài)。這個(gè)生態(tài)建設(shè)的一部分就是文心·旸谷社區(qū)，其目標(biāo)在于讓更多人零距離接觸到AI大模型技術(shù)，激發(fā)創(chuàng)新與創(chuàng)意。

責(zé)任編輯：李躍群

校對(duì)：張艷

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#AI大模型 #落地 #百度