- +1
算法相對(duì)論|吳甜:AI大模型的落地關(guān)鍵是解決技術(shù)與應(yīng)用場(chǎng)景間鴻溝
“今年是大模型的落地關(guān)鍵年。大模型歷經(jīng)了前幾年的探索期、突破期,已經(jīng)一定程度上到達(dá)推廣期了。那么就會(huì)面對(duì)如何能夠落地,如何能夠在真實(shí)的應(yīng)用場(chǎng)景中產(chǎn)生價(jià)值的問(wèn)題。從應(yīng)用落地角度,對(duì)于大模型落地來(lái)說(shuō),最關(guān)鍵要解決的問(wèn)題就是這種前沿技術(shù)與真實(shí)應(yīng)用場(chǎng)景之間的鴻溝,怎么能全方位匹配應(yīng)用落地時(shí)的要求?這個(gè)是大模型今年要解決的核心問(wèn)題?!苯?,百度集團(tuán)副總裁、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心副主任吳甜在WAVE SUMMIT 2022深度學(xué)習(xí)開(kāi)發(fā)者峰會(huì)上說(shuō)道。
那么如何解決,如何推進(jìn)呢?吳甜具體概括為三點(diǎn)。一是建設(shè)大模型體系,而且這個(gè)體系能夠與應(yīng)用場(chǎng)景相銜接。二是配套平臺(tái)、工具,降低應(yīng)用門檻,能夠全流程、端到端支持整個(gè)落地應(yīng)用。三是需要有生態(tài)依托,包括應(yīng)用生態(tài)、硬件生態(tài)的建設(shè)等。
在2022年春季的WAVE SUMMIT深度學(xué)習(xí)開(kāi)發(fā)者峰會(huì)上,百度發(fā)布了十個(gè)大模型、首發(fā)行業(yè)大模型,及一系列工具與平臺(tái),包括大模型開(kāi)發(fā)套件、大模型API、內(nèi)嵌了大模型能力的EasyDL和BML開(kāi)發(fā)平臺(tái),還有文心·旸谷社區(qū)。不了解其中邏輯便很容易覺(jué)得眼花繚亂,但理解上述三點(diǎn)就可以看明白百度在這方面的所有動(dòng)作。首發(fā)行業(yè)大模型:不求“通吃”,分層體系各司其職
“在AI工業(yè)大生產(chǎn)階段,深度學(xué)習(xí)技術(shù)的通用性越來(lái)越強(qiáng),深度學(xué)習(xí)平臺(tái)的標(biāo)準(zhǔn)化、自動(dòng)化和模塊化特征越來(lái)越顯著,深度學(xué)習(xí)應(yīng)用越來(lái)越廣泛且深入,已經(jīng)遍地開(kāi)花。預(yù)訓(xùn)練大模型的興起,使得人工智能的通用性進(jìn)一步增強(qiáng)。大模型具有效果好、泛化性強(qiáng)、研發(fā)流程標(biāo)準(zhǔn)化程度高等特點(diǎn),正在成為人工智能技術(shù)及應(yīng)用的新基座?!卑俣仁紫夹g(shù)官、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心主任王海峰說(shuō)道。
早在2021年5月的WAVE SUMMIT峰會(huì)上,吳甜談到企業(yè)AI應(yīng)用三階段:一是“先行者探路階段”,少量先行者在企業(yè)中引入新技術(shù),做探索和原型驗(yàn)證;二是“工作坊應(yīng)用階段”,一些企業(yè)逐漸設(shè)立小團(tuán)隊(duì),引入技術(shù);三是“工業(yè)大生產(chǎn)階段”,企業(yè)內(nèi)部大規(guī)模人力等各項(xiàng)資源協(xié)同進(jìn)行人工智能研發(fā)。
那么在這個(gè)AI工業(yè)大生產(chǎn)階段,百度的思路不是建立一個(gè)大模型“通吃”所有問(wèn)題,而是建設(shè)一個(gè)分層體系。飛槳文心大模型包含三類模型:基礎(chǔ)大模型、任務(wù)大模型和行業(yè)大模型。這次發(fā)布的國(guó)內(nèi)首個(gè)開(kāi)放API調(diào)用的千億大模型ERNIE 3.0 Zeus(宙斯)等10個(gè)大模型就分屬于這三類。
基礎(chǔ)大模型具有學(xué)習(xí)的數(shù)據(jù)、知識(shí)量大、參數(shù)規(guī)模大特點(diǎn),通用性最高。但直接使用基礎(chǔ)模型往往會(huì)與場(chǎng)景上苛刻的應(yīng)用需求有一定差距,所以在通用模型基礎(chǔ)上,百度增加了兩類模型:任務(wù)大模型和行業(yè)大模型。
任務(wù)大模型主要面向特定任務(wù),如NLP領(lǐng)域的信息抽取、對(duì)話、搜索等,以及視覺(jué)領(lǐng)域的商品圖文搜索,文檔圖像理解等。
行業(yè)大模型則由通用文心大模型作為基礎(chǔ),在海量廣泛數(shù)據(jù)中挖掘行業(yè)領(lǐng)域數(shù)據(jù),并與行業(yè)中的頭部企業(yè)或機(jī)構(gòu)合作引入行業(yè)特色數(shù)據(jù)與知識(shí)。“主要用意是將通用基礎(chǔ)大模型和行業(yè)深度的知識(shí)進(jìn)行結(jié)合和學(xué)習(xí)。行業(yè)大模型的關(guān)鍵點(diǎn)在于會(huì)引入行業(yè)里特有的知識(shí)和特有的數(shù)據(jù),以及和擁有深度行業(yè)專家Know-how認(rèn)知的專家們,一起針對(duì)行業(yè)設(shè)計(jì)相應(yīng)的預(yù)訓(xùn)練任務(wù)。這樣的話,通用模型就真正變成對(duì)行業(yè)來(lái)說(shuō)效果更適用的模型。”吳甜對(duì)澎湃新聞(m.nxos.com.cn)表示。
吳甜介紹,在能源電力和金融領(lǐng)域,文心聯(lián)合國(guó)家電網(wǎng)研發(fā)了知識(shí)增強(qiáng)的能源行業(yè)NLP大模型“國(guó)網(wǎng)-百度·文心”,聯(lián)合浦發(fā)銀行研發(fā)了知識(shí)增強(qiáng)的金融行業(yè)NLP大模型“浦發(fā)-百度·文心”。
可以從雙方的發(fā)言理解這樣的合作背后的價(jià)值。
以能源電力行業(yè)為例,吳甜認(rèn)為,推進(jìn)行業(yè)大模型更重要的是與國(guó)網(wǎng)專家們一起,引入電力業(yè)務(wù)積累的樣本數(shù)據(jù)和特有知識(shí),并且在訓(xùn)練中,結(jié)合雙方在預(yù)訓(xùn)練算法和電力領(lǐng)域業(yè)務(wù)與算法的經(jīng)驗(yàn),設(shè)計(jì)電力領(lǐng)域?qū)嶓w判別、電力領(lǐng)域文檔判別等算法作為預(yù)訓(xùn)練任務(wù),讓文心模型深入學(xué)習(xí)電力專業(yè)知識(shí)。
國(guó)家電網(wǎng)有限公司數(shù)字化工作部人工智能工作負(fù)責(zé)人蔣煒博士則表示,作為中央企業(yè)數(shù)字化轉(zhuǎn)型的排頭兵,國(guó)家電網(wǎng)公司聯(lián)合百度公司共同打造行業(yè)級(jí)人工智能基礎(chǔ)設(shè)施,探索研發(fā)電力人工智能聯(lián)合大模型,不僅提升了傳統(tǒng)電力專用模型的精度,而且大幅降低了研發(fā)門檻,實(shí)現(xiàn)了算力、數(shù)據(jù)、技術(shù)等資源的統(tǒng)籌優(yōu)化。下一步,國(guó)家電網(wǎng)公司將繼續(xù)深化雙方技術(shù)合作,推動(dòng)人工智能大模型在電力領(lǐng)域的技術(shù)攻關(guān)及應(yīng)用探索,面向更典型的電力業(yè)務(wù)場(chǎng)景,構(gòu)建更具電力特色的人工智能大模型。
同樣地,浦發(fā)-百度·文心大模型基于文心進(jìn)行行業(yè)數(shù)據(jù)挖掘,結(jié)合浦發(fā)場(chǎng)景積累的行業(yè)數(shù)據(jù)與知識(shí),雙方技術(shù)和業(yè)務(wù)專家可以合作設(shè)計(jì)針對(duì)性的財(cái)報(bào)領(lǐng)域判別、金融客服問(wèn)答匹配等預(yù)訓(xùn)練任務(wù)。
除行業(yè)大模型外,此次還發(fā)布文心基礎(chǔ)大模型和任務(wù)大模型共八個(gè),包括:融合任務(wù)相關(guān)知識(shí)的千億大模型ERNIE 3.0 Zeus,多任務(wù)視覺(jué)表征學(xué)習(xí)VIMER-UFO 2.0、商品圖文搜索表征學(xué)習(xí)VIMER-UMS、文檔圖像表征學(xué)習(xí)VIMER-StrucTexT 2.0,語(yǔ)音-語(yǔ)言跨模態(tài)大模型ERNIE-SAT、地理-語(yǔ)言跨模態(tài)大模型ERNIE-GeoL,以及面向生物計(jì)算領(lǐng)域的化合物表征學(xué)習(xí)HELIX-GEM和蛋白質(zhì)結(jié)構(gòu)分析HELIX-Fold。
“好馬配好鞍”:大模型的配套工具和平臺(tái)
為了讓大模型的價(jià)值在應(yīng)用場(chǎng)景中充分發(fā)揮,降低使用門檻,百度配套建設(shè)了工具和平臺(tái)。
大模型套件主要提供四方面的能力,如幫助開(kāi)發(fā)者降低數(shù)據(jù)準(zhǔn)備成本的多種數(shù)據(jù)預(yù)處理工具;同時(shí),考慮大模型需要結(jié)合場(chǎng)景問(wèn)題遷移學(xué)習(xí),百度提供了多樣化精調(diào)工具,包含對(duì)抗學(xué)習(xí)、小樣本學(xué)習(xí)等多種精調(diào)方法,還包含提示(Prompt-tuning)等新型大模型精調(diào)工具。針對(duì)大模型真正落地部署成本高的問(wèn)題,在文心大模型工具和平臺(tái)中,配套了高性能部署方案以進(jìn)行模型小型化,包括性能加速方案,同時(shí)預(yù)置60多個(gè)NLP、CV的基礎(chǔ)任務(wù)。
文心大模型以及相關(guān)工具在飛槳企業(yè)版EasyDL、BML平臺(tái)中均可使用。據(jù)百度透露,目前平臺(tái)上已有1萬(wàn)多用戶用到了預(yù)訓(xùn)練大模型,創(chuàng)建了超過(guò)3萬(wàn)任務(wù),并應(yīng)用到輸電通路巡檢、零部件瑕疵檢測(cè)、農(nóng)業(yè)病蟲害識(shí)別、新聞資訊創(chuàng)作等大量場(chǎng)景中。在平臺(tái)上,通過(guò)大模型機(jī)制進(jìn)行AI應(yīng)用模型的開(kāi)發(fā),數(shù)據(jù)標(biāo)注量平均降低70%,效果平均提升10.7%。文心大模型還提供了直接的API調(diào)用方式,ERNIE 3.0 Zeus、PLATO、ERNIE-ViLG都可以供使用者通過(guò)API直接訪問(wèn)調(diào)用。
總體來(lái)看,飛槳文心大模型核心特色有兩點(diǎn):產(chǎn)業(yè)級(jí)和知識(shí)增強(qiáng)。
“產(chǎn)業(yè)級(jí)”一方面指文心的整個(gè)技術(shù)是在實(shí)際產(chǎn)業(yè)應(yīng)用過(guò)程中打磨,另一方面,文心大模型在應(yīng)用時(shí)建設(shè)了一系列配套能力,讓行業(yè)更好用。比如怎樣設(shè)計(jì)數(shù)據(jù)的標(biāo)注、建議有多少數(shù)據(jù)、相應(yīng)的遷移學(xué)習(xí)的方法等等。這些配套的工具和平臺(tái),包括新發(fā)布的大模型API、大模型開(kāi)發(fā)套件、平臺(tái)入口等,都是在提升真實(shí)應(yīng)用的可行性。
“知識(shí)增強(qiáng)”則是與其他行業(yè)大模型相比,百度通過(guò)引入知識(shí)圖譜,將數(shù)據(jù)與知識(shí)融合,目標(biāo)在于讓文心大模型的學(xué)習(xí)效率更高、可解釋性更好。提升了大模型的通用性和泛化性,那么就可以降低開(kāi)發(fā)難度、更少標(biāo)注數(shù)據(jù)。
整體來(lái)說(shuō),不管是飛槳平臺(tái)還是具體到飛槳模型庫(kù)中的文心大模型,背后的理念都是降低AI使用門檻,提升技術(shù)通用性,加強(qiáng)技術(shù)及平臺(tái)的標(biāo)準(zhǔn)化、自動(dòng)化、模塊化能力。
吳甜認(rèn)為,開(kāi)源、開(kāi)放也是非常直接的門檻降低方式。因?yàn)锳I的應(yīng)用不僅僅是技術(shù)問(wèn)題,更重要的是跟行業(yè)和場(chǎng)景相結(jié)合。并且通過(guò)開(kāi)源開(kāi)放,群智創(chuàng)新、深度協(xié)同的能力也能有顯著提升,可以加速企業(yè)的智能化轉(zhuǎn)型?!敖裉彀l(fā)布的10個(gè)大模型里面,有7個(gè)模型是開(kāi)源的,開(kāi)源是文心大模型一直在做的工作?!眳翘饘?duì)澎湃新聞(m.nxos.com.cn)談到。
如何應(yīng)對(duì)大模型的訓(xùn)練和推理挑戰(zhàn)?
“作為深度學(xué)習(xí)技術(shù)工作者,我們清楚地認(rèn)識(shí)到,AI大模型是深度學(xué)習(xí)技術(shù)的新突破,進(jìn)一步增強(qiáng)了AI技術(shù)的通用性,帶來(lái)了新的AI研發(fā)范式。對(duì)廣大開(kāi)發(fā)者來(lái)說(shuō),基于預(yù)訓(xùn)練大模型,可以更低成本、低門檻,面向場(chǎng)景研發(fā)更好用的AI模型?!眳翘鹫f(shuō)道。
文心大模型的訓(xùn)練、推理都依托深度學(xué)習(xí)平臺(tái)的支撐,同時(shí),大模型作為飛槳平臺(tái)中產(chǎn)業(yè)級(jí)模型庫(kù)的重要一員,成為了飛槳平臺(tái)支持AI創(chuàng)新必不可少的能力。
大模型訓(xùn)練的挑戰(zhàn)主要來(lái)自于“大”,模型參數(shù)規(guī)模巨大,且不同模型和算力平臺(tái)特性的差異,給大模型訓(xùn)練帶來(lái)現(xiàn)實(shí)的挑戰(zhàn)。飛槳分布式架構(gòu)統(tǒng)籌考慮這些差異性問(wèn)題,用端到端自適應(yīng)分布式架構(gòu),根據(jù)模型和算力平臺(tái)的特點(diǎn),自動(dòng)選擇并行策略,自動(dòng)調(diào)優(yōu),高效執(zhí)行,實(shí)現(xiàn)方案既具備通用性,又兼顧了高效性。其在并行訓(xùn)練策略上的創(chuàng)新即對(duì)異構(gòu)硬件支持自適應(yīng)并行訓(xùn)練,打造框架與算力、算法相結(jié)合三位一體的大模型訓(xùn)練解決方案,實(shí)現(xiàn)了端到端的極致性能優(yōu)化。
相對(duì)訓(xùn)練而言,大模型推理面臨更大的挑戰(zhàn)。大模型的高效推理是實(shí)現(xiàn)大模型產(chǎn)業(yè)應(yīng)用落地的關(guān)鍵所在。在大模型的落地部署層面,飛槳?jiǎng)t推出針對(duì)大模型的壓縮、推理、服務(wù)化全流程部署方案,幫助大模型更好落地。
其首先通過(guò)精度無(wú)損模型壓縮技術(shù)讓模型輕量化,然后通過(guò)自適應(yīng)分布式推理技術(shù),充分調(diào)動(dòng)算力資源,比如千億級(jí)模型,只有分布式推理才能跑得起來(lái)。最后通過(guò)大規(guī)模服務(wù)化部署,讓大模型真正落成應(yīng)用。整體方案通用且可擴(kuò)展,能廣泛支持不同種類的模型結(jié)構(gòu),實(shí)現(xiàn)高速推理,目前已支撐了如自然語(yǔ)言理解、對(duì)話、跨模態(tài)生成等大模型的實(shí)時(shí)在線應(yīng)用。
這些努力都是為了讓大模型更接近產(chǎn)業(yè),落地在產(chǎn)業(yè)當(dāng)中,而不僅僅是實(shí)驗(yàn)室技術(shù)。
截至目前,文心大模型已應(yīng)用于工業(yè)、能源、教育、金融、通信、媒體等行業(yè),例如工業(yè)領(lǐng)域的零部件質(zhì)量檢測(cè)、能源領(lǐng)域的輸電線路巡檢、教育行業(yè)的作文靈感激發(fā)、金融行業(yè)的合同信息抽取等等,真正幫助企業(yè)降本增效并激發(fā)創(chuàng)新。同時(shí),文心大模型也全面應(yīng)用于智能搜索、信息流、智能音箱等互聯(lián)網(wǎng)產(chǎn)品,提升用戶獲取信息、知識(shí)和服務(wù)的效率和效果。
總體而言,吳甜給出支撐飛槳文心大模型產(chǎn)業(yè)落地的3個(gè)關(guān)鍵路徑:搭建更適配場(chǎng)景需求的大模型體系,提供全流程支持應(yīng)用落地的工具和方法,建設(shè)激發(fā)創(chuàng)新的開(kāi)放生態(tài)。這個(gè)生態(tài)建設(shè)的一部分就是文心·旸谷社區(qū),其目標(biāo)在于讓更多人零距離接觸到AI大模型技術(shù),激發(fā)創(chuàng)新與創(chuàng)意。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




