科大訊飛總裁：發(fā)力元宇宙和現(xiàn)實溝通，實現(xiàn)虛擬人多維表達(dá)

澎湃新聞記者邵文

2022-12-05 08:12

來源：澎湃新聞

? 未來2% >

聽全文

·“目前已經(jīng)把語音、眼神視線、手勢、面部表情結(jié)合起來，實現(xiàn)數(shù)字虛擬人交互的多維表達(dá)，下一步發(fā)力的重點將是元宇宙和現(xiàn)實世界的信息溝通?！?/u>

·“機(jī)器想更自然地與人類進(jìn)行交互，需要通過聽覺、視覺、語義以及各種傳感器的組合去獲取更多的有用信息，AI感知方式必然要從單模態(tài)發(fā)展到多模態(tài)，逐步擬人化?！?/u>

人工智能生成內(nèi)容（AIGC）熱潮下，圖像內(nèi)容領(lǐng)域進(jìn)展神速，而另一個賽道的人工智能生成語音也同樣至關(guān)重要：如何讓機(jī)器的聲音媲美人類？

作為人工智能語音領(lǐng)域的龍頭企業(yè)，科大訊飛最近宣布新一代語音合成系統(tǒng)SMART-TTS已經(jīng)能夠生成帶有11種情感的聲音?；谶@一進(jìn)展，科大訊飛總裁吳曉如近日對澎湃科技（m.nxos.com.cn）表示，該公司目前已經(jīng)開始把語音、眼神視線、手勢、面部表情結(jié)合起來，實現(xiàn)數(shù)字虛擬人交互的多維表達(dá)，下一步發(fā)力的重點將是元宇宙和現(xiàn)實世界的信息溝通。

科大訊飛總裁吳曉如在2022科大訊飛全球1024開發(fā)者節(jié)上發(fā)表演講。

AIGC支撐元宇宙發(fā)展

AIGC與元宇宙的關(guān)系，成為科技界越來越關(guān)注的話題。在全球疫情的高峰期，元宇宙迅速進(jìn)入人們的集體意識并受到追捧，但隨著這個名詞變得“過于時髦”，人們?nèi)缃駥λ目捶ㄋ坪醪幌褚郧澳菢臃e極甚至有些看衰。無論怎樣，為元宇宙提供動力的技術(shù)卻一直在加速發(fā)展，其中一項技術(shù)就是生成式人工智能（generative AI），它使用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，根據(jù)簡單的提示產(chǎn)生創(chuàng)造性的概念藝術(shù)和其它想法，這些內(nèi)容被稱為人工智能生成內(nèi)容（AIGC）。

上周，人工智能產(chǎn)品和GPU（圖形處理器）制造商英偉達(dá)的首席執(zhí)行官黃仁勛在接受科技媒體VentureBeat采訪時稱，生成式人工智能將是變革性的，并且變革才剛剛開始。其最大的應(yīng)用之一可能是與元宇宙有關(guān)，因為開發(fā)者需要用3D資產(chǎn)來填充虛擬世界，所以對內(nèi)容有巨大需求。

吳曉如對記者表示，人工智能更多是成為元宇宙發(fā)展的支持者，虛擬數(shù)字人技術(shù)或?qū)⑹窃钪媛涞氐南蠕h。技術(shù)上，AI可以提供虛擬形象的展現(xiàn)，并已在生產(chǎn)系統(tǒng)中有一定應(yīng)用，如金融銀行等服務(wù)場景中，虛擬人提供的遠(yuǎn)程交互功能已經(jīng)成為生產(chǎn)力工具。

今年初，科大訊飛正式啟動“訊飛超腦2030計劃”。愿景上，第一階段（2022-2023），該公司將推出軟硬件一體的機(jī)器人，同期推出專業(yè)數(shù)字虛擬人家族，擔(dān)當(dāng)老師、醫(yī)生等角色；第二階段（2023-2025），將推出自適應(yīng)行走的外骨骼機(jī)器人和陪伴數(shù)字虛擬人家族；第三階段（2025-2030），最終推出懂知識、會學(xué)習(xí)的陪伴機(jī)器人和自主學(xué)習(xí)虛擬人家族，全面進(jìn)入家庭。

在吳曉如看來，當(dāng)前人工智能開放平臺的三大趨勢表現(xiàn)為，人與機(jī)器深度協(xié)作的虛擬與實體融合，連接終端更加多元化，以及更深度融入醫(yī)療、教育、工業(yè)等行業(yè)場景。

目前，科大訊飛已經(jīng)展示了多個專業(yè)虛擬人和面向未來元宇宙的沉浸式人機(jī)交互系統(tǒng)。“目前已經(jīng)開始在智能化的一些應(yīng)用上把視覺、手勢、視線和語音結(jié)合起來，實現(xiàn)數(shù)字虛擬人交互的多維表達(dá)。”吳曉如在接受澎湃科技在內(nèi)的媒體采訪時說。

在具體規(guī)劃方面，吳曉如表示，一是要面對場景應(yīng)用建立場景模型，使科大訊飛AI研究院打造未來行業(yè)場景模型時成本更低；二是提供AI+API（應(yīng)用程序接口，可理解為可公開訪問的“接入點”）超級工具，即終端用戶能直接上手的智能化工具，如財務(wù)報銷，人力輔助招聘；三是降低互動式虛擬人成本；四是為實現(xiàn)更低成本、更高效率打造軟硬一體化機(jī)器人；五是提升隱私和數(shù)據(jù)安全。

“AI感知方式必然要從單模態(tài)發(fā)展到多模態(tài)”

根據(jù)最新的技術(shù)進(jìn)展，科大訊飛新一代語音合成系統(tǒng)SMART-TTS已經(jīng)能夠生成高興、抱歉、撒嬌、嚴(yán)肅、悲傷、困惑、害怕、鼓勵、生氣、安慰、寵溺11種情感，每種情感有20檔強(qiáng)弱度不同的調(diào)節(jié)能力。除此之外，還提供了聲音的創(chuàng)造能力，讓使用者根據(jù)自己的喜好調(diào)節(jié)停頓、重音、語速等。

在11月18日舉行的2022科大訊飛全球1024開發(fā)者節(jié)上，科大訊飛AI研究院副院長高建清曾向澎湃科技在內(nèi)的媒體介紹這一新的系統(tǒng)。

“機(jī)器想更自然地與人類進(jìn)行交互，需要通過聽覺、視覺、語義以及各種傳感器的組合去獲取更多的有用信息，AI感知方式必然要從單模態(tài)發(fā)展到多模態(tài)，逐步擬人化?！备呓ㄇ灞硎荆渲幸豁楆P(guān)鍵算法的突破在于，基于無監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練框架，使用少量有監(jiān)督數(shù)據(jù)進(jìn)行優(yōu)化。

具體而言，針對多模語音識別、情感識別等多模態(tài)任務(wù)，全新的預(yù)訓(xùn)練框架對音頻、人臉等不同模態(tài)的輸入“一視同仁”，利用其中內(nèi)容、表情及身份等信息的關(guān)聯(lián)性進(jìn)行融合，可設(shè)計出不同的訓(xùn)練目標(biāo)。而少量有監(jiān)督數(shù)據(jù)構(gòu)建碼本，讓訓(xùn)練機(jī)時下降八成，實現(xiàn)實用化預(yù)訓(xùn)練。

在聲音和虛擬形象生成技術(shù)方面，據(jù)高建清介紹，目前已經(jīng)實現(xiàn)了語義可控的聲音、形象生成，語義驅(qū)動的情感、動作表達(dá)。如輸入“一頭長發(fā)”，系統(tǒng)智能生成溫柔大方的女性形象，聲音端莊又不失甜美；輸入“英俊瀟灑”，生成有一些商務(wù)范的男生形象，聲音略帶磁性。

通過分析語音中的韻律節(jié)奏、語義信息，虛擬人即可據(jù)此流暢地切換動作，擁有更加自然的肢體語言?！芭c傳統(tǒng)動作庫相比，這套語義驅(qū)動的系統(tǒng)在動作擬人度及契合度方面，有明顯的效果提升?！备呓ㄇ逭f。

高建清透露，科大訊飛AI研究院下一步將發(fā)布三款重點產(chǎn)品：第一，2022年首發(fā)專業(yè)虛擬人，2023年打造數(shù)字經(jīng)濟(jì)下的虛擬人家族；第二，2023年發(fā)布可養(yǎng)成寵物玩具；第三，將在2023年發(fā)布青少年抑郁癥篩查平臺，以免費方式向全國發(fā)放。

整體而言，對于接下來人工智能和元宇宙的結(jié)合，吳曉如對澎湃科技表示，“未來元宇宙和現(xiàn)實世界作對應(yīng)交互時，需要完成信息相互溝通，這可能是我們下一步發(fā)力的重點?！?/p>

責(zé)任編輯：鄭潔

校對：欒夢

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#元宇宙 #虛擬人 #交互