中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

科大訊飛總裁:發(fā)力元宇宙和現(xiàn)實溝通,實現(xiàn)虛擬人多維表達(dá)

澎湃新聞記者 邵文
2022-12-05 08:12
來源:澎湃新聞
? 未來2% >
聽全文
字號

·“目前已經(jīng)把語音、眼神視線、手勢、面部表情結(jié)合起來,實現(xiàn)數(shù)字虛擬人交互的多維表達(dá),下一步發(fā)力的重點將是元宇宙和現(xiàn)實世界的信息溝通?!?/u>

·“機(jī)器想更自然地與人類進(jìn)行交互,需要通過聽覺、視覺、語義以及各種傳感器的組合去獲取更多的有用信息,AI感知方式必然要從單模態(tài)發(fā)展到多模態(tài),逐步擬人化?!?/u>

人工智能生成內(nèi)容(AIGC)熱潮下,圖像內(nèi)容領(lǐng)域進(jìn)展神速,而另一個賽道的人工智能生成語音也同樣至關(guān)重要:如何讓機(jī)器的聲音媲美人類?

作為人工智能語音領(lǐng)域的龍頭企業(yè),科大訊飛最近宣布新一代語音合成系統(tǒng)SMART-TTS已經(jīng)能夠生成帶有11種情感的聲音?;谶@一進(jìn)展,科大訊飛總裁吳曉如近日對澎湃科技(m.nxos.com.cn)表示,該公司目前已經(jīng)開始把語音、眼神視線、手勢、面部表情結(jié)合起來,實現(xiàn)數(shù)字虛擬人交互的多維表達(dá),下一步發(fā)力的重點將是元宇宙和現(xiàn)實世界的信息溝通。

科大訊飛總裁吳曉如在2022科大訊飛全球1024開發(fā)者節(jié)上發(fā)表演講。

AIGC支撐元宇宙發(fā)展

AIGC與元宇宙的關(guān)系,成為科技界越來越關(guān)注的話題。在全球疫情的高峰期,元宇宙迅速進(jìn)入人們的集體意識并受到追捧,但隨著這個名詞變得“過于時髦”,人們?nèi)缃駥λ目捶ㄋ坪醪幌褚郧澳菢臃e極甚至有些看衰。無論怎樣,為元宇宙提供動力的技術(shù)卻一直在加速發(fā)展,其中一項技術(shù)就是生成式人工智能(generative AI),它使用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),根據(jù)簡單的提示產(chǎn)生創(chuàng)造性的概念藝術(shù)和其它想法,這些內(nèi)容被稱為人工智能生成內(nèi)容(AIGC)。

上周,人工智能產(chǎn)品和GPU(圖形處理器)制造商英偉達(dá)的首席執(zhí)行官黃仁勛在接受科技媒體VentureBeat采訪時稱,生成式人工智能將是變革性的,并且變革才剛剛開始。其最大的應(yīng)用之一可能是與元宇宙有關(guān),因為開發(fā)者需要用3D資產(chǎn)來填充虛擬世界,所以對內(nèi)容有巨大需求。

吳曉如對記者表示,人工智能更多是成為元宇宙發(fā)展的支持者,虛擬數(shù)字人技術(shù)或?qū)⑹窃钪媛涞氐南蠕h。技術(shù)上,AI可以提供虛擬形象的展現(xiàn),并已在生產(chǎn)系統(tǒng)中有一定應(yīng)用,如金融銀行等服務(wù)場景中,虛擬人提供的遠(yuǎn)程交互功能已經(jīng)成為生產(chǎn)力工具。

今年初,科大訊飛正式啟動“訊飛超腦2030計劃”。愿景上,第一階段(2022-2023),該公司將推出軟硬件一體的機(jī)器人,同期推出專業(yè)數(shù)字虛擬人家族,擔(dān)當(dāng)老師、醫(yī)生等角色;第二階段(2023-2025),將推出自適應(yīng)行走的外骨骼機(jī)器人和陪伴數(shù)字虛擬人家族;第三階段(2025-2030),最終推出懂知識、會學(xué)習(xí)的陪伴機(jī)器人和自主學(xué)習(xí)虛擬人家族,全面進(jìn)入家庭。

在吳曉如看來,當(dāng)前人工智能開放平臺的三大趨勢表現(xiàn)為,人與機(jī)器深度協(xié)作的虛擬與實體融合,連接終端更加多元化,以及更深度融入醫(yī)療、教育、工業(yè)等行業(yè)場景。

目前,科大訊飛已經(jīng)展示了多個專業(yè)虛擬人和面向未來元宇宙的沉浸式人機(jī)交互系統(tǒng)。“目前已經(jīng)開始在智能化的一些應(yīng)用上把視覺、手勢、視線和語音結(jié)合起來,實現(xiàn)數(shù)字虛擬人交互的多維表達(dá)。”吳曉如在接受澎湃科技在內(nèi)的媒體采訪時說。

在具體規(guī)劃方面,吳曉如表示,一是要面對場景應(yīng)用建立場景模型,使科大訊飛AI研究院打造未來行業(yè)場景模型時成本更低;二是提供AI+API(應(yīng)用程序接口,可理解為可公開訪問的“接入點”)超級工具,即終端用戶能直接上手的智能化工具,如財務(wù)報銷,人力輔助招聘;三是降低互動式虛擬人成本;四是為實現(xiàn)更低成本、更高效率打造軟硬一體化機(jī)器人;五是提升隱私和數(shù)據(jù)安全。

“AI感知方式必然要從單模態(tài)發(fā)展到多模態(tài)”

根據(jù)最新的技術(shù)進(jìn)展,科大訊飛新一代語音合成系統(tǒng)SMART-TTS已經(jīng)能夠生成高興、抱歉、撒嬌、嚴(yán)肅、悲傷、困惑、害怕、鼓勵、生氣、安慰、寵溺11種情感,每種情感有20檔強(qiáng)弱度不同的調(diào)節(jié)能力。除此之外,還提供了聲音的創(chuàng)造能力,讓使用者根據(jù)自己的喜好調(diào)節(jié)停頓、重音、語速等。

在11月18日舉行的2022科大訊飛全球1024開發(fā)者節(jié)上,科大訊飛AI研究院副院長高建清曾向澎湃科技在內(nèi)的媒體介紹這一新的系統(tǒng)。

“機(jī)器想更自然地與人類進(jìn)行交互,需要通過聽覺、視覺、語義以及各種傳感器的組合去獲取更多的有用信息,AI感知方式必然要從單模態(tài)發(fā)展到多模態(tài),逐步擬人化?!备呓ㄇ灞硎荆渲幸豁楆P(guān)鍵算法的突破在于,基于無監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練框架,使用少量有監(jiān)督數(shù)據(jù)進(jìn)行優(yōu)化。

具體而言,針對多模語音識別、情感識別等多模態(tài)任務(wù),全新的預(yù)訓(xùn)練框架對音頻、人臉等不同模態(tài)的輸入“一視同仁”,利用其中內(nèi)容、表情及身份等信息的關(guān)聯(lián)性進(jìn)行融合,可設(shè)計出不同的訓(xùn)練目標(biāo)。而少量有監(jiān)督數(shù)據(jù)構(gòu)建碼本,讓訓(xùn)練機(jī)時下降八成,實現(xiàn)實用化預(yù)訓(xùn)練。

在聲音和虛擬形象生成技術(shù)方面,據(jù)高建清介紹,目前已經(jīng)實現(xiàn)了語義可控的聲音、形象生成,語義驅(qū)動的情感、動作表達(dá)。如輸入“一頭長發(fā)”,系統(tǒng)智能生成溫柔大方的女性形象,聲音端莊又不失甜美;輸入“英俊瀟灑”,生成有一些商務(wù)范的男生形象,聲音略帶磁性。

通過分析語音中的韻律節(jié)奏、語義信息,虛擬人即可據(jù)此流暢地切換動作,擁有更加自然的肢體語言?!芭c傳統(tǒng)動作庫相比,這套語義驅(qū)動的系統(tǒng)在動作擬人度及契合度方面,有明顯的效果提升?!备呓ㄇ逭f。

高建清透露,科大訊飛AI研究院下一步將發(fā)布三款重點產(chǎn)品:第一,2022年首發(fā)專業(yè)虛擬人,2023年打造數(shù)字經(jīng)濟(jì)下的虛擬人家族;第二,2023年發(fā)布可養(yǎng)成寵物玩具;第三,將在2023年發(fā)布青少年抑郁癥篩查平臺,以免費方式向全國發(fā)放。

整體而言,對于接下來人工智能和元宇宙的結(jié)合,吳曉如對澎湃科技表示,“未來元宇宙和現(xiàn)實世界作對應(yīng)交互時,需要完成信息相互溝通,這可能是我們下一步發(fā)力的重點?!?/p>

    責(zé)任編輯:鄭潔
    校對:欒夢
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司