中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

對(duì)話劍寒:如何跨方向技術(shù)融合,打造更智能的音視頻系統(tǒng)?

2023-07-04 16:04
來源:澎湃新聞·澎湃號(hào)·湃客
聽全文
字號(hào)

編者按:在 AI 時(shí)代,隨著 ChatGPT 掀起技術(shù)狂潮,構(gòu)建更智能的音視頻系統(tǒng)已經(jīng)成為音視頻領(lǐng)域從業(yè)者的共同目標(biāo)。

然而,音視頻系統(tǒng)的智能化,每個(gè)從業(yè)者對(duì)其都有自己獨(dú)特的視角和理解,正如“一千個(gè)人眼中有一千個(gè)哈姆雷特”一樣。盡管沒有統(tǒng)一的標(biāo)準(zhǔn)答案,我們?cè)L談了小紅書音視頻架構(gòu)師劍寒,聊聊他心中的智能化:像人眼一樣感知質(zhì)量是智能的,利用最新圖像生成技術(shù)的畫質(zhì)增強(qiáng)和修復(fù)是智能的,利用AI改善編解碼效果是智能的。

智能不僅于此,音視頻系統(tǒng)更大的智能可能在于跨方向技術(shù)融合以及系統(tǒng)全局優(yōu)化能力,從而實(shí)現(xiàn)看似矛盾的業(yè)務(wù)目標(biāo)。作為視頻 App 的新興入圍者,小紅書如何選擇自己的目標(biāo)?

劍寒表示:首先,在技術(shù)方向上,結(jié)合業(yè)務(wù)優(yōu)先級(jí)把單點(diǎn)技術(shù)能力做好;其次,重點(diǎn)迭代一些具有長(zhǎng)期價(jià)值和收益的技術(shù)框架,比如云端”窄帶高清”、端云結(jié)合超分、人眼感知的質(zhì)量評(píng)估等;最終實(shí)現(xiàn)保證用戶體驗(yàn),又能降低成本的智能系統(tǒng),從而實(shí)現(xiàn)業(yè)務(wù)目標(biāo)的最優(yōu)平衡。

希望對(duì)你有用,以下是對(duì)話:

LVS:可以概括介紹下你將在 LiveVideoStackCon 2023上海站分享的題目嗎?

劍寒:我分享的題目是《基于人眼感知質(zhì)量的端云結(jié)合畫質(zhì)及帶寬優(yōu)化實(shí)踐》,也是”降本增效”背景下小紅書的一個(gè)重點(diǎn)項(xiàng)目。如果簡(jiǎn)單看是一個(gè)端側(cè)超分的算法落地,學(xué)術(shù)界和工業(yè)界基于這個(gè)技術(shù)點(diǎn)其實(shí)已經(jīng)進(jìn)行了很長(zhǎng)的探索,但面向不同的業(yè)務(wù)場(chǎng)景和集成系統(tǒng),端側(cè)超分技術(shù)在業(yè)務(wù)目標(biāo)和技術(shù)方向上會(huì)有很明顯的區(qū)別。

比如面向一款新的硬件設(shè)備,只需要基于它的硬件加速器定制化地設(shè)計(jì)和優(yōu)化算法即可。而視頻業(yè)務(wù)及APP面向的終端用戶設(shè)備多樣復(fù)雜,技術(shù)優(yōu)化的用戶體驗(yàn)通常難以全面評(píng)估,落地覆蓋率直接影響收益大小。

在這個(gè)場(chǎng)景下,端側(cè)超分技術(shù)的演進(jìn)方向不再是獨(dú)立算法模塊的設(shè)計(jì)和優(yōu)化,而是結(jié)合從云端消費(fèi)檔位生產(chǎn)、人眼感知的質(zhì)量評(píng)估到播控及端側(cè)超分的整條視頻處理鏈路的端到端優(yōu)化,這會(huì)極大的釋放端側(cè)超分的潛力,一定程度上解決前面提到的技術(shù)挑戰(zhàn)。本次分享是我們?cè)谶@個(gè)主題下的一些系統(tǒng)總結(jié)和實(shí)踐,當(dāng)然這也是一個(gè)長(zhǎng)期建設(shè)方向,當(dāng)前我們已經(jīng)拿到了一些收益,相信在這個(gè)框架下,未來通過技術(shù)迭代還會(huì)有很大的空間。

LVS:你怎么看待算力、成本和用戶體驗(yàn)的這三角關(guān)系?

劍寒:_從靜態(tài)的角度來講,不做任何技術(shù)的優(yōu)化,可以考慮用更大的算力、更高的成本去實(shí)現(xiàn)用戶體驗(yàn)的提升,比如大的算力可以支撐更高復(fù)雜度且更好效果的算法落地,也提升了算法處理的時(shí)效性;_為了提升用戶體驗(yàn),我們可以提升視頻消費(fèi)碼率,而帶來帶寬成本的增加?;蛘叻催^來,通過犧牲一些用戶體驗(yàn)節(jié)省算力和成本。音視頻領(lǐng)域有很多這種trade-off,也有很多特例,比如提升視頻消費(fèi)碼率和分辨率一般情況會(huì)提升用戶體驗(yàn),但是在網(wǎng)絡(luò)不好時(shí)可能會(huì)導(dǎo)致視頻卡頓,用戶體驗(yàn)反而下降。因此我更喜歡分析每個(gè)因素有什么優(yōu)劣勢(shì),看每個(gè)變量在當(dāng)前系統(tǒng)狀態(tài)下會(huì)產(chǎn)生什么影響,針對(duì)具體業(yè)務(wù)目標(biāo)case by case分析和決策。

_而從動(dòng)態(tài)的角度講,由于技術(shù)是不停迭代的,可以通過技術(shù)優(yōu)化同時(shí)提升用戶體驗(yàn)并降低成本。_比如現(xiàn)在每一代的編碼標(biāo)準(zhǔn),可以做到相同的質(zhì)量下節(jié)省30%-50%的碼率,這意味著用戶體驗(yàn)基本不變,但是帶寬成本就節(jié)省了很多。上面提到的端側(cè)超分技術(shù),也有類似的收益。除了技術(shù)優(yōu)化,還有很多策略發(fā)揮作用。比如現(xiàn)在CDN的帶寬成本是根據(jù)高峰期收費(fèi)的,這里的策略是,在非高峰期的時(shí)候我可以增加碼率來提升用戶體驗(yàn),但并不增加帶寬成本。當(dāng)然這里也涉及一個(gè)準(zhǔn)確預(yù)測(cè)高峰期時(shí)段的問題。

所以說音視頻這個(gè)領(lǐng)域,它其實(shí)是一個(gè)系統(tǒng),并不是一個(gè)單一的點(diǎn),我們可以從算法上以及系統(tǒng)的策略上同時(shí)實(shí)現(xiàn)看似矛盾的業(yè)務(wù)目標(biāo)。

LVS:面對(duì)用戶追求更高清更極致的視頻體驗(yàn)趨勢(shì),視頻編解碼的技術(shù)顯得至關(guān)重要,針對(duì)這個(gè)以及其它技術(shù)方向,你們團(tuán)隊(duì)有什么目標(biāo)嗎?

劍寒:視頻編解碼技術(shù)迭代非常重要,目前我們已經(jīng)落地了H.265這一代標(biāo)準(zhǔn),而且達(dá)到了很高的覆蓋率,在研的包括AV1標(biāo)準(zhǔn),已經(jīng)開始了一些實(shí)驗(yàn)驗(yàn)證。未來H.266也可能會(huì)跟進(jìn)。

除此之外,在AI時(shí)代,構(gòu)建更智能的音視頻處理是我們的一個(gè)目標(biāo),這里包括各種畫質(zhì)增強(qiáng)及修復(fù)技術(shù)、質(zhì)量和內(nèi)容分析技術(shù)、以及智能編碼技術(shù)。在技術(shù)方向上,首先會(huì)結(jié)合業(yè)務(wù)優(yōu)先級(jí)把單點(diǎn)技術(shù)能力做好,比如使用云端超分技術(shù)提升1080P視頻占比,面向通用場(chǎng)景的紋理及清晰度視頻增強(qiáng)。此外,我們會(huì)迭代一些具有長(zhǎng)期價(jià)值和收益的技術(shù)框架,比如云端”窄帶高清”、端云結(jié)合超分、人眼感知的質(zhì)量評(píng)估等。

現(xiàn)在音視頻處理的智能化程度其實(shí)還有很大空間,個(gè)人理解挑戰(zhàn)主要有兩個(gè)方面:

_1.音視頻處理不是單一技術(shù),_從當(dāng)前技術(shù)發(fā)展來看,很難用一個(gè)大模型來實(shí)現(xiàn),一個(gè)更智能的視頻處理系統(tǒng)應(yīng)該是包含high level語義理解、low level圖像處理、編解碼技術(shù)的某種融合體,而當(dāng)前算法方向的典型人才畫像是聚焦在某一個(gè)技術(shù)點(diǎn)上。我相信未來復(fù)合型人才和具有系統(tǒng)理解的算法人有機(jī)會(huì)做出突破。

2.智能化意味著大數(shù)據(jù)驅(qū)動(dòng),ChatGPT的訓(xùn)練數(shù)據(jù)可以來自高質(zhì)量的問答,通過自監(jiān)督訓(xùn)練進(jìn)行大規(guī)模學(xué)習(xí),構(gòu)建高質(zhì)并準(zhǔn)確的數(shù)據(jù)集在音視頻領(lǐng)域會(huì)更加困難,Groudtruth以及退化模型是否準(zhǔn)確通常是音視頻算法面臨的第一個(gè)關(guān)鍵問題。

目前業(yè)界的探索更多的集中在單點(diǎn)能力的智能化,比如利用圖像生成技術(shù)的畫質(zhì)增強(qiáng)算法、利用AI提升編解碼子模塊效率等,這些都是我們可以跟進(jìn)的技術(shù)點(diǎn),但我們也希望在跨方向技術(shù)融合以及全局優(yōu)化能力上做更多的探索和實(shí)踐,為此來找到提升音視頻系統(tǒng)智能化的有效途徑。

LVS:每個(gè)人都有自己認(rèn)為的主觀好與壞,所以,該如何驗(yàn)證畫質(zhì)優(yōu)化算法對(duì)主觀質(zhì)量提升是否有效?

劍寒:這個(gè)問題其實(shí)也是前一個(gè)問題回答中所說的“構(gòu)建高質(zhì)并準(zhǔn)確的數(shù)據(jù)集在音視頻領(lǐng)域會(huì)更加困難”的一個(gè)佐證,每個(gè)人對(duì)于畫質(zhì)好壞的判斷都是不一樣的。不過,是有國(guó)際標(biāo)準(zhǔn)來指導(dǎo)的,簡(jiǎn)單說就是,在一個(gè)可控環(huán)境條件下,通過專家評(píng)測(cè)和眾測(cè)來判斷畫質(zhì)是否有提升,其中眾測(cè)是對(duì)于同一個(gè)視頻收集多人的評(píng)價(jià)結(jié)果,通過統(tǒng)計(jì)的方法來消除個(gè)體上的差異,雖然不一定符合某個(gè)人的判斷標(biāo)準(zhǔn),但是代表了大多數(shù)人的意見。

當(dāng)然,主觀專家評(píng)測(cè)和眾測(cè)由于時(shí)間和操作成本只能在小數(shù)據(jù)量上驗(yàn)證,真正上線還需要經(jīng)過大盤的檢驗(yàn),這里一般會(huì)使用AB實(shí)驗(yàn)的方式,通過對(duì)比一些關(guān)鍵業(yè)務(wù)和技術(shù)指標(biāo)來佐證大盤上的表現(xiàn)。需要注意的是,AB實(shí)驗(yàn)的影響因素很多,不完全是畫質(zhì)上的,需要結(jié)合方案具體分析實(shí)驗(yàn)數(shù)據(jù)。

LVS:作為一個(gè)非常大的UGC內(nèi)容社區(qū),小紅書圖像或視頻的來源可以說非常寬泛,所以有時(shí)真實(shí)拍攝環(huán)境不受控,導(dǎo)致內(nèi)容質(zhì)量不能保證。這種質(zhì)量評(píng)價(jià)問題,你是怎么處理的?

劍寒:我們今年落地了一個(gè)基于AI的無參考視頻質(zhì)量評(píng)估算法來解決這個(gè)問題,它基于人眼感知質(zhì)量對(duì)任意視頻做絕對(duì)質(zhì)量評(píng)判,像你說的,UGC視頻的多樣性對(duì)于數(shù)據(jù)驅(qū)動(dòng)的AI算法來說是一個(gè)挑戰(zhàn)。此外,當(dāng)視頻經(jīng)過整個(gè)視頻鏈路的處理后質(zhì)量變化也極大,帶來了更大的復(fù)雜性,比如特效編輯、多檔位視頻增強(qiáng)和轉(zhuǎn)碼等。因此,數(shù)據(jù)集是要精心設(shè)計(jì)的,既要包含線上的主要質(zhì)量問題,同時(shí)需要主動(dòng)構(gòu)造一些難以直接從線上采集到的case,核心點(diǎn)是,如何用盡量少的數(shù)據(jù)樣本代表大盤,這里有一些技術(shù)上的輔助手段,比如數(shù)據(jù)采樣方法。

算法設(shè)計(jì)上,重點(diǎn)是如何有效提取質(zhì)量特征,這里需要對(duì)質(zhì)量問題的產(chǎn)生過程有充分的認(rèn)知,比如視頻鏈路中編輯和轉(zhuǎn)碼會(huì)如何影響質(zhì)量,我總結(jié)幾個(gè)關(guān)鍵點(diǎn)分享給大家:

1. 全局構(gòu)圖和局部紋理信息都很重要,質(zhì)量相關(guān)特征體現(xiàn)在局部紋理上,而劣化程度在于全局感知;2. 捕捉大范圍時(shí)空信息及依賴關(guān)系,人眼對(duì)質(zhì)量的感知涉及到整體語義理解、關(guān)注區(qū)域、創(chuàng)作意圖理解等,很多視頻處理操作會(huì)在較大的時(shí)空范圍內(nèi)影響質(zhì)量,比如碼率分配、ROI編碼等。3. 質(zhì)量評(píng)估數(shù)據(jù)集的量級(jí)和完備程度遠(yuǎn)低于分類識(shí)別等CV任務(wù),我們需要某種顯式地輔助質(zhì)量特征提取的手段,一種方法是通過添加有序的質(zhì)量樣本或者利用質(zhì)量評(píng)估的代理任務(wù),進(jìn)行數(shù)據(jù)增強(qiáng)及質(zhì)量特征自監(jiān)督學(xué)習(xí)。

▲掃描圖中二維碼或點(diǎn)擊“閱讀原文” 查看更多精彩內(nèi)容▲

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司