下載客戶端

登錄

長(zhǎng)篇大論中抓取精華，語音實(shí)時(shí)生成知識(shí)圖譜，這個(gè)系統(tǒng)可謂是首個(gè)

2020-08-06 17:10

來源：澎湃新聞·澎湃號(hào)·湃客

聽全文

機(jī)器之心報(bào)道

機(jī)器之心編輯部

基于文本生成知識(shí)圖譜的研究很常見，但是基于語音生成知識(shí)圖譜，這算是第一家。

在這個(gè)信息飛速發(fā)展的時(shí)代，數(shù)據(jù)呈爆炸式增長(zhǎng)。而互聯(lián)網(wǎng)信息的多元性、異構(gòu)性、結(jié)構(gòu)松散等特點(diǎn)，給人們有效獲取信息和知識(shí)帶來了挑戰(zhàn)。

知識(shí)圖譜（Knowledge Graph) 憑借強(qiáng)大的語義處理能力，為互聯(lián)網(wǎng)時(shí)代的知識(shí)化組織和智能應(yīng)用奠定了基礎(chǔ)，并被廣泛應(yīng)用于智能搜索、知識(shí)問答、輿情分析等領(lǐng)域。

然而在現(xiàn)有的技術(shù)中，大部分研究集中在從文本轉(zhuǎn)化到圖譜的過程，卻忽略了從語音實(shí)時(shí)轉(zhuǎn)換到圖譜的研究。

本文將介紹一篇關(guān)于從語音到圖譜構(gòu)建的論文，可以說是該領(lǐng)域的首個(gè)相關(guān)研究。這篇來自明略科學(xué)院知識(shí)工程實(shí)驗(yàn)室的論文已被人工智能國(guó)際頂會(huì) IJCAI 2020 Demonstrations Track 接收。

論文鏈接：https://www.ijcai.org/Proceedings/2020/0777.pdf

論文簡(jiǎn)介

近年來語音接口受到極大歡迎。以智能音箱為例，截至 2019 年，估計(jì)有 35％的美國(guó)家庭至少配備了一個(gè)智能音箱。目前盡管存在成熟的語音識(shí)別工具包和商業(yè)語音轉(zhuǎn)錄系統(tǒng)，但面對(duì)長(zhǎng)篇大論的交談中，人們?nèi)噪y以集中精力抓取其中的關(guān)鍵所在。而知識(shí)圖譜可以追溯到早期的專家系統(tǒng)研究和語義網(wǎng)絡(luò)，它提供了一種方法，這種方法可以可視化演講者的關(guān)鍵思想。

對(duì)于知識(shí)圖譜的概念有不同的定義。這篇論文遵循此定義：「知識(shí)圖譜作為一種數(shù)據(jù)表示工具，是對(duì)實(shí)體、屬性、概念以及它們之間的關(guān)系進(jìn)行建?！埂榱藦恼Z音中構(gòu)造知識(shí)圖譜，有兩個(gè)關(guān)鍵組件是必須的「實(shí)體 - 關(guān)系 - 實(shí)體」三元組和「實(shí)體 - 屬性」對(duì)，如圖 1 所示。

在此論文中，來自明略科技的研究者們提出了 HAO 圖譜，它基于 HAO 智能，而 HAO 智能整合了人類智能（HI），人工智能（AI）和組織智能（OI），實(shí)現(xiàn)了中文文本和語音知識(shí)圖譜的實(shí)時(shí)生成和可視化，填補(bǔ)了本領(lǐng)域的空白。

圖 1：知識(shí)圖譜可視化示例

該論文主要有三大貢獻(xiàn)：

該系統(tǒng)是已知首個(gè)公開發(fā)布的從語音中構(gòu)建知識(shí)圖譜的系統(tǒng)；

該系統(tǒng)設(shè)計(jì)并實(shí)現(xiàn)實(shí)時(shí)的語音圖譜架構(gòu)，能夠根據(jù)演講者的主題在圖譜之間切換；

該系統(tǒng)還可以從開放的中文篇章中生成知識(shí)圖譜。

系統(tǒng)架構(gòu)

HAO 圖譜系統(tǒng)到底是怎樣實(shí)現(xiàn)的？我們來看看它的技術(shù)架構(gòu)。

圖 2：系統(tǒng)整體架構(gòu)圖

語音轉(zhuǎn)文本三大模塊

首先，需要將語音轉(zhuǎn)換為文本，這需要三大模塊。

Monitor：語音是根據(jù) WebSocket 協(xié)議從前端 HTML 頁面?zhèn)鬏數(shù)?。該模塊通過端口實(shí)時(shí)監(jiān)控前端頁面發(fā)送的二進(jìn)制語音流信號(hào)數(shù)據(jù)，并將數(shù)據(jù)保存在緩沖池中。當(dāng)緩沖池?cái)?shù)據(jù)大于 16000 字節(jié)時(shí)，緩沖池中的二進(jìn)制語音流數(shù)據(jù)傳輸?shù)胶罄m(xù)的「語音轉(zhuǎn)文本」模塊中。

ASR 模塊：該模塊將接收到的二進(jìn)制語音流數(shù)據(jù)轉(zhuǎn)換為無標(biāo)點(diǎn)的文本，并以多線程的方式將其發(fā)送到前端，得到「語音轉(zhuǎn)文本」顯示結(jié)果。緩沖池中的無標(biāo)點(diǎn)文本則根據(jù)上下文信息進(jìn)行校對(duì)和更正，修正后的結(jié)果被傳遞給后續(xù)的「文本標(biāo)點(diǎn)」模塊。

標(biāo)點(diǎn)模塊：該模塊通過在中國(guó)日?qǐng)?bào)語料庫(kù)上基于 BERT 訓(xùn)練的模型，將接收到的無標(biāo)點(diǎn)文本數(shù)據(jù)轉(zhuǎn)換為帶有標(biāo)點(diǎn)符號(hào)的文本數(shù)據(jù)，并將轉(zhuǎn)換結(jié)果保存在文本緩沖池中。此緩沖池用于緩存已加標(biāo)點(diǎn)的文本，這是因?yàn)橹挥性谧R(shí)別出完整的句子后，該句子才會(huì)被發(fā)送到后續(xù)的「知識(shí)圖譜構(gòu)建」服務(wù)中，因此該模塊會(huì)將完整的句子發(fā)送到知識(shí)圖譜構(gòu)建階段，最后一部分沒有標(biāo)點(diǎn)符號(hào)的文本被緩存。如果帶標(biāo)點(diǎn)的文本都是完整的句子，并且句號(hào)在文本的末尾，則緩沖池被清空。

知識(shí)圖譜構(gòu)建階段

將語音轉(zhuǎn)換成文本后，現(xiàn)在進(jìn)入知識(shí)圖譜構(gòu)建階段。該論文介紹了基于文本構(gòu)建知識(shí)圖譜所需的 5 個(gè)關(guān)鍵步驟：

預(yù)處理：這一步驟包括了去除提取文本中的特殊字符，利用基于 BERT 的序列標(biāo)注模型進(jìn)行中文分詞和詞性分析，通過基于中心語驅(qū)動(dòng)的短語結(jié)構(gòu)語法的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行依存句法分析。這些模型均在 Penn Chinese Treebank 數(shù)據(jù)集上訓(xùn)練得到。

分塊（Chunking）：根據(jù)預(yù)處理階段詞性標(biāo)注和依存關(guān)系的結(jié)果，按照規(guī)則對(duì)名詞詞性（如專有名詞 NR 和其他名詞 NN 等）進(jìn)行分組組合。規(guī)則包括但不限于兩個(gè)連續(xù)的專有名詞（組）、專有名詞后接其他名詞、專有名詞用標(biāo)點(diǎn)符號(hào)或連詞隔開。值得一提的是，該合并過程是遞歸執(zhí)行的。例如，「人工智能，大數(shù)據(jù)，及物聯(lián)網(wǎng)技術(shù)」這個(gè)短語中包含了三個(gè)專有名詞、一個(gè)標(biāo)點(diǎn)符號(hào)和一個(gè)連詞。在分塊步驟中，這些詞被遞歸地合并為「人工智能，大數(shù)據(jù)及物聯(lián)網(wǎng)技術(shù)」，并產(chǎn)生最終的分塊結(jié)果。

指代消解：該模塊基于分塊得到的結(jié)果，將文本中待分析的代詞替換為指代消解模型的結(jié)果（即將代詞替換為所指的名詞）。

信息提?。涸谶M(jìn)行信息提取時(shí)，利用預(yù)處理步驟中解析的依存關(guān)系，將每個(gè)動(dòng)詞短語作為候選三元組的謂詞，并將其作為根節(jié)點(diǎn)遍歷與其相關(guān)的名詞短語。然后使用基于規(guī)則的方法提取三元組。對(duì)于三元組的主客體，抽取規(guī)則包括但不限于：關(guān)系的主體（nsubj）作為三元組主語，關(guān)系的主體（dobj）作為三元組賓語。

后處理：最后，將上一步驟中獲得的三元組進(jìn)行后處理操作，如刪除停用詞，將所有三元組集成起來并輸出。

主題切換

為了實(shí)現(xiàn)生動(dòng)的可視化，該研究設(shè)計(jì)了一個(gè)基于圖數(shù)據(jù)庫(kù)數(shù)據(jù)和上游模塊返回結(jié)果來檢測(cè)主題變化的模塊。如果當(dāng)前內(nèi)容與之前的內(nèi)容屬于同一主題，則圖數(shù)據(jù)庫(kù)中與該主題相關(guān)的所有實(shí)體關(guān)系都將發(fā)送到前端進(jìn)行顯示。如果當(dāng)前內(nèi)容和前面的內(nèi)容不屬于同一主題，則只有當(dāng)前內(nèi)容的圖結(jié)果顯示在首頁上。

知識(shí)圖譜抽象化

在基于語音生成知識(shí)圖譜的過程中，語速快導(dǎo)致節(jié)點(diǎn)和邊的數(shù)量急劇增加。因此，從完整語音中生成可視化的知識(shí)圖譜變得非常復(fù)雜，這種情況甚至比原始文本更難理解。為了解決上述問題，該研究通過以下三個(gè)步驟對(duì)知識(shí)圖譜進(jìn)行抽象化處理：

關(guān)鍵集提?。菏紫?，對(duì)于數(shù)據(jù)集 NLPCC 2017 corpus 中的所有文檔集合，通過選擇 TF-IDF 最高的詞語，基于完全的語音轉(zhuǎn)錄文本獲得一組關(guān)鍵詞。另外，將中心度較高的節(jié)點(diǎn)選入關(guān)鍵節(jié)點(diǎn)集中。

抽象過濾：其次，應(yīng)用規(guī)則從語音系統(tǒng)中獲取抽象化的知識(shí)圖譜。使用關(guān)鍵詞和關(guān)鍵節(jié)點(diǎn)集合之間的交集對(duì)「實(shí)體關(guān)系三元組」和「實(shí)體屬性對(duì)」進(jìn)行過濾。

組件選擇：最后，從知識(shí)圖譜中選出最大連通分量。這一步很關(guān)鍵，因?yàn)樾》至客ǔ]有明確的含義，如下圖 3 左上角所示。

圖 3：在執(zhí)行「組件選擇」步驟之前，基于長(zhǎng)語音構(gòu)建的知識(shí)圖譜及其抽象（彩色部分）。

最后，作為首個(gè)基于語音實(shí)時(shí)生成知識(shí)圖譜的系統(tǒng)，HAO 圖譜的效果如何呢？明略科技進(jìn)行了滿意度調(diào)查。

在今年 1 月舉辦的 2000 人左右的會(huì)議上，該系統(tǒng)實(shí)時(shí)地從兩小時(shí)的談話中提取知識(shí)圖譜。滿意度調(diào)查顯示，61.54% 的受訪者認(rèn)為 HAO 圖譜有助于更清楚地了解談話內(nèi)容，41.76% 的受訪者認(rèn)為該系統(tǒng)可以緩解認(rèn)知疲勞。超過 65% 的受訪者對(duì)該系統(tǒng)是否加強(qiáng)了溝通方面給予了 5/5 星級(jí)的評(píng)價(jià)。

Amazon SageMaker 是一項(xiàng)完全托管的服務(wù)，可以幫助開發(fā)人員和數(shù)據(jù)科學(xué)家快速構(gòu)建、訓(xùn)練和部署機(jī)器學(xué)習(xí) 模型。SageMaker完全消除了機(jī)器學(xué)習(xí)過程中每個(gè)步驟的繁重工作，讓開發(fā)高質(zhì)量模型變得更加輕松。

現(xiàn)在，企業(yè)開發(fā)者可以免費(fèi)領(lǐng)取1000元服務(wù)抵扣券，輕松上手Amazon SageMaker，快速體驗(yàn)5個(gè)人工智能應(yīng)用實(shí)例。

? THE END

轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)

投稿或?qū)で髨?bào)道：content@jiqizhixin.com

原標(biāo)題：《長(zhǎng)篇大論中抓取精華，語音實(shí)時(shí)生成知識(shí)圖譜，這個(gè)系統(tǒng)可謂是首個(gè)》

閱讀原文

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)

#語音