歷史學家的新技藝：遙讀作為史料的電子郵件

王濤

2018-03-25 15:01

來源：澎湃新聞

讀過這個系列文章前傳的讀者，應(yīng)該對“歷史學家的新技藝”多了幾分認知，也大致了解到用數(shù)字手段處理電子郵件的趣味。但是，對歷史學者而言，前傳中使用的方法還停留在郵件的外圍，雖然新奇有趣，但流于表面，還隱約有一點炫技的成份。電子郵件的文本蘊藏著更為豐富的內(nèi)容，不對它們進行解讀，而把精力用在最表層的統(tǒng)計上，無疑是浪費了手中的一把好牌。

進入郵件的內(nèi)部

10年的電子郵件，已經(jīng)構(gòu)成了一個小型的數(shù)據(jù)集。10076封電郵，雖然都已經(jīng)由筆者閱讀和書寫，但要概括這個電郵數(shù)據(jù)集的內(nèi)容，并不是一件容易的事情。傳統(tǒng)的方法是把電子郵件當作史料一樣去閱讀、整理、分類，在細讀中不斷提取重要信息。雖然每封電郵并非長篇大論，但成千上萬封郵件疊加起來，需要花費的時間也不是一個小數(shù)目。筆者大致?lián)Q算了一下，所有郵件正文內(nèi)容字數(shù)超過了300萬，如果用A4紙打印的話，需要2100余張。Chauvin并不是什么名師大家，這樣的耗時耗力是否值當？既想把握文獻的內(nèi)容，又不想太花心思，這樣兩全其美的事情到底有沒有呢？有！這也正是歷史學家需要掌握的新技藝之提高版。

幫助研究者獲得爬梳史料的捷徑，恰好是“遙讀”（distance reading）最擅長的地方。古人所云，“觀其大略而達至豁然貫通”，似乎提前預(yù)知了數(shù)字人文技法的高效率。對于我們的電郵數(shù)據(jù)集，遙讀的方法正合“觀其大略”的訴求。我們就把這場實驗做得更加深入一些，看能否挖掘出更有趣味的結(jié)果來。

最簡易的一種方式，就是老少咸宜的詞頻統(tǒng)計。當然，可以供我們進行內(nèi)容挖掘的對象，其實包含兩種類型的文本：郵件的主題以及郵件內(nèi)容。詞頻統(tǒng)計的方法對應(yīng)這兩種文本，可能有不一樣的適用度。主題本身就具概括性，所以詞頻統(tǒng)計時逢對手，或許能有精細的結(jié)果；郵件內(nèi)容要龐雜一些，輸出的結(jié)果可能要粗枝大葉。我們這樣猜測，實際結(jié)果又如何呢？

詞頻統(tǒng)計

我們確實能夠讀到細微的差別。左圖高頻詞“回復(fù)”的存在，一眼就讓人看出了電郵標題的特質(zhì)；而右圖中的“老師”，應(yīng)該是郵件開頭的稱謂。標題的詞頻在一定程度上說明了大致的內(nèi)容，比如跟會議通知、信用卡、網(wǎng)上購物等相關(guān)；內(nèi)容詞頻所涉及的詞匯反而過于寬泛，無法重建有效信息。當然，即便是左圖的詞頻也不能透露郵件內(nèi)容的更多細節(jié)。

由此觀之，詞頻統(tǒng)計固然有其價值，但這種方法挖掘出來的信息極其有限。如果想了解電郵數(shù)據(jù)集討論了哪些主題，主題有沒有時間軸層面的變化等，還需要用其他的方式來解決。我們想到了主題模型的算法，它絕對是投機取巧、了解文獻大略的“懶人”方法。

主題模型的基本原理還是基于詞頻統(tǒng)計，因為不論是說話還是寫文章，我們?yōu)榱苏f明某個主題，一定會頻繁調(diào)用跟這個主題密切相關(guān)的詞匯。主題模型的算法比初級統(tǒng)計高明的地方在于，它能夠精準將相關(guān)詞匯聚合起來，讓導出的高頻詞看上去能夠講訴一個內(nèi)涵故事。

這個工具的好處是不需要研究者深度參與。換句話說，筆者可以無腦地將電郵數(shù)據(jù)集丟給算法，它就能夠兢兢業(yè)業(yè)地吐出一些詞群出來。接下來只需要瀏覽數(shù)十個關(guān)鍵詞，就能夠大致推算整幅數(shù)據(jù)集的“大觀”了。聽上去是不是很美好？

當然，理想很豐滿，現(xiàn)實太骨感。主題模型的算法雖然是無監(jiān)督的學習，但它并不智能，尤其需要我們對數(shù)據(jù)集文本提前進行預(yù)處理：它只“讀得懂”某種結(jié)構(gòu)化的數(shù)據(jù)，而對一個歷史學者而言，要把毫無章法的電郵數(shù)據(jù)集進行結(jié)構(gòu)化整理，是令人吐血的工作。不過，數(shù)據(jù)清洗的各種準備，是懂數(shù)據(jù)分析的歷史學者必然要經(jīng)歷的涅槃之路，因為只有這樣，柳暗花明的豁然貫通之感才格外真切。

我們略去一把辛酸淚的數(shù)據(jù)清洗過程，直接跳到結(jié)局吧。十年的電郵數(shù)據(jù)集，在主題模型的眼中，可以簡至只需用300字來表達。最初，300萬字被精簡成下面的樣子（部分結(jié)果；為了保護隱私，將結(jié)果中出現(xiàn)的人名隱去）：

每一行都可以被理解成一個主題，其格式分別代表主題編號、在數(shù)據(jù)集中的比率以及詞群。詞群不是簡單的高頻詞疊加，雖然不免也有一些不相干的詞亂入，但總體來看聚集起來的還是能夠講故事的相關(guān)聯(lián)實體。看到不同的詞群，許多往事立馬就涌上心頭。比如主題7，看到了北大歷史系許多熟悉的名字，反映了筆者在北大讀書期間的生活經(jīng)歷。關(guān)鍵詞表明了大部分內(nèi)容都跟學生工作相關(guān)，沒錯，“發(fā)件王”H就名列其中。在南海研究中心擔任秘書的經(jīng)歷，體現(xiàn)在了主題6之中。曾經(jīng)做輔導員的經(jīng)歷也被挖掘出來了，“輔導員”就是要跟不同學生打交道，與學生們的互動也就相當頻繁，主題10還有諸如“申請表”等關(guān)鍵詞，透露著學生工作的事務(wù)性。

主題模型精準提取主題的能力有時候令人驚訝。主題2分明是一個學生在國外（加拿大）發(fā)來的問候；而主題29則是筆者開設(shè)的《基督教文明史》、《德意志精神與文化》等課程，與學生們的課程交流。這兩個主題在郵件集中屬于小眾內(nèi)容，居然也被算法提取出來了。

文本聚類的算法為我們深入理解龐雜的電郵數(shù)據(jù)集提供了一種指引。有效信息當然不止步于每個主題的10個關(guān)鍵詞。實際上，算法還提供了更加豐富的細節(jié)，不過它們往往以數(shù)據(jù)矩陣的方式存在，讓我們歷史學者一看就感覺頭大。比如，它們可能是這樣的：

或者是這樣的：

我們需要換一種更加直觀的方式來觀察數(shù)據(jù)的細節(jié)。實際上，這些數(shù)據(jù)能夠更清晰地描繪Chauvin用電子郵件編織起來的“書信空間”，并且彰顯其獨有的屬性。比如，那位“發(fā)件王”H，TA究竟在發(fā)什么？屈尊第二的G，又有哪些不同？WH2與WH12在跟Chauvin交流什么？R用德語跟Chauvin在討論什么問題？

每個主題用10個詞來表達，是筆者的人為設(shè)定。實情是，算法給出了遠遠多于10個關(guān)鍵詞的主題矩陣，而且每個詞具有不同的權(quán)重。我們可以效法文字云，做出主題的詞云來，每個主題的細節(jié)更加豐富了。于是，仍然以主題7為例，我們看到了諸如“報告會”、“研究生院”、“組織部”等詞，北京大學的生活經(jīng)歷就變得愈加立體了。我們也看到廣告郵件的頑強存在感，主題33表明Chauvin是“當當網(wǎng)”的忠實客戶，但他不過是在他們家買了一些書，卻被推送了許多不相關(guān)的商品。主題13則顯示Chauvin是12306在線購買火車票的重度依賴者。

主題詞云

如前傳所述，R代表了Chauvin的書信空間中的另外一個群體——外國人。他們之間用英文或者德語交流，雖然總數(shù)不到1000封，但仍然值得我們用技術(shù)手段來解析它們。這里的潛臺詞是，對于電腦而言，不論是中文還是西文，在算法的眼中都是字符，量化統(tǒng)計的方法讓電腦搖身一變成為“精通”數(shù)國文字的語言達人。算法既然如此神奇，那我們想從更多元化的角度來剖析電郵數(shù)據(jù)集的狀態(tài)。比如，盡管主題分門別類，但在整個數(shù)據(jù)集中的權(quán)重都一樣嗎？每一個郵件同主題的對應(yīng)關(guān)系如何？

這些問題都可以用升級版的主題模型算法得到實現(xiàn)。我們用西文的郵件作為分析對象。

首先，不同主題在整個電郵數(shù)據(jù)集的權(quán)重可以用主題云的形式呈現(xiàn)出來。

主題云

基本上，與Chauvin有電郵往復(fù)的外國友人，都分別被擬合到不同的主題之下，而R是當之無愧的最佳筆友；另一個比較重要的國際友人是哈佛大學歷史系的教授。比較有趣的是，ahediting與armstronghiton的存在，主要是由于兩家論文翻譯公司的廣告郵件，算法把他們放置在同一個主題下，也算臭味相投。當然，這張主題云只顯示了最關(guān)鍵的5個單詞，是為了可視化的效果犧牲了主題內(nèi)容的完整性。但我們依然可以把更多的主題詞調(diào)動出來，甚至用語義網(wǎng)絡(luò)的思路來剖析一下郵件的細節(jié)。當筆者和R在交換電郵的時候，我們在談?wù)撌裁茨兀?/p>

語義網(wǎng)呈現(xiàn)

前傳中提到過R是一位德國友人，通信內(nèi)容也圍繞著如何在南京開啟職業(yè)生涯。從語義網(wǎng)分析的結(jié)果，我們看到了各種約定，特別是有關(guān)“保險”（Krankenversicherung）的討論似乎彰顯了德國人的獨有特質(zhì)。

作為歷史學者，我們同樣關(guān)注時間。電子郵件實際上也是生活經(jīng)歷的記錄方式，如果Chauvin與通信伙伴就某個問題進行了持續(xù)性的郵件交換，那么主題在時間軸層面的演進就非常重要，這個過程能否被直觀地展示出來？我們?nèi)匀灰耘c哈佛大學教授的電郵為例：

主題的時間演變

該主題乃是筆者與哈佛教授的學術(shù)聯(lián)系。毫不避諱地說，筆者與哈佛教授的郵件往來有很強的功利性，很大程度上是為了獲得赴哈佛大學的訪學機會，經(jīng)過了多年的套近乎之后，筆者終于在2015年成行，之后的郵件通信果然就少了很多。這個主題在時間軸的演變，將這種目的性很強的通信聯(lián)系暴露了出來，我都為自己不近人情的做法汗顏。

最后的小結(jié)

誠如在前傳中所言，本文實質(zhì)上是游戲之作，目的是測試一下用技術(shù)手段處理電子史料的可能性。從最基本的量化統(tǒng)計，到郵件文本的解讀，都屬于歷史研究在實戰(zhàn)中不同層次的需求。我們驚喜地看到，數(shù)字人文的方法在不同維度上都能找到大施拳腳的空間。當然，我們也必須誠懇地意識到，技術(shù)手段介入歷史問題研究，在幫助研究者提高工作效率的同時，也不能忘記研究者的主體意識，即歷史研究要立足于解決問題，而不是單純地呈現(xiàn)數(shù)據(jù)之美妙。

筆者對Chauvin電子郵件數(shù)據(jù)集嘗試的各種技術(shù)工具，屬于自然語言處理領(lǐng)域最成熟的技術(shù)，潛臺詞就是，它們可能并不是最先進的算法。對于人文學者而言，哪怕是未來的歷史學家，擁有了比我們這代人更廣闊的數(shù)字人文的環(huán)境，要去追趕技術(shù)進步的步伐，或許也是艱巨的挑戰(zhàn)。面向未來的歷史研究，需要跟數(shù)據(jù)分析科學家深度合作，為具體的歷史問題量身定做算法，而不是亦步亦趨的效仿。所以，歷史學家真正以不變應(yīng)萬變的新技藝，其實是開放的心態(tài)和數(shù)據(jù)思維的提升；惟有如此，哪怕在不遠的將來人工智能技術(shù)進步一日千里，歷史學者的思維優(yōu)勢也能夠立于不敗之地。

（本文的寫作，依然要感謝南京大學軟件學院劉嘉、郭建朋的技術(shù)支持！）

責任編輯：鐘源

校對：施鋆

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#歷史學家的新技藝 #電子郵件 #個人史 #數(shù)字人文 #書信空間