- +1
歷史學家的新技藝:遙讀作為史料的電子郵件
讀過這個系列文章前傳的讀者,應(yīng)該對“歷史學家的新技藝”多了幾分認知,也大致了解到用數(shù)字手段處理電子郵件的趣味。但是,對歷史學者而言,前傳中使用的方法還停留在郵件的外圍,雖然新奇有趣,但流于表面,還隱約有一點炫技的成份。電子郵件的文本蘊藏著更為豐富的內(nèi)容,不對它們進行解讀,而把精力用在最表層的統(tǒng)計上,無疑是浪費了手中的一把好牌。
進入郵件的內(nèi)部
10年的電子郵件,已經(jīng)構(gòu)成了一個小型的數(shù)據(jù)集。10076封電郵,雖然都已經(jīng)由筆者閱讀和書寫,但要概括這個電郵數(shù)據(jù)集的內(nèi)容,并不是一件容易的事情。傳統(tǒng)的方法是把電子郵件當作史料一樣去閱讀、整理、分類,在細讀中不斷提取重要信息。雖然每封電郵并非長篇大論,但成千上萬封郵件疊加起來,需要花費的時間也不是一個小數(shù)目。筆者大致?lián)Q算了一下,所有郵件正文內(nèi)容字數(shù)超過了300萬,如果用A4紙打印的話,需要2100余張。Chauvin并不是什么名師大家,這樣的耗時耗力是否值當?既想把握文獻的內(nèi)容,又不想太花心思,這樣兩全其美的事情到底有沒有呢?有!這也正是歷史學家需要掌握的新技藝之提高版。
幫助研究者獲得爬梳史料的捷徑,恰好是“遙讀”(distance reading)最擅長的地方。古人所云,“觀其大略而達至豁然貫通”,似乎提前預(yù)知了數(shù)字人文技法的高效率。對于我們的電郵數(shù)據(jù)集,遙讀的方法正合“觀其大略”的訴求。我們就把這場實驗做得更加深入一些,看能否挖掘出更有趣味的結(jié)果來。
最簡易的一種方式,就是老少咸宜的詞頻統(tǒng)計。當然,可以供我們進行內(nèi)容挖掘的對象,其實包含兩種類型的文本:郵件的主題以及郵件內(nèi)容。詞頻統(tǒng)計的方法對應(yīng)這兩種文本,可能有不一樣的適用度。主題本身就具概括性,所以詞頻統(tǒng)計時逢對手,或許能有精細的結(jié)果;郵件內(nèi)容要龐雜一些,輸出的結(jié)果可能要粗枝大葉。我們這樣猜測,實際結(jié)果又如何呢?

我們確實能夠讀到細微的差別。左圖高頻詞“回復(fù)”的存在,一眼就讓人看出了電郵標題的特質(zhì);而右圖中的“老師”,應(yīng)該是郵件開頭的稱謂。標題的詞頻在一定程度上說明了大致的內(nèi)容,比如跟會議通知、信用卡、網(wǎng)上購物等相關(guān);內(nèi)容詞頻所涉及的詞匯反而過于寬泛,無法重建有效信息。當然,即便是左圖的詞頻也不能透露郵件內(nèi)容的更多細節(jié)。
由此觀之,詞頻統(tǒng)計固然有其價值,但這種方法挖掘出來的信息極其有限。如果想了解電郵數(shù)據(jù)集討論了哪些主題,主題有沒有時間軸層面的變化等,還需要用其他的方式來解決。我們想到了主題模型的算法,它絕對是投機取巧、了解文獻大略的“懶人”方法。
主題模型的基本原理還是基于詞頻統(tǒng)計,因為不論是說話還是寫文章,我們?yōu)榱苏f明某個主題,一定會頻繁調(diào)用跟這個主題密切相關(guān)的詞匯。主題模型的算法比初級統(tǒng)計高明的地方在于,它能夠精準將相關(guān)詞匯聚合起來,讓導出的高頻詞看上去能夠講訴一個內(nèi)涵故事。
這個工具的好處是不需要研究者深度參與。換句話說,筆者可以無腦地將電郵數(shù)據(jù)集丟給算法,它就能夠兢兢業(yè)業(yè)地吐出一些詞群出來。接下來只需要瀏覽數(shù)十個關(guān)鍵詞,就能夠大致推算整幅數(shù)據(jù)集的“大觀”了。聽上去是不是很美好?
當然,理想很豐滿,現(xiàn)實太骨感。主題模型的算法雖然是無監(jiān)督的學習,但它并不智能,尤其需要我們對數(shù)據(jù)集文本提前進行預(yù)處理:它只“讀得懂”某種結(jié)構(gòu)化的數(shù)據(jù),而對一個歷史學者而言,要把毫無章法的電郵數(shù)據(jù)集進行結(jié)構(gòu)化整理,是令人吐血的工作。不過,數(shù)據(jù)清洗的各種準備,是懂數(shù)據(jù)分析的歷史學者必然要經(jīng)歷的涅槃之路,因為只有這樣,柳暗花明的豁然貫通之感才格外真切。
我們略去一把辛酸淚的數(shù)據(jù)清洗過程,直接跳到結(jié)局吧。十年的電郵數(shù)據(jù)集,在主題模型的眼中,可以簡至只需用300字來表達。最初,300萬字被精簡成下面的樣子(部分結(jié)果;為了保護隱私,將結(jié)果中出現(xiàn)的人名隱去):

主題模型精準提取主題的能力有時候令人驚訝。主題2分明是一個學生在國外(加拿大)發(fā)來的問候;而主題29則是筆者開設(shè)的《基督教文明史》、《德意志精神與文化》等課程,與學生們的課程交流。這兩個主題在郵件集中屬于小眾內(nèi)容,居然也被算法提取出來了。
文本聚類的算法為我們深入理解龐雜的電郵數(shù)據(jù)集提供了一種指引。有效信息當然不止步于每個主題的10個關(guān)鍵詞。實際上,算法還提供了更加豐富的細節(jié),不過它們往往以數(shù)據(jù)矩陣的方式存在,讓我們歷史學者一看就感覺頭大。比如,它們可能是這樣的:

每個主題用10個詞來表達,是筆者的人為設(shè)定。實情是,算法給出了遠遠多于10個關(guān)鍵詞的主題矩陣,而且每個詞具有不同的權(quán)重。我們可以效法文字云,做出主題的詞云來,每個主題的細節(jié)更加豐富了。于是,仍然以主題7為例,我們看到了諸如“報告會”、“研究生院”、“組織部”等詞,北京大學的生活經(jīng)歷就變得愈加立體了。我們也看到廣告郵件的頑強存在感,主題33表明Chauvin是“當當網(wǎng)”的忠實客戶,但他不過是在他們家買了一些書,卻被推送了許多不相關(guān)的商品。主題13則顯示Chauvin是12306在線購買火車票的重度依賴者。

如前傳所述,R代表了Chauvin的書信空間中的另外一個群體——外國人。他們之間用英文或者德語交流,雖然總數(shù)不到1000封,但仍然值得我們用技術(shù)手段來解析它們。這里的潛臺詞是,對于電腦而言,不論是中文還是西文,在算法的眼中都是字符,量化統(tǒng)計的方法讓電腦搖身一變成為“精通”數(shù)國文字的語言達人。算法既然如此神奇,那我們想從更多元化的角度來剖析電郵數(shù)據(jù)集的狀態(tài)。比如,盡管主題分門別類,但在整個數(shù)據(jù)集中的權(quán)重都一樣嗎?每一個郵件同主題的對應(yīng)關(guān)系如何?
這些問題都可以用升級版的主題模型算法得到實現(xiàn)。我們用西文的郵件作為分析對象。
首先,不同主題在整個電郵數(shù)據(jù)集的權(quán)重可以用主題云的形式呈現(xiàn)出來。

基本上,與Chauvin有電郵往復(fù)的外國友人,都分別被擬合到不同的主題之下,而R是當之無愧的最佳筆友;另一個比較重要的國際友人是哈佛大學歷史系的教授。比較有趣的是,ahediting與armstronghiton的存在,主要是由于兩家論文翻譯公司的廣告郵件,算法把他們放置在同一個主題下,也算臭味相投。當然,這張主題云只顯示了最關(guān)鍵的5個單詞,是為了可視化的效果犧牲了主題內(nèi)容的完整性。但我們依然可以把更多的主題詞調(diào)動出來,甚至用語義網(wǎng)絡(luò)的思路來剖析一下郵件的細節(jié)。當筆者和R在交換電郵的時候,我們在談?wù)撌裁茨兀?/p>

前傳中提到過R是一位德國友人,通信內(nèi)容也圍繞著如何在南京開啟職業(yè)生涯。從語義網(wǎng)分析的結(jié)果,我們看到了各種約定,特別是有關(guān)“保險”(Krankenversicherung)的討論似乎彰顯了德國人的獨有特質(zhì)。
作為歷史學者,我們同樣關(guān)注時間。電子郵件實際上也是生活經(jīng)歷的記錄方式,如果Chauvin與通信伙伴就某個問題進行了持續(xù)性的郵件交換,那么主題在時間軸層面的演進就非常重要,這個過程能否被直觀地展示出來?我們?nèi)匀灰耘c哈佛大學教授的電郵為例:

該主題乃是筆者與哈佛教授的學術(shù)聯(lián)系。毫不避諱地說,筆者與哈佛教授的郵件往來有很強的功利性,很大程度上是為了獲得赴哈佛大學的訪學機會,經(jīng)過了多年的套近乎之后,筆者終于在2015年成行,之后的郵件通信果然就少了很多。這個主題在時間軸的演變,將這種目的性很強的通信聯(lián)系暴露了出來,我都為自己不近人情的做法汗顏。
最后的小結(jié)
誠如在前傳中所言,本文實質(zhì)上是游戲之作,目的是測試一下用技術(shù)手段處理電子史料的可能性。從最基本的量化統(tǒng)計,到郵件文本的解讀,都屬于歷史研究在實戰(zhàn)中不同層次的需求。我們驚喜地看到,數(shù)字人文的方法在不同維度上都能找到大施拳腳的空間。當然,我們也必須誠懇地意識到,技術(shù)手段介入歷史問題研究,在幫助研究者提高工作效率的同時,也不能忘記研究者的主體意識,即歷史研究要立足于解決問題,而不是單純地呈現(xiàn)數(shù)據(jù)之美妙。
筆者對Chauvin電子郵件數(shù)據(jù)集嘗試的各種技術(shù)工具,屬于自然語言處理領(lǐng)域最成熟的技術(shù),潛臺詞就是,它們可能并不是最先進的算法。對于人文學者而言,哪怕是未來的歷史學家,擁有了比我們這代人更廣闊的數(shù)字人文的環(huán)境,要去追趕技術(shù)進步的步伐,或許也是艱巨的挑戰(zhàn)。面向未來的歷史研究,需要跟數(shù)據(jù)分析科學家深度合作,為具體的歷史問題量身定做算法,而不是亦步亦趨的效仿。所以,歷史學家真正以不變應(yīng)萬變的新技藝,其實是開放的心態(tài)和數(shù)據(jù)思維的提升;惟有如此,哪怕在不遠的將來人工智能技術(shù)進步一日千里,歷史學者的思維優(yōu)勢也能夠立于不敗之地。
(本文的寫作,依然要感謝南京大學軟件學院劉嘉、郭建朋的技術(shù)支持!)





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




