中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

從數(shù)字人文視角看“近代中國的精英、網(wǎng)絡(luò)與權(quán)力”

?陸軼雋
2024-03-28 16:06
來源:澎湃新聞
? 私家歷史 >
聽全文
字號

2023年7月至2024年1月,筆者赴法國艾克斯—馬賽大學(xué)(Aix-Marseille University)亞洲研究中心(IrAsia),參加由著名上海史研究學(xué)者安克強教授(Prof. Christian Henriot)主持的ENP-China研究團隊。目前,該團隊已在近代中國人物資料數(shù)據(jù)庫建設(shè)等方面取得了一些重要進展。茲以七個月的訪問經(jīng)歷,介紹ENP-China項目(“近代中國的精英、網(wǎng)絡(luò)與權(quán)力”)的研究旨趣、運用工具、研究成果等,以向國內(nèi)讀者推介海外中國近代史研究的新動向、新方法與新思想。

ENP-China(Elites, Networks and Power in Modern China)主頁

“近代中國的精英、網(wǎng)絡(luò)與權(quán)力”

ENP-China項目全稱Elites, Networks and Power in Modern China,意為“近代中國的精英、網(wǎng)絡(luò)與權(quán)力”,受歐洲研究理事會(European Research Council)資助。該項目以1830-1949年在上海、廣州、天津等城市活動的中國社會精英為研究對象,旨在挑戰(zhàn)過往“以國家為中心、以群體為基礎(chǔ)”的文獻研究法,將城市精英視為社會活動者,其地位、身份及行動等受不斷變化的權(quán)力結(jié)構(gòu)影響,且通過制度與非正式/正式網(wǎng)絡(luò)的行動重新定義社會與政治的邊界。因此,項目著重關(guān)注信息、資本與個體流動的網(wǎng)絡(luò),研究精英群體跨國化過程。在具體方法上則突破常規(guī)史料的限制,將名人錄、人名辭典等復(fù)雜來源的信息,轉(zhuǎn)化為精細(xì)的、可重復(fù)利用與可長期存續(xù)的數(shù)據(jù),供目前與將來研究使用。該項目依賴可不斷擴展的各類歷史數(shù)據(jù)資料,以前所未有的規(guī)模提供精確的歷史信息,重新塑造基于現(xiàn)有來源,如檔案、日記等的史學(xué)研究,以期在現(xiàn)代中國精英轉(zhuǎn)型研究中創(chuàng)造新維度。

團隊負(fù)責(zé)人安克強以上海城市史研究著稱,著有《1927-1937年的上海:市政權(quán)、地方性和現(xiàn)代化》(Shanghai,1927-1937:Municipal Power, Locality and Modernization)、《鐮刀與城市:以上海為例的死亡社會史研究》(Scythe and the City: A Social History of Death in Shanghai)等。在多年的研究中,他非常注重各類數(shù)字工具在史學(xué)研究中的運用,曾融合地理信息系統(tǒng)(Geographic Information System, GIS)[1]分析近代上海的公墓分布等問題。近年來,安教授以名人錄等為基礎(chǔ)材料,運用數(shù)字工具,力圖建構(gòu)近代中國社會精英的各類網(wǎng)絡(luò)。因此,在招募團隊成員時,除歷史學(xué)者外,數(shù)據(jù)科學(xué)家與軟件工程師也加入其間,共同開展項目研究。以筆者在法期間為例,團隊內(nèi)既有安克強、孟喜(Cécile Armand)等史學(xué)工作者,亦有從事數(shù)據(jù)庫建設(shè)與維護的工程師Nora Van den Bosch與以人工智能(Artificial Intelligence,AI)[2]和自然語言處理(Natural Language Processing ,NLP)[3]見長的計算機博士Baptiste Blouin。為鼓勵年輕學(xué)人運用數(shù)字工具輔助學(xué)位論文寫作,團隊亦招募具有中國近代史學(xué)科背景,具備一定信息技術(shù)素養(yǎng)的高年級博士生,提供六個月或一年的工作合同,開展數(shù)字工具使用等培訓(xùn),并加入研究計劃。筆者即在2023年下半年密集接受程序語言等知識的學(xué)習(xí),運用數(shù)字人文(Digital Humanities)[4]思維創(chuàng)新論文寫作思路。由于團隊與臺灣“中研院”近史所深度合作,因此連玲玲等近史所研究人員亦有協(xié)助。此外,團隊亦吸納一些歐盟內(nèi)其他高校的語言學(xué)家、計算機工程師等參與其間,協(xié)同開展資料庫建設(shè)等工作。

數(shù)字工具與研究成果

ENP-China的關(guān)注群體為近代中國的各類社會精英,包括但不限于歸國留學(xué)生、商人、紳衿等,其信息來源為Who’s who in China等名人辭典,因此如何有效率地提取大量個人信息,如其性別、籍貫、學(xué)經(jīng)歷等,并在此基礎(chǔ)上建立可相互關(guān)聯(lián)、不斷延伸的信息網(wǎng)絡(luò),成為關(guān)鍵的先導(dǎo)工作。為此,團隊將R Studio作為中心工具:其為程序語言R的操作平臺,由法國數(shù)字人文開放平臺Huma-Num托管,用于統(tǒng)計計算與圖形呈現(xiàn)。由于其免費屬性及社區(qū)成員不斷為該語言開發(fā)各類功能包,因而備受研究者青睞。目前,通過R Studio中的各類功能包,如tidyverse等,可實現(xiàn)文字段落的自動分詞、數(shù)據(jù)導(dǎo)出、可視化、數(shù)據(jù)建模等多種功能。具體而言,人名錄及其他語料庫(corpus,指具有一定格式的大量文本)中的各類命名實體,如姓名、年齡、字號、出生地名等,可運用特定功能包(如分詞包),將其從文本中分離并分類建表,最終依此建立基于某一參數(shù)的網(wǎng)絡(luò),如同鄉(xiāng)網(wǎng)絡(luò)等。

基于R Studio平臺,團隊目前開發(fā)出兩大可視化運用平臺:HistText與MCBD。

HistText最早為Jeremy Auguste博士等開發(fā)的R Studio功能包,后經(jīng)Baptiste Blouin博士的完善,成為易于操作的可視化平臺,可實現(xiàn)在特定語料庫(如《申報》、《東方雜志》等)中搜索關(guān)鍵字,隨之生成新的語料庫后,對此進行自然語言處理,實現(xiàn)如關(guān)鍵詞云形成、人名、地名、機構(gòu)名等命名實體(Named Entities)的識別與提取、搜索關(guān)鍵詞年度分布表的建立等功能,為之后開展主題建模等工作提供基礎(chǔ)資料。

HistText界面

MCBD全稱Modern China Biographical Database,即近代中國人物傳記數(shù)據(jù)庫。該庫與“中研院”近史所合作開發(fā),旨在通過系統(tǒng)化的數(shù)據(jù)挖掘,收集在中國活躍的任何個人,包括中國人及在華外國人的傳記數(shù)據(jù)。這些數(shù)據(jù)可以來自各種來源,如目錄、傳記詞典、名人錄等,報紙和期刊,以及學(xué)術(shù)文獻。使用該庫檢索相關(guān)個人信息時,可隨之查閱與其生平經(jīng)歷相關(guān)的其他個人,如同鄉(xiāng)、同學(xué)等,從而為歷史人物的研究探索出一條新路。

MCBD界面

目前,ENP-China團隊的研究成果集中收錄于2022年經(jīng)Brill出版社出版,由安克強、孟喜與孫慧敏主編的Knowledge, Power, and Networks. Elites in Transition in Modern China:一書。該書收錄了9篇基于自然語言處理等數(shù)字技術(shù),分析特定歷史問題,如上海扶輪社、在滬英國婦女協(xié)會等社團成員組成與活動情況的專題論文。上述論文的作者在將大量人物信息運用R Studio等工具進行篩選、清洗、整理后,主要運用主題建模(Topic Modeling)、[5]社交網(wǎng)絡(luò)分析(Social Network Analysis, SNA)[6]等分析模型,建構(gòu)近代中國精英之中形成的各類網(wǎng)絡(luò),以探索精英社團的形成、發(fā)展與活動等問題。

必須指出的是,運用自然語言處理對文本進行信息提取等工作,仍有不盡如人意之處。由于經(jīng)過光學(xué)字符識別(Optical Character Recognition, OCR)[7]形成的語料庫,其往往存在大量錯誤,加之程序語言只能對特定文本格式中的信息提取精度較高,常無法覆蓋格式之外的有效信息,因而經(jīng)提取后的相關(guān)數(shù)據(jù),如姓名、生卒年等,必須進行數(shù)據(jù)清洗(Data Cleaning)。[8]該過程通常較為耗時,且需充分掌握相關(guān)史實后方能加以甄別,因而需要一定人工力量介入。并且,若語料庫的規(guī)模過小,也往往造成經(jīng)軟件分析得出的結(jié)果,與經(jīng)常規(guī)閱讀而得出的結(jié)論相差無幾的現(xiàn)象。因而在實際操作的過程中,運用自然語言處理技術(shù)對文本信息加以提取、篩選等工作,仍有一些掣肘。

盡管如此,由于軟件處理較之人工閱讀,提取成規(guī)模史料(如1872-1949年《申報》的全部內(nèi)容)中的相關(guān)信息,仍在工作效率等方面存在極為明顯的優(yōu)勢,因而在中國近代史研究中有廣闊的應(yīng)用前景。特別是針對晚清民國精英人物的研究方面,由于其人數(shù)多、信息龐雜、各類正式或非正式網(wǎng)絡(luò)多樣,既有研究常建立在以中心人物為圓心的小規(guī)模社會網(wǎng)絡(luò)之基礎(chǔ)上,可能有“管中窺豹”之虞。不過,若使用自然語言處理技術(shù),從海量數(shù)據(jù)中提取精英人物的基本信息并篩選、建模,較之傳統(tǒng)的人工提取、校對、建表,有極為明顯的效率優(yōu)勢。數(shù)據(jù)量的大大提升,也為特定研究領(lǐng)域(如民國知識人交流網(wǎng)絡(luò))中建立以籍貫、學(xué)經(jīng)歷、仕途等關(guān)系串聯(lián)的大規(guī)模社交網(wǎng)絡(luò)創(chuàng)造可能,從而依此產(chǎn)生一些顛覆式的研究成果。我們相信,伴隨著語料庫數(shù)量與質(zhì)量的不斷提高,加上數(shù)字工具的不斷迭代演進,以網(wǎng)絡(luò)分析為立足點的近代中國人物研究將方興未艾,成為史學(xué)研究的一條頗值得嘗試的新途。

[1] 地理信息系統(tǒng)指在計算機、軟件系統(tǒng)支持下,對特定空間中有關(guān)地理分布數(shù)據(jù)(如經(jīng)緯度等),進行采集、儲存、管理、運算、分析、顯示與描述的技術(shù)系統(tǒng)。

[2] 人工智能主要指的是針對使用計算機對人的某些思維過程和智能行為(如學(xué)習(xí)、推理、思考、規(guī)劃等)進行模擬的學(xué)科,主要包括計算機實現(xiàn)智能的原理、制造類似于人腦智能的計算機,使計算機能實現(xiàn)更高層次的應(yīng)用。

[3] 自然語言處理指用人類交流所使用的自然語言與機器進行交互通訊的技術(shù),通過人為的對自然語言的處理,使得計算機對其能夠可讀并理解。

[4] 數(shù)字人文主要指針對計算與人文學(xué)科之間的交叉領(lǐng)域,進行學(xué)習(xí)、研究、發(fā)明以及創(chuàng)新的一門學(xué)科。

[5] 主題模型指的是,在機器學(xué)習(xí)和自然語言處理等領(lǐng)域中,用來在語料庫中發(fā)現(xiàn)抽象主題的一種統(tǒng)計模型。直觀來講,如果一篇文章有一個中心思想,那么一些特定詞語會更頻繁的出現(xiàn)。例如,如果一篇文章是在講狗的,那“狗”和“骨頭”等詞出現(xiàn)的頻率會高些。

[6] 社會網(wǎng)絡(luò)指的是許多節(jié)點以及節(jié)點間關(guān)系構(gòu)成的一個網(wǎng)絡(luò)結(jié)構(gòu)。節(jié)點通常是指個人或組織(又稱社團)。社會網(wǎng)絡(luò)代表各種社會關(guān)系,經(jīng)由這些社會關(guān)系,把從偶然相識的泛泛之交到緊密結(jié)合的家人關(guān)系的各種人們或組織串連起來。社交網(wǎng)絡(luò)分析是用來查看節(jié)點、鏈接之間的社會關(guān)系的分析方式:節(jié)點是網(wǎng)絡(luò)中的個人參與者,鏈接則是參與者之間的關(guān)系。節(jié)點之間可以有很多種鏈接。

[7] 光學(xué)字符識別指對包含文本內(nèi)容的圖像或視頻進行處理和識別,并提取其中所包含的文字及排版信息的過程。

[8] 數(shù)據(jù)清洗指從語料庫、表格或數(shù)據(jù)庫中檢測和糾正(或刪除)損壞或不準(zhǔn)確的記錄的過程,是指識別數(shù)據(jù)的不完整、不正確、不準(zhǔn)確或不相關(guān)部分,然后替換、修改、或刪除未經(jīng)處理的原始數(shù)據(jù)。

(本文經(jīng)安克強教授審訂。)

    責(zé)任編輯:彭珊珊
    圖片編輯:張穎
    校對:張亮亮
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司