中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

國內(nèi)首個楔形文字在線數(shù)據(jù)庫DEMC上線

韓牧哲(江蘇大學科技信息研究所)
2025-06-12 10:33
來源:澎湃新聞
? 私家歷史 >
聽全文
字號

?早期兩河流域契約數(shù)據(jù)庫(DEMC)作為國內(nèi)首個自主開發(fā)的楔形文字在線數(shù)據(jù)庫,是教育部哲學社會科學研究重大課題攻關項目(23JZD040)的階段性研究成果之一。目前其1.0版本已經(jīng)上線(網(wǎng)址:http://wx.xdsxds.com/layout/home),提供免費使用服務以及AI助手服務。

為服務于國內(nèi)世界古代史、古文字學、經(jīng)濟史、法律史、比較法學、數(shù)字人文等領域?qū)W者的研究需求,DEMC旨在對分散于全球各地圖書館、博物館、檔案館的早期兩河流域(公元前三千紀)契約文書資源進行數(shù)字化采集,這些資源實體的分布廣泛、專業(yè)性強且存在大量未出版內(nèi)容,其發(fā)表渠道也非常零散,傳統(tǒng)紙質(zhì)期刊與電子資源的割裂造成了文獻搜集的難度。DEMC通過數(shù)字人文技術整合上述碎片化資源,以期構建集數(shù)據(jù)采集、文本挖掘、多標簽分類、多模態(tài)關聯(lián)展示及可視化于一體的綜合性平臺,為上述各領域的研究者提供系統(tǒng)化研究工具。

DEMC數(shù)據(jù)庫主要收錄兩河流域早期的楔形文字文本資源,具體包含三個時期:古蘇美爾時期?(又稱前薩爾貢、早王朝時期)、阿卡德時期?(又名薩爾貢王朝)和新蘇美爾時期?(即烏爾第三王朝)。在內(nèi)容上,DEMC數(shù)據(jù)庫主要收錄的契約文書以買賣契約和借貸契約為主。除契約文書的中英文及拉丁轉(zhuǎn)寫文本內(nèi)容外,數(shù)據(jù)庫還收錄與之相關的各類多模態(tài)資源?,主要包括原始泥板照片、臨摹圖像等,并記錄相關資源實體的館藏信息,以便提供全方位的研究材料。

DEMC數(shù)據(jù)庫主要包括四種功能,涵蓋從數(shù)據(jù)采集到知識服務的全過程。

DEMC以技術成熟度較高、通用性較強的FileMaker Pro工具為基礎進行開發(fā)?,該系統(tǒng)支持與MySQL、Oracle等主流的關系數(shù)據(jù)庫進行數(shù)據(jù)集成和數(shù)據(jù)共享,其主要功能包括對早期楔形文字契約文書資源進行標準化數(shù)據(jù)存儲?,制定統(tǒng)一的文本、圖像采集與整合標準,并以嚴格的專業(yè)元數(shù)據(jù)系統(tǒng)進行結(jié)構化約束;同時保留?動態(tài)擴展能力,在使用過程中可以靈活增補所需的新字段。

數(shù)據(jù)庫不僅提供文本的轉(zhuǎn)寫與英漢雙語翻譯,還包含多個專業(yè)字段,如契約類型、固定格式、術語、標的物與數(shù)量、締約方(買賣契約中的賣方/買方、借貸契約中的貸方/借方)、見證人、誓言、其他關聯(lián)信息,以及文本的出版信息、年代、出土地點、收藏機構、對應CDLI編號等基礎信息。

為在后續(xù)實現(xiàn)更專業(yè)、高效的檢索,并在此基礎上提供細粒度的知識服務,DEMC對CDLI的語義知識表示框架進行了擴展,對兩河早期契約文本的結(jié)構進行深度解析、并以CIDOC-CRM、FOAF為基礎,融合《民法典》索引平臺的相關敘詞索引 ,實現(xiàn)了對契約文書內(nèi)容的語義關聯(lián)構建。擴展后的語義結(jié)構除包含CDLI提供的各種元數(shù)據(jù)之外,增設了Text Information、Historical Document、Visual Item等實體類分別用于表示契約文書文本特征、契約文書的內(nèi)容結(jié)構及相關聯(lián)的多模態(tài)資源進行組織和關聯(lián)。對兩河早期契約文書中的主體(subject)、客體(object)、甲方(agent)、乙方(patient)、擔保人(guarantor)、見證人(witness)、名義見證人(nominal witness)、簽約(signed)、執(zhí)行(executed)等專有概念進行創(chuàng)新性界定并實現(xiàn)了細粒度的語義關聯(lián)構建,實現(xiàn)了針對買賣(sale)、借貸(Loan)、租賃(Lease)等不同類型契約文書內(nèi)容的知識表示(以CDLI/P112333為例)。

URI、契約類型、主體、客體、甲方、乙方、擔保人、見證人、名義見證人、簽署時間、執(zhí)行時間、關聯(lián)文本、文物載體

在數(shù)據(jù)應用環(huán)節(jié),DEMC提出在現(xiàn)有語義架構的基礎上對數(shù)據(jù)庫中的資源進行知識抽取和知識庫構建的過程。

例如,對于契約文本中的“主體”角色,可以通過如下方式進行自動知識抽?。?/p>

# 語義角色分類示例

roles = ["主體(subject)", "客體(object)", "甲方(agent)",

        "乙方(patient)", "擔保人(guarantor)", "見證人(witness)",

        "名義見證人(nominal witness)", "簽約時間(signed)", "執(zhí)行時間(executed)"]

在知識抽取之后,還可以利用RAG等新興的人工智能技術對相關資源構建可視化服務框架,并提供檢索和智能化問答功能。

通過全面介紹DEMC數(shù)據(jù)庫的核心目標、技術架構、數(shù)據(jù)流模型及多樣化功能模塊,并簡要概述全棧開發(fā)的技術解決方案,以完整呈現(xiàn)該平臺的潛力與功能。用戶可通過多字段檢索獲取全部信息與數(shù)據(jù)。

    責任編輯:鐘源
    圖片編輯:張穎
    校對:劉威
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務許可證:31120170006

            增值電信業(yè)務經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司