數(shù)字人文視域下多粒度特征融合的古文命名實(shí)體識別
摘要:[目的/意義]利用命名實(shí)體識別技術(shù)深入挖掘古籍文獻(xiàn),推動中文古籍?dāng)?shù)字化進(jìn)程,對于推動歷史學(xué)習(xí)、增強(qiáng)文化自信以及弘揚(yáng)中國傳統(tǒng)文化具有重要意義。[方法/過程]提出多粒度特征融合的古文命名實(shí)體識別方法,以《左傳》為研究語料,構(gòu)建人名、地名、時(shí)間等命名實(shí)體識別任務(wù)。首先,將古文字信息、詞性信息及字形特征融合,提高輸入特征表示能力;然后,在加入預(yù)測實(shí)體頭尾輔助任務(wù)學(xué)習(xí)古句邊界信息的同時(shí)利用Transfer交互器啟發(fā)式學(xué)習(xí)古文實(shí)體構(gòu)詞規(guī)律,并用BiLSTM和IDCNN聯(lián)合抽取上下文信息;最后,將學(xué)習(xí)到的多種古文特征加權(quán)融合,輸入CRF中進(jìn)行實(shí)體預(yù)測。(剩余22738字)