基于先秦典籍的时间表达式自动抽取及分析研究开题报告

 2022-01-21 21:27:41

1. 研究目的与意义、国内外研究现状(文献综述)

(一)课题的意义:时间作为一种重要的语义载体,是我们生活中不可或缺的元素。通过时间信息,人们可以了解事件发生的经过,并可以根据时间信息的顺序整理事件,掌握事件发展的全过程。时间表达式识别在诸多自然语言处理领域中都有应用,例如在自动问答系统中,其有助于回答什么时间、有多久等问题;在机器翻译中,其有助于时态识别,提高机器翻译准确率;在多文档文摘中,则有利于时序信息排序。因此,高准确率的时间表达式识别方法将大大提高相关系统的性能,时间表达式识别已成为了其他相关研究的一项必要的基础性工作。而目前,对于时间表达式的研究较少,已有研究集中针对于现代汉语语料,因此本课题计划在现有研究的基础上,利用条件随机场,面向由《楚辞》构成的语料库,构建基于先秦典籍的时间表达式抽取模型,并对《诗经》进行简单的模型抽取验证。

(二)国内外研究概况、应用前景:

目前,关于时间表达式识别的国内外的主要方法有以下两类:(1)基于规则的方法,例如,李君婵[1]等基于词性构建时间单元规则库的方法来识别时间表达式,解决部分普通规则粒度过粗的问题,并且从语言本身出发去发现之间的联系和所呈现的规律,提高了识别的准确度。Wu 等[2]制定了中文TERN时间词抽取的语法规则。邬桐[3]则将时间信息划分为一系列的时间基元,使用启发式规则抽取时间表达式,再利用错误驱动方法对规则库进行剪枝,提高规则抽取的正确率。 林静[4]在中文时间信息的TIMEX2自动标注一文中提出一种基于正则表达式的TIMEX2中文时间短语边界识别方法。(2)基于机器学习的序列标注方法,这类方法一般借助于统计模型,常用的统计模型有:条件随机场和条件最大熵。条件最大熵的方法优点是能够将各种特征在同一框架内刻画,不需要特征独立性假设,缺点是时空复杂度大,耗费资源;CRF[5]方法能找出全局最优解,可充分利用上下文的信息,但是它的结果好坏过分依赖于训练语料的质量,还存在数据稀疏和词序依赖的问题。朱莎莎等将中文时间短语分为日期型和事件型两类,利用CRF加入任意特征表达长距离的上下文依赖信息的能力,解决了时间短语词数较少时的噪声过大问题。刘莉[6]等将浅层语义分析中的语义角色标注加入中文时间词识别中,在CRF训练中达到了较好的识别效果,基于此,本文利用条件随机场(CRF)来构建基于先秦典籍的时间表达式的抽取模型。

我国优秀传统文化多以古代汉语为载体,而随时间流逝,人们对于古代汉语越来越陌生,实现对古代汉语的自动处理,对于消除语言隔阂、传承中华文明有着重要意义,一直以来,对于时间表达式的研究对象主要是现代汉语,面向古代汉语文本进行时间表达式自动抽取的探究基本空白,自Busa提出数字人文概念,到Unsworth对数字人文的内涵和外延进行多角度的论述,数字人文使古籍的深度知识挖掘具备了创造性的理论和实践性的方法。先秦是我国语言发生发展的重要时期,这一时期留下了丰富的文化遗产,在文学、语言、思想方面都对后世产生了很大影响,而有关先秦文本信息处理的研究非常少,因此,越来越多的学者从文本分析与文本挖掘这一数字人文的重点研究方向入手,基于先秦语料库中的语料,对先秦典籍中的各种命名实体进行自动识别的探究,目前已有的研究主要是对先秦文献进行预处理、分词和词性标注。徐润华等[7] 在对《左传》及其注疏文献进行自动对齐的基础上,提出了一种利用注疏的《左传》自动分词新方法,调和平均值达到了89%。马创新等[8]利用网络数据存储和交换语言 XML,实现了《论语》与其注疏文献语料的对齐。石民等[9]基于条件随机场模型完成了对先秦古汉语的分词、词性标注一体化的对比实验。汤亚芬[10]通过条件随机场模型在先秦语料库的基础上自动识别古汉语人名,黄水清等[11]基于先秦古汉语语料库和条件随机场模型,构建了古汉语地名自动识别模型,本文则是对命名实体识别的其中一种类型即时间表达式的自动识别及抽取做研究,研究成果有助于对史料文化的进一步研究。

参考文献:

[1]李君婵,谭红叶,王凤娥.中文时间表达式及类型识别[J].计算机科学,2012,39(11A):191-211.

[2]Wu Mingli, Li Wenjie, Lu Qin, Li Baoli.A Chinese Temporal Parser for Extracting and Normalizing Temporal Information[C]. Proceeding IJCNLP'05 Proceedings of the Second international joint conference on Natural Language Processing, Jeju Island, Heidelberg: Springer-Verlag Berlin,2005.

[3]邬桐.自动构建时间基元规则库的中文时间表达式识别[J].中文信息学报,2010(4):3-10.

[4]林静,曹德芳,苑春法.中文时间信息的TIMEX2自动标注[J].清华大学学报(自然科学版),2008(1):118-120.

[5]朱莎莎,刘宗田.基于条件随机场的中文时间短语识别[J].计算机工程,2011(8):164-167.

[6]刘莉,何中市,邢欣来,等.基于语义角色的中文时间表达式识别[J].计算机应用研究,2011,28(7):2543 -2545.

[7]徐润华,陈小荷. 一种利用注疏的《左传》分词新方法[J]. 中文信息学报,2012,(02):13-17 45.

[8]马创新,陈小荷.基于 XML 的《论语》与其注疏文献对齐语料库的知识表示[J].图书情报知识,013 (1):107-13.( MaChuangxin,Chen Xiaohe.The Knowledge Expression of the Ana-lects of Confucius and Its Commentary Literatures Alignment CorpusBased on XML [J]. Document, Information Knowledge, 2013 (1):107-113.)

[9]石民,李斌,陈小荷. 基于CRF的先秦汉语分词标注一体化研究[J]. 中文信息学报,2010,(02):39-45.

[10]汤亚芬. 先秦古汉语典籍中的人名自动识别研究[J]. 现代图书情报技术,2013,(Z1):63-68.

[11]黄水清,王东波,何琳. 基于先秦语料库的古汉语地名自动识别模型构建研究[J]. 图书情报工作,2015,(12):135-140.

2. 研究的基本内容和问题

(一)研究的目标:基于先秦典籍,利用条件随机场模型,构建时间表达式自动抽取的模型。为了确保模型的性能,对时间表达式的内部和外部特征进行统计分析,将确定的特征加到特征模板中应用到模型的构建中。

(二)研究内容:

1.基于先秦典籍时间表达式内外特征抽取;

2.时间表达式自动抽取模型的构建;

3.利用已构建模型对测试语料测试的结果分析。

(三)拟解决的关键问题

1.如何确定时间表达式内外特征。

2.如何建立高效、精准地时间表达式自动抽取模型。

3. 研究的方法与方案

(一)数据来源及研究方法:

南京师范大学语言科技研究所构建的先秦典籍语料库是国内已建成的最大规模的语料库。本课题选取《楚辞》语料作为时间表达式自动抽取模型的语料来源,其中的时间特征词词性标注为t,如十有四年/t 春/n 王/n 正月/t ,/w 季孫宿/nr 、/w 叔老/nr 會/v 晉/ns 士/nr 、/w 齊人/n 、/w 宋人/n 、/w 衛人/n 、/w 鄭/ns 公孫囆/nr 、/w 曹人/n 、/w 莒人/n 、/w 邾婁人/nr 、/w 滕人/n 、/w 薛人/n 、/w 杞人/n 、/w 小邾/n 婁人/n ,/w 會/v 吳/ns 于/p 向/ns 。/w。

(二)技术路线

对语料进行时间表达式内外部特征抽取,并对语料进行预处理,确定相应的特征模板后进行如下操作:


(三)实验方案:

1.时间表达式相关特征统计:时间表达式内部结构分布,时间表达式的左右边界特征词统计,用作加入模板的特征。

2.条件随机场模型和语料预处理:对《楚辞》以 R={B,C,D,F, E,S},B表示时间表达式的初始词,C,D,F为时间表达式的中间词,E为时间表达式的结束词,若时间特征词为单字词则标记为BE,S表示时间表达式外词,如果时间表达式的长度超过了5,就用F表示扩展词。

3.时间表达式自动抽取的模型及识别实验:首先确定特征模板,构建模型并计算抽取结果的PRF值,选取指标系数最高的模型作为最终模型对新语料进行测试。

(四)可行性分析:

1.对于自然语言的处理,Python已经有很好的应用,可以极大降低对文本处理的难度。

2.基于Python的网络爬虫,可以很好的时间表达式模型的构建。

3.CRF模型具有两个优点:一是对观测值不存在严格的独立性假设。观测值的所有属性都可以为决策任意顶点上状态变量的取值提供依据。二是建立整个标记序列的联合概率,这样不仅能够避免如最大熵、隐马尔可夫模型的标记偏置问题,同时借由对所有特征进行全局归一化处理,从而得到表达特征在全局条件下的重要程度,使模型充分利用特征信息。

4. 研究创新点

目前,对于时间表达式的研究较少,已有研究集中针对于现代汉语语料,本课题设想在现有研究的基础上,利用条件随机场,面向由《楚辞》构成的语料库,构建基于先秦典籍的时间表达式抽取模型,并对《诗经》进行简单的模型抽取验证。

5. 研究计划与进展

(一)前期准备工作:

先秦语料的准备,相关算法的了解等。

(二)开展工作:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版