基于古白历史典籍平行语料库的人名抽取及比较研究开题报告

 2022-01-16 19:24:44

全文总字数:3404字

1. 研究目的与意义、国内外研究现状(文献综述)

党的十八大报告指出, “文化是民族的血脉, 是人民的精神家园”。随着我国经济发展水平的不断提高,国家文化软实力在综合国力竞争中的重要性逐年上升,传统文化也愈发受到重视。古代汉语典籍文本作为传统文化的重要载体,对于我们了解历史、学习优秀传统文化、继承古人学术成就有重要的指导作用。虽然现代汉语是在古代汉语的基础上传承和发展起来的,但二者的语法语义存在一定差异,尤其是古代典籍文本中许多的命名实体给我们查找、学习古代文献

带来了许多困难。

在古代典籍文本中,命名实体作为重要的信息元素,通常包含了主人公、时间、空间等主要信息,尤其是古代人名实体的姓、名、字、号等多种表达方式给自然语言处理带来一定困难,因此,准确地识别人名实体是正确理解古代典籍文本内容的关键。在自然语言处理领域中,命名实体识别一直以来都是一项重要的研究任务,随着计算机技术的发展,实体知识变得越发重要,命名实体作为文本中重要的语义知识,其识别已成为一项重要的基础性研究问题。目前,在命名实体识别中的实际应用中常用的机器学习模型有隐马尔科夫模型(hidden markov model,hmm)、最大熵模型和条件随机场模型(conditional random field,crf)。其中,隐马尔科夫模型近年来在使用频率上有减少的趋势,而条件随机场模型其具备充分兼顾内外部信息的优点,符合本文古代文本的特点,故本文将条件随机场作为实体识别的模型,通过信息抽取、特征设定、人名实体识别等几个方面构建成为一个整体系统。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。在文本中,命名实体作为重要的信息元素,通常包含了该文本的主要信息。因此,准确地识别命名实体是正确理解文本内容的关键。

本实验主要拟解决以下几个关键问题:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

基于统计的命名实体识别方法是目前应用较多的方法,它通过对大规模的语料库进行训练而得到,不仅覆盖面很广,而且识别结果有很好的一致性,因此被广泛用于自然语言处理领域。基于统计的命名实体识别方法主要是利用大型标注语料库来训练,得出某个字作为命名实体组成部分的概率,并以此为基础来计算某个候选字段作为命名实体的概率,若大于某一阈值,则识别为命名实体。但是当训练语料达到了一定的规模后,再通过扩充语料规模来提高正确率也变的不切实际,这时往往就需要设计更为严格和精细的特征模板,以便参考更多的特征信息来进行词性标注。基于统计的方法对特征选取的要求较高,需要从文本中选择对该项任务有影响的各种特征,并将这些特征加入到特征向量中。依据特定命名实体识别所面临的主要困难和所表现出的特性,考虑选择能有效反映该类实体特性的特征集合。主要做法是通过对训练语料所包含的语言信息进行统计和分析,从训练语料中挖掘出特征。有关特征可以分为具体的单词特征、上下文特征、词典及词性特征、停用词特征、核心词特征以及语义特征等;同时,基于统计的方法对语料库的依赖也比较大,但可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少。

目前,主要的基于统计的机器学习方法主要有隐马尔可夫模型、最大熵模型(me)和条件随机场等。最大熵模型结构紧凑,通用性好,但训练成本较高;隐马尔可夫模型训练和识别时的速度快,但对于本文这类预料识别效果不佳。综合考虑三种方法优缺点和对古代典籍文本的人名命名实体识别需求,条件随机场为可以为本文的实验提供一个特征灵活、全局最优的系统框架。

条件随机场由lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型。条件随机场是条件概率分布模型 p(y|x) ,表示的是给定一组输入随机变量 x 的条件下另一组输出随机变量 y 的马尔可夫随机场,也就是说 crf 的特点是假设输出随机变量构成马尔可夫随机场,具体如下:设x和y是随机变量,p(y|x)是在给定x的条件下的y的条件分布,若随机变量y构成一个无向图g=(v,e)表示的马尔科夫场,即:p(yv|x,yw,w≠v)=p(yv|x,yw,w~v)对任意的节点v成立,则称条件概率分布p(y|x)为条件随机场。其中 w~v表示在图g=(v,e)中节点v有边链接的所有节点w,w≠v 表示节点v以外的所有节点。定义中并没有要求x和y具有相同的图结构,但在现实中,一般假设x和y具有相同的图结构。主要两种线性链的情况,y是随机变量,x是y的观察值(特征),这些随机变量y构成线性链条件随机场根据定义,线性链的的条件随机场可以表示为:p(yi|x,y1,y2,...,yi-1,yi 1,...,yn)=p(yi|x,yi-1,yi 1)

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

本论文的语料来自前四史,这四本史书不仅具有极高的史学价值,文学价值亦高于后面的其他二十史,集中展现了秦汉人浪漫而热血的广阔胸襟与豪迈气概,被历代史学家和文学家共同尊崇,对我们研究秦汉历史、学习优秀传统文化有着极其重要的作用。同时,目前基于古代典籍语料库进行自然语言处理的研究较少,本文将通过技术手段构建一个较为高效的人名命名实体识别系统。

5. 研究计划与进展

1.2018 年 11-12 月:对国内外文献进行调查后明确研究内容,完成文献综述,了解目前国内外研究现状;

2.2019 年 1-2 月:进行实验设计,构建语料库;

3.2019 年 3 月:进行实验,根据测评结果对实验进行调整;

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版