全文总字数:9221字
1. 研究目的与意义、国内外研究现状(文献综述)
(一)课题意义
在目前的科研评价体系中,软件的价值一直以来都被严重低估,一些研究人员在开发软件的过程中花费了较多时间精力,然而却得到较少的反馈,这样的结果并不利于软件的进一步提升甚至是研究的便利性,与此同时,软件开发人员也希望能够了解自己所开发的软件是否具备足够的效用性、影响力,因此软件命名实体的研究是很有必要的。本研究是一个从文本集合中识别并抽取出软件命名实体的过程。笔者希望通过crf模型能较为准确地识别出生物信息学领域当中的软件命名实体,以便于在该领域中人们能够有效地评估相应软件价值及作用,为科研奖励体系提供硬性的数据指标。
本研究除了能够为科研奖励体系提供薄力以外,还将有助于鼓励软件开发人员的进一步探索工作,为科学研究提供便利。
2. 研究的基本内容和问题
(一)研究目标
本课题旨在通过条件随机场(crf)对生物信息学领域文献中的软件命名实体进行识别与抽取,同时通过不断地对特征模板、参数等进行修改以达到crf模型最优化的目的。
(二)研究内容
3. 研究的方法与方案
(一)研究方法
1、基于统计的方法
基于统计的方法是当前较为主流的一种命名实体识别研究的方法,该方法主要利用大量人工标注过的语料进行训练,得出一套训练模型。本研究采用条件随机场,即crf,进行软件命名实体的识别与抽取。
2、对比分析法
本研究首先根据特征模型、特征的选用训练得出不同的crf模型,通过对比准确率、召回率、f1值来分析各模型之间的差别所在,从而得出本实验中的最优模型。
4. 研究创新点
本研究针对生物信息学领域中的软件进行识别与抽取,不同于近年来国内外在关于人名、地名等的命名实体识别研究。对于软件命名实体识别的研究,一方面可以让科研奖励体系得到更好地监督与完善,另一方也有助于构建该领域软件的知识图谱,为科研人员在生物信息学领域提供更加便捷的研究。
5. 研究计划与进展
| 时间 | 研究内容 | 成果 |
| 2019年3月上旬 | 人工对1100篇文献进行软件实体标注 | 获得初步的文本集合 |
| 2019年3月中旬-4月 | 对文本进行预处理、分析软件命名实体在文本中的表现形式、选取特征并构建特征模型、进行模型的训练及测试 | 获得初步的实验数据 |
| 2019年5月上旬 | 分析实验数据,对表现不理想的模型做出改进,不断地优化模型 | 获得经过优化的模型及数据 |
| 2019年5月中、下旬 | 整合实验数据,做出对比研究,分析数据结果出现差异的原因,并进行论文的撰写 | 完成最终的实验分析及论文 |
