全文总字数:6524字
1. 研究目的与意义、国内外研究现状(文献综述)
(一)课题意义
对于软件命名实体的识别并不像人名、机构名等命名实体的识别那样被广泛研究,然而其却有着十分重要的意义。研究者通过对文献中的软件命名实体的分析,能够进一步了解到软件对于文献的重要性进而找出相关文献,还可以得出软件对于文献所产生的影响,从而有助于调查软件在科学中的使用现状,并为后续的软件相关研究奠定基础、为研究其他数字研究成果提供参考。随着信息时代的到来,软件的数量与种类也在逐渐增多,传统的提取方法已不足以满足人们的需求、机器提取仍存在着一定的空缺,命名实体识别也随之产生。
故本文采用基于规则的提取方法从生物信息学文献中提取软件命名实体。由于传统的信息提取方法在处理大数据方面存在着一定的局限性。因此,在这里提出了使用bootstrapping自适应方法来处理文本:通过标注文本中的少量种子词生成学习模式并进行模式评分,使得分较高的模式来进行新一轮的迭代形成学习实体对实体评分,排名较前的学习实体作为新的种子词参与下一轮迭代,直至不产生新的实体为止。文中对命名实体进行识别,并对研究进行进一步探讨,实现研究或过程中方法的改进、提升与完善,从而能够建立一套完整的科学软件的识别体系,为科学软件的评价提供依据。
2. 研究的基本内容和问题
(一)研究目标本研究选取国内外核心期刊上发表的生物信息学方面的文献作为数据集,采用基于bootstrapping的方法对生物信息学文献中软件命名实体进行识别,通过不同指标对算法的性能进行评价,从而对这些软件的使用进行分析并评估其对科学研究的影响,以帮助建立一个开放、透明的科学奖励制度。
(二).研究内容
本文中选取了生物信息学领域内的1086篇文章作为本次的研究对象,在构造的构造正触发词列表和负触发词列表基础上基于bootstrapping方法对软件命名实体进行识别,通过选取的种子词来标记文本,生成候选模式以提取实体,计算特征值评分、模式评分以及实体评分以迭代的方式从未标记的实体中筛选出正实体进而提取出文本中的全部软件实体,同时通过查准率、召回率来衡量算法的性能得出在生物信息学领域常用的软件,并对这些软件的使用进行评价,了解软解在科学研究中的使用现状。
3. 研究的方法与方案
(一)研究方法(此阶段图表见文档)
/kindeditor/attached/file/20190317/20190317213054_9693.docx
4. 研究创新点
本项目的创新之处:
软件作为科学研究的一个组成部分,人们对它的存在和意义有着明显的差距。所以,评估软件对科学的影响的研究是必要的,因为它将会补充目前由出版物驱动的对科学中的学科研究,并帮助建立一个开放,透明和包容性的科学奖励制度。
而在相应的方法中采用java进行编程来提取相关信息,简洁方便且节约大量的时间,极大地提高了工作的效率避免不必要的冗余。这个项目在创立之初就有它独具一格的特点,即通过设计和评估自动地从全文中提取出软件实体来进行计数统计。了解其在科学中的使用现状以及学科间的差异,对软件实体的统计分析具有重大的意义。
5. 研究计划与进展
研究计划及预期进展: 时间 研究项目内容 成果 2019年3月 对1086篇文献进行提取方法部分并进行软件实体标注 软件标注完成 2019年4月-4月中下旬 设计算法并随机生成不同的文本数据集进行对比测试 得出初步实验数据,并进行详细记录 2019年4月中下旬-5月 分析实验数据,进行相应算法的改进从而提高算法性能 记录最终实验数据 2019年5月 撰写毕业论文,成果汇报展示 完成论文
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。