全文总字数:4998字
1. 研究目的与意义、国内外研究现状(文献综述)
随着各大领域学术研究项目的不断推进和发展,每年会新增大量的学术文献和成果。这些文献可能进行了不同层次、不同方向的研究与实验,使用了不同的模型,创造了新的实验方法,得出了有意义的结论,是宝贵的知识材料。如能有效地组织整理这些文献,并对其文章内容加以提炼、分析与匹配,整理出文献的主题内容、关键技术点、实验内容等,从而有利于从不同的角度方便研究人员来查询相关领域的研究成果。例如,对于想要查询特定模型使用方法的检索目标,检索系统可以对文献数据库中所有文献的试验方法部分进行检索和匹配;如果想要查询类似的实验目的,则可以直接匹配引言部分最相关的文献,这样对文章结构功能加以分类的检索与匹配,可以大大提高查询目标文献的效率,这对于学术文献数据库开发知识检索功能有着重要的意义与价值。
国内外研究概况:
2. 研究的基本内容和问题
研究目标:
本课题的研究目标在于学术全文本的结构功能自动拆分。通过对sentometrics的全文本数据的标注与预处理,利用bert模型训练出学术文本结构功能自动拆分器,其目标准确值能达到80%及以上。
3. 研究的方法与方案
本文将分别使用经典机器学习模型条件随机场和最新深度学习模型BERT来探索学术文本结构功能拆分的效果。在使用条件随机场的实验中,实验需要将数据处理成序列模式,然后依据不同的功能结构选取特征,确定特征模板的窗口大小,进行训练。训练完成后使用模型进行测试,使用准确率(P, Precision rate)、召回率(R, Recall rate)、调和平均值(F-measure)三个指标进行模型评价。与条件随机场相比,BERT模型的输入更为简单,只需将数据处理为带分类标签的短文本即可。但想要深度学习模型发挥最好的效果,需要仔细考虑超参数(Hyper-parameters)如输入序列长度,学习步长(Learning rate)、迭代次数(Training epochs)、隐藏层数量等的调整。
4. 研究创新点
课题创新:
本课题的创新之处在于Sentometrics全文本语料的使用,以及最新深度学习模型BERT的使用。
5. 研究计划与进展
研究计划:
2019.3.01-2019.3.15:对全文数据进行整理与标注;
2019.3.15-2019.3.25:二次校对数据并进行条件随机场实验;
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。