基于深度学习模型的文献“未来研究”句子识别与探究开题报告

 2022-01-16 19:20:35

全文总字数:5784字

1. 研究目的与意义、国内外研究现状(文献综述)

课题意义:“未来研究”相关内容是作者在总结自身研究过程和研究结果的基础上提出的未来规划,出现于文章的“结论”部分,包括作者针对当前研究局限提出但还未实施的解决方案、当前研究成果在当前领域或其他领域的具体应用点、未来更加深层次和更宽层面的具体研究计划,以及对其他研究人员和研究内容提出建议和改进方案。在学术文献数量快速增长的背景下,“未来研究”相关内容基于大量数据统计得出的研究热点和研究趋势具有巨大的研究价值。但由于数据量大,各领域知识交叉导致的数据分布无规律和信息更新快速等因素,要在短时间内获取最新最全的目标数据难度较大,所以借助机器学习掌握“未来研究”句子在全文本中潜在的分布特征和句子内部关键语词出现和共现特征,自动识别和提取相关内容拥有较大的实用意义。本文借助经典机器学习模型和当下使用最普遍的深度学习模型,在Scientometrics期刊文献全文本数据上进行基于句子级别的“未来研究”相关内容的识别提取对比研究,取得了预期的研究效果。国内外研究概况:大数据和深度学习技术的飞速发展,学术全文本研究越来越受到国内外研究人员的重视,但文献“未来研究”相关内容识别与挖掘的探究实验目前还未成为研究热点,国内外大型数据库中能够检索到与本文实验方向紧密相关的文献仅有一篇,Hu和Wan提出了一种基于正则表达式的方法来解决“未来研究”内容提取的问题;其次,他们在观察和分析数据的基础上,将未来研究工作分为四类,进一步细化未来研究句子的类别归属;此外,他们将内容提取方法和分类模型应用在计算机科学领域的论文数据集上,并在开放测试中设计了一个原型系统来搜索和展示从科学论文中挖掘到的“未来研究”相关内容。这与本文的研究较为相似,但他们的研究方法集中于类别组合和分类识别,并未从序列标注的角度实现句子级别的短文本识别和提取。 虽然“未来研究”相关内容尚未有成熟的研究方案和成果,但在在数字图书馆,文献识别和文本挖掘领域的相关文献中,已有许多关于信息提取和挖掘的相关研究课题。到目前为止,经典机器学习模型如支持向量机(SVM),隐马尔可夫模型(HMM),条件随机场(CRF),马尔可夫逻辑网络(MLN)等已广泛应用于研究论文的各种信息提取任务。Cronin B 等手工提取了10年来著名的社会学期刊中的Acknowledgements部分,并在此研究基础上开发了一种自动确认提取算法,用以确认文本段落并提取已确认的实体名称,并扩展CiteSeer的原生知识捕获功能,在心理学和哲学期刊进行了类似的Acknowledgements部分识别提取研究。“相关研究工作”部分的识别也已经进行了探索,DuyC等提出了一种相关研究总结系统,该系统基于以重要性程度分层的关键词集合,以规则策略方式来生成和展示学术文献中相关研究部分的主要内容。 相较于传统机器学习模型,深度学习模型在短文本数据识别实验中应用更加广泛,李文宽等[6]利用卷积神经网络在提取深层特征上的优势,结合传统句子分类方法提出一种CRN-Naive Bayes句子分类模型,并在康奈尔大学公开的影评数据集和斯坦福大学情感分类数据集的测试实验中取得了不错的效果。Ma M等综合利用了深度学习方法和语言结构知识,提出了一种基于树的卷积神经网络模型,该模型利用了单词之间的各种长距离关系,解决了原生卷积神经网络单向处理单词向量而忽略了长距离依赖性的问题,并在TREC上实现了最高的公布准确度。实验证明能够处理语料前后长距离单词共现和依赖等特征关系的模型,在句子级别的提取实验中能够取得较好的结果,这也为本文的实验模型选择提供了重要参考依据。Zhang Y等提出了一种多组范数约束卷积神经网络(MGNC-CNN),该模型独立地从输入嵌入集中提取特征,不需要输入字嵌入具有相同的维度,这使得模型更加灵活,训练时间减少,但其在句子分类实验中的效果要优于基线模型。 总的来说,国内外针对“未来研究”相关内容的研究较少,本文的实验具有一定的创新价值,且在短文本或句子级别的识别提取研究中,研究者大多使用单一模型进行实验,并未结合传统机器学习模型和最新的深度学习模型进行对比研究,这也是本文选择实验方向的重要考量。本文通过对比多种常用机器学习模型,寻找最适合于短文本内容识别的模型或模型组合,为后续相关研究提供重要参考。应用前景:本文的研究成果将为研究人员提供快速有效获取大规模英文学术文献中有关“未来研究”的内容,同时掌握学科发展趋势,紧跟最新的发展热点,为制定下一步学科建设方案提供参考和依据,如“人工智能”“深度学习”“迁移学习”等词大量出现于“未来研究”中,如何加快各学科与计算机和人工智能的结合成为重点研究方向。同时,本文的实验模型搭建方式和实验结果将为学术文献短文本识别研究提供部分思路和参考。参考文献:[1] Hu Y, Wan X. MiningAnalyzing the Future Wks in Scientific Articles[J]. Computer Science, 2015.[2] Cronin B , Mckenzie G , Rubio L . THE NORMS OF ACKNOWLEDGEMENT IN FOUR HUMANITIES AND SOCIAL SCIENCES DISCIPLINES[J]. Journal of Documentation, 1993, 49(1)29-43.[3] Giles C L . CiteSeerAn Automatic Citation Indexing System[C]// Digital Libraries 98 - Third ACM Conference on Digital Libraries, I. ACM Press, 1998.[4] Councill I G , Giles C L , Han H , et al. Automatic acknowledgement indexing exping the semantics of contribution in the CiteSeer digital library[C]// International Conference on Knowledge Capture. ACM, 2005.[5] Duy C , Hoang V , Kan M . Towards Automated Related Wk Summarization[C]// International Conference on Computational Linguistics Posters. Association f Computational Linguistics, 2010.[6] 李文宽,刘培玉,朱振方,刘文锋.基于卷积神经网络和贝叶斯分类器的句子分类模型[J/OL].计算机应用研究1-6[2019-04-18].[7] Ma M , Huang L , Xiang B , et al. Dependency-based Convolutional Neural Netwks f Sentence Embedding[J]. 2015.[8] Zhang Y, Roller S, Wallace B. MGNC-CNN A Simple Approach to Exploiting Multiple Wd Embeddings f Sentence Classification[J]. 2016.[9] 冀宇轩.文本向量化表示方法的总结与分析[J].电子世界,2018(22)10-12.[10] Google开源BERT模型源代码[J].数据分析与知识发现,2018,2(11)18.[11] Rong X . Wd2vec Parameter Learning Explained[J]. Computer Science, 2014.[12] Ding Y , Rousseau R , Wolfram D . Measuring Scholarly Impact || Text Mining with the Stanfd CeNLP[J]. 2014, 10.1007/978-3-319-10377-8(Chapter 10)215-234.[13] Loper E , Bird S . NLTK The Natural Language Toolkit[J]. 2002.[14] Sutton C A, Mccallum A. An Introduction to Conditional Rom Fields[J]. Machine Learning, 2012, 4(4) 267-373.

2. 研究的基本内容和问题

研究目标和内容:本文借助经典机器学习模型和当下使用最普遍的深度学习模型,在scientometrics期刊文献全文本数据上进行基于句子级别的“未来研究”相关内容的识别提取对比研究。关键问题:(1)数据标注:原始数据的数量及数据标注的质量对机器学习和深度学习模型的训练结果有重要影响,本研究的探究方向是句子级别的识别与研究,制定数据标注的规则以“句”为基本单位。

(2)文本向量化:文本的向量表示是机器学习的重要一环,良好的文本向量可以更好地在向量空间中给出一个文本空间内的映射,使得文本可计算,且会直接影响后续模型的性能。本文共进行了5项对比实验,其中bert、bert-lstm-crf模型的数据向量来源于google开源预训练文本向量,svm、lstm-crf模型基于wd2vec模型构建文本向量进行机器学习。

(3)训练和测试语料构建:五种模型均以句子为最小研究单位,本实验中以“. ? ! …”句子结尾符,由于英文文献的语法特殊性,与常用的中文语料断句存在一定差距。如“.”符号既可以为句子结尾符,也用于人名、地名和相关省略句中,“with the increasingly ubiquitous application of the computingsoftware technologies, the maturity of se has a considerable impact on almost every other discipline (i.e., it is hardly possible to imagine a modern society without heavy usage of software systems).”中“i.e.”存在两处结尾符,将对断句造成巨大干扰,同时对模型性能产生负面影响。本文所做实验均综合使用斯坦福第三方开源包(stanfdnlp)和自然语言处理最常用开源第三方包(nltk)实现英文文献断句,经过后期人工校对,制定出若干条针对本文所用数据的断句规范。如“示例句中‘1.’‘2.’等符号不作为断句符”,“‘fig 1.’‘table 1.’等表格说明不作为断句符”等。序列标注的重要一环是标签的选择,尤其在较长序列中,循环标签的选择尤其关键,本文实验选择“b i e o”四种标签对序列进行标记,其中“i”标签为循环标签。经过python程序处理后得到适用于不同模型的数据格式,且以句子为单位随机打乱顺序,提高实验数据的随机性和模型的一般适用性,使训练语料与测试语料的大小比例为91。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

研究方法:人工标注数据,通过机器学习模型试验抽取与“未来研究”相关的内容;

本文从序列标注思想和文本分类思想出发,设计了基于传统机器学习模型和最新的深度学习模型的多种识别提取模型,在scientometrics期刊文献的全文本语料上进行了对“未来研究”相关内容自动识别提取实验

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

特色或创新:(1)目前国内外对“未来研究”相关内容的抽取和研究极少,几乎没有,本研究的选题和研究方向具有创新性;(2)之前对“未来研究”或文章结构抽取的文章和试验均采用传统的机器学习或规则匹配方式,本实验采用较新的“深度学习”模型进行抽取,此为特色之处。

5. 研究计划与进展

研究计划及预期进展:

数据获取(2019.3.20-2019.3.25)

数据标注(2019.3.25-2019.3.31)

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版