全文总字数:3182字
1. 研究目的与意义、国内外研究现状(文献综述)
意义:参考文献是论文的重要组成部分,它的使用不仅可以体现作者严谨、求实的科学态度、维护知识产权,保护作者及他人著作权、还有利于审稿人评定稿件质量,提高编辑工作者的工作效率,方便读者阅读和使用等意义,它有助于科技人员进行情报研究和文献计量学研究,是对期刊引文进行统计的重要信息源之一,并且参考文献归类工作是一项细致且带有一定学术性质的工作。然而,随着期刊论文投稿逐年增多,出现了很多来稿文后参考文献不完整以及不符合规范,它不仅大大增加了编辑的工作量,而且不正确不规范的文献著录还会使期刊的影响因子、总被引频词、平均引文率和即年指标等文献指标统计失误,从而削弱期刊及论文的影响力。例如:参考文献表中著录项不齐全,疏漏和错误较多,比如缺少作者姓名,多名作者只写一个作者或致谢一个作者就加“等”以及3个以上的作者全部罗列出来、缺少期刊卷号、期号,出版地,出版社,原文献页码等。期刊论文中引用的英文参考文献同样存在很多问题,归纳起来主要有:1.不能正确区分姓和名;2.随意省略姓名的前缀;3.刊名的缩写不规范等。由上可知,参考文献分类的过程中存在很多问题,而当前国内外参考文献的分类大部分发采用人工的、传统的处理手段,随着参考文献的增加,为了从海量的文献信息中快速准确地获取潜在的、有价值的信息,开展参考文献自动分类技术有着重要的意义。
应用前景:
参考文献的自动分类研究可以在以下几个方面进行扩展应用:
2. 研究的基本内容和问题
目标、内容:
1.首先分析了参考文献部分的特点和独特的格式。通过分析参考文献的规范特点,在设计参考文献自动分类的时候,特别是在设计特征提取模块和权重计算模块时,应该充分考虑到参考文献的独特特点。
2.研究了参考文献自动分类的关键技术。对参考文献部分的预处理、文献的特征表示、特征选择、权重计算、分类算法和评价标准等关键技术。
3. 研究的方法与方案
研究方法:
基于机器学习的方式。基于学习的文本分类系统需要领域专家的有关知识和经验。领域专家只需要根据他们掌握的有关知识或经验,对给予的一些特定样本进行分类,确定样本的类别,然后给样本标注类别信息,带有类别信息的样本集合称为训练样本集。这些带有标号的样本相比类别数量相差很大,这时就可以使用机器学习技术进行自动抽取训练,形成分类器,当新的待分类样本到来时,就可以使用训练好的分离器进行分类。基于学习的分类方式是由机器学习算法通过对训练样本的学习自动建立的,它需要一定数量的己经标记过类别信息的文本信息。
4. 研究创新点
随着现代文献量逐年增多,出现了很多来稿文后参考文献不完整或不符合规范的问题,它不仅大大增加了编辑的工作量,而且不正确不规范的文献著录还会使期刊的影响因子、总被引频词、平均引文率和即年指标等文献指标统计失误,从而削弱期刊及论文的影响力。期刊论文中引用的英文参考文献同样存在很多问题,人们利用参考文献的诚信、链接、审验、评价、集约等功能,在诸多方面取得一定成效,但有时又受限于它的无序状态影响,于是越发注重对参考文献的规范,以期望获得更大收益[1],参考文献的分类亦是整个流程中最关键的一步,当前国内外参考文献的分类大部分采用人工的、传统的处理手段,但这种处理手段已经不能高效地处理海量的文献,所以说参考文献归类工作是一项细致且带有一定学术性质的工作。随着参考文献的增加,为了从海量的文献信息中快速准确地获取潜在的、有价值的信息,开展参考文献自动分类技术有着重要的意义。
其次,对于英文参考文献格式和中文文献对比,最大的区别就是其不像中文文献中将参考文献以不同的字母符号区分称几个不同的大类。以两篇信息管理类中外文献引用的期刊文献为例:
[1]甘仞初信息化、知识经济与企业管理[j]计算机科学, 1999, 10 (专辑) :14
5. 研究计划与进展
已经收集到前三类各1000条原数据和测试类200条原数据,即将进行数据的预处理步骤,即去掉在研究中不需要的部分,如作者,日期等,只留下有用的部分,如期刊名称等。预计利用python处理原数据,然后进行去停用词,特征选择等一系列步骤。
