1. 研究目的与意义、国内外研究现状(文献综述)
研究目的和意义学科是与知识相联系的一个学术概念,是自然科学、社会科学两大知识系统(也有自然、社会、人文之三分说)内知识子系统的集合概念,学科是分化的科学领域,是自然科学、社会科学概念的下位概念。
对学科的分类,从亚里士多德开始一直到现在形成的整个社会的知识体系的结构分类受到广泛的关注。
在现代的知识体系下,学科的知识类别体系相对完整的也是被关注较为广泛的是scopus数据库中关于学科类别的分类体系。
2. 研究的基本内容和问题
基于大规模的scopus引文数据库中的学科题录的数据信息,结合支持向量机,在特征选取的基础上,完成了面向计算机、社会学和图书情报三个学科的分类模型。
本文的研究意义具体如下:理论层面上,本文从数据的层面,探究了学科类别体系是否是随着训练数据的增加,类别体系是否更加的集中,该研究对于验证某一学科是否包含了本学科的核心论文具有数据上的支撑作用。
同时,本文基于大规模数据的模型训练,对于类别特征的选取和确定分类模型的特征,对大数据环境下的机器学习模型的构建具有一定的理论参考价值。
3. 研究的方法与方案
研究方法编程技术路线通过一定的特征选择,在支持向量机的基础上,完成对相关学科的类别特征的学习,探究了支持向量机在学科分类上的性能,进而实现类别知识体系的构建实验流程1.oracle 数据库查询本研究实验的数据源存储在oracle数据库中,在研究数据获取阶段,先利用jdbc操作oracle数据库,通过查询语句从数据库中查找computer science applications、social sciences(all)、library and information science三个类别从2001年至2011年10年间的期刊。
其中computer science applications有598507条记录,social sciences(all) 有46224条记录,library and information science有46115条记录。
为降低svm训练负担,在computer science applications中随机选择了50383条记录作为数据源。
4. 研究创新点
本研究所使用的数据集有数十万条记录,原始特征空间维数高达数十万维,因此本研究采用了TF-IDF方法,对特征权重进行重新加权,通过多次试验调整阈值,将权值小于阈值的特征去除,保留权值大于阈值的特征,实现了对高维特征空间的降维。
5. 研究计划与进展
研究进程安排2014年12月20日:与指导老师讨论所写论文的研究方向,并确定论文的题目。
2014年12月25日:初步收集论文的基本材料,提交开题报告。
2015年3月上旬3月中旬:在指导老师的指导下,集中整理已收集的相关资料,撰写论文详细题纲。
