1. 研究目的与意义
随着互联网技术的迅速发展,网络与人们的生活紧密相连、息息相关,“互联网 ”的模式下,各行各业都在逐渐深入互联网与物联网领域。在现代高校的教学流程中,无纸化办公越来越普及。无纸化办公使得教师和学生可以将更多的时间用于思考实际问题,但随之而来的是,电子文档具有几乎无成本的易复制性和易修改性,当面对部分学生千篇一律的抄袭、剽窃行为时,教师很难通过作业考察形式获取真实的教学反馈,保障教学进度的正常进行。因此,作业查重系统应运而生,帮助教师甄别抄袭、剽窃的文档,减轻教师的工作压力,可以根据作业查重结果,针对不同学生,及时制定相应的教学方案,真正实现因材施教。
现有的电子文档查重系统,如知网查重,其拥有海量的文档数据库,几十年内的文章著作都囊括其中。知网的查重算法核心思想是:若一段文字中连续十三个字都和数据库中某文档重复,则判定此句话为抄袭,同时对段落设置灵敏度阈值,整段重复百分比低于5%,就不会判定抄袭。其查重思想可以借鉴,但具体查重流程需要修改。
首先,作业查重的相似度检测范畴仅限于一个教学班,无需维护一个囊括大部分互联网文档的数据库。其次,学生的作业量基本达不到论文的规模,在文档字数较低时,采用连续字符查重判定法,精度较低。综上,作业查重系统采用余弦相似度算法进行文档对比,最后进行信息整合,提供统计图表方便教师查看。2. 研究内容和预期目标
本毕业设计以余弦相似度算法为理论,实现一个教学领域的作业查重系统。系统将着重于余弦相似度的研究和计算,通过计算余弦相似度,得出学生作业之间的相似情况,进行统计分析,划出抄袭剽窃的部分作业。
本系统研究难点在于如何选用恰当方式对学生作业进行快速,精准的判重,以保证教师可以及时跟进查重结果,调整教学方案。为提高计算效率,系统将采用大数据平台将学生作业进行分布式存储和分布式计算。
系统的整体设计采用Java平台和Hadoop、Spark大数据平台整合,最终通过浏览器界面展示、大数据平台的余弦相似度计算、后端业务逻辑的数据统计分析三方面进行,以用户体验度最优进行完善和优化。3. 研究的方法与步骤
1. 底层模块设计
学习与掌握文件i/o原理,mapreduce原理,字符串切割原理等知识,来设计和实现查重系统数据模块,用于读、写和存储查重系统相关的数据。
2. 数据计算与处理模块设计
4. 参考文献
[1]朱浩,连德富,左志宏,颜凯.余弦相似度在高校综合信息系统中的应用[J].东南大学学报(自然科学版),2017,47(S1):123-128. [2]骆亮.基于内容推荐算法和余弦相似度算法的领导决策辅助信息系统[J].广西科学院学报,2018,34(02):143-150. [3]潘伟.利用文本余弦相似度实现Android应用的版权保护[J].中国新通信,2014,16(02):53-55. [4]张振亚,王进,程红梅,王煦法.基于余弦相似度的文本空间索引方法研究[J].计算机科学,2005(09):160-163. [5]D Gunawan,C A Sembiring,M A Budiman. The Implementation of Cosine Similarity to Calculate Text Relevance between Two Documents[J]. Journal of Physics: Conference Series,2018,978(1). [6] Resnick, Paul and Varian, Hal. Recommender Systems[J]. Introduction to special section of Communications of the ACM. vol. 1997, 40(3):56-58. [7] Greg Linden, Brent Smith, Jeremy York. Amazon.com Recommendations: Item-to-Item Collaborative Filtering[J], IEEE Internet Computing, 2003, (7)1: 76-80. [8] Davidson, J. and Liebald, B. and Liu, J. The YouTube video recommendation system[C]. Proceedings of the fourth ACM conference on Recommender systems. 2010. 293-296. [9] Shari Lawrence Pfleeger(美). 软件工程:理论与实践(影印版)[M]. 北京:电子工业出版社, 2013.
|
5. 计划与进度安排
序号 起止日期 任务 工作内容
1、 2022-01-16 ~ 2022-02-19 调研 调研,撰写开题报告
2、 2022-02-20 ~ 2022-02-28 查阅文献资料 论文综述和论文目录
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。