基于大数据技术的学生作业查重系统设计与实现开题报告

 2022-05-10 08:05

1. 研究目的与意义

随着互联网技术的迅速发展,网络与人们的生活紧密相连、息息相关,“互联网 ”的模式下,各行各业都在逐渐深入互联网与物联网领域。在现代高校的教学流程中,无纸化办公越来越普及。无纸化办公使得教师和学生可以将更多的时间用于思考实际问题,但随之而来的是,电子文档具有几乎无成本的易复制性和易修改性,当面对部分学生千篇一律的抄袭、剽窃行为时,教师很难通过作业考察形式获取真实的教学反馈,保障教学进度的正常进行。因此,作业查重系统应运而生,帮助教师甄别抄袭、剽窃的文档,减轻教师的工作压力,可以根据作业查重结果,针对不同学生,及时制定相应的教学方案,真正实现因材施教。

现有的电子文档查重系统,如知网查重,其拥有海量的文档数据库,几十年内的文章著作都囊括其中。知网的查重算法核心思想是:若一段文字中连续十三个字都和数据库中某文档重复,则判定此句话为抄袭,同时对段落设置灵敏度阈值,整段重复百分比低于5%,就不会判定抄袭。其查重思想可以借鉴,但具体查重流程需要修改。

首先,作业查重的相似度检测范畴仅限于一个教学班,无需维护一个囊括大部分互联网文档的数据库。其次,学生的作业量基本达不到论文的规模,在文档字数较低时,采用连续字符查重判定法,精度较低。综上,作业查重系统采用余弦相似度算法进行文档对比,最后进行信息整合,提供统计图表方便教师查看。

2. 研究内容和预期目标

本毕业设计以余弦相似度算法为理论,实现一个教学领域的作业查重系统。系统将着重于余弦相似度的研究和计算,通过计算余弦相似度,得出学生作业之间的相似情况,进行统计分析,划出抄袭剽窃的部分作业。

本系统研究难点在于如何选用恰当方式对学生作业进行快速,精准的判重,以保证教师可以及时跟进查重结果,调整教学方案。为提高计算效率,系统将采用大数据平台将学生作业进行分布式存储和分布式计算。

系统的整体设计采用Java平台和Hadoop、Spark大数据平台整合,最终通过浏览器界面展示、大数据平台的余弦相似度计算、后端业务逻辑的数据统计分析三方面进行,以用户体验度最优进行完善和优化。

3. 研究的方法与步骤

1. 底层模块设计

学习与掌握文件i/o原理,mapreduce原理,字符串切割原理等知识,来设计和实现查重系统数据模块,用于读、写和存储查重系统相关的数据。

2. 数据计算与处理模块设计

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1]朱浩,连德富,左志宏,颜凯.余弦相似度在高校综合信息系统中的应用[J].东南大学学报(自然科学版),2017,47(S1):123-128.

[2]骆亮.基于内容推荐算法和余弦相似度算法的领导决策辅助信息系统[J].广西科学院学报,2018,34(02):143-150.

[3]潘伟.利用文本余弦相似度实现Android应用的版权保护[J].中国新通信,2014,16(02):53-55.

[4]张振亚,王进,程红梅,王煦法.基于余弦相似度的文本空间索引方法研究[J].计算机科学,2005(09):160-163.

[5]D Gunawan,C A Sembiring,M A Budiman. The Implementation of Cosine Similarity to Calculate Text Relevance between Two Documents[J]. Journal of Physics: Conference Series,2018,978(1).

[6] Resnick, Paul and Varian, Hal. Recommender Systems[J]. Introduction to special section of Communications of the ACM. vol. 1997, 40(3):56-58.

[7] Greg Linden, Brent Smith, Jeremy York. Amazon.com Recommendations: Item-to-Item Collaborative Filtering[J], IEEE Internet Computing, 2003, (7)1: 76-80.

[8] Davidson, J. and Liebald, B. and Liu, J. The YouTube video recommendation system[C]. Proceedings of the fourth ACM conference on Recommender systems. 2010. 293-296.

[9] Shari Lawrence Pfleeger(美). 软件工程:理论与实践(影印版)[M]. 北京:电子工业出版社, 2013.

5. 计划与进度安排

序号 起止日期 任务 工作内容

1、 2022-01-16 ~ 2022-02-19 调研 调研,撰写开题报告

2、 2022-02-20 ~ 2022-02-28 查阅文献资料 论文综述和论文目录

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。