基于动态规划方法的作业管理与查重网站系统设计与实现开题报告

 2022-05-15 22:41:55

1. 研究目的与意义

(1) 课题研究背景当今,高等院校的大学生提交电子作业文档主要还是通过邮箱、社交软件等较为低效的途径,少数院校虽然实现了通过网站收交作业,但是缺乏智能化的管理和查重方案。同时,学生作业中存在着不少抄袭现象,人工审查势必会造成大量时间上的浪费。因此,教师审查和批阅作业的过程中,面临着许多不便。随着社会经济与科技的发展,各行各业普遍都感受到了新技术对于改善工作效率的重要意义。目前国内外已有基于机器学习算法、功能强大的商用查重系统,但普遍不易部署和维护。因此,立足于具有时代特征和价值的新技术,用以提升高校作业收交与检重效率的作业管理与查重网站系统应运而生。(2) 国内外研究现状目前,国内外已有不少基于复杂的机器学习算法的查重方案,其核心算法大致可归纳为以下几种:1) 基于空间向量的余弦算法。首先进行中文分词,然后按照停用词表中的词语将语料中对文本内容识别意义不大但出现频率很高的词、符号、标点及乱码等去掉[1][2]。过滤掉常用副词、助词等频度高的词之后,根据剩下词的频度确定若干关键词,再针对每个关键词对文本特征的体现效果大小不同设置权值。然后建立向量空间模型,其基本思想是把文档简化为以特征项(关键词)的权重为分量的N维向量表示,两个向量之间的余弦值越接近1,即夹角越小,则两个向量所代表的文档信息越接近。但该模型建立的前提是假设词与词间不相关,这个前提造成其无法进行语义相关的判断。2) 基于空间向量的最长公共子序列法。首先将两个字符串分别以行和列组成矩阵。遍历该矩阵,计算每个节点行列字符是否相同,若相同则为1[2]。通过找出值为1的最长对角线即可得到最长公共子串。但是文档间的最长公共子序列与文档间的相似度并不能建立公式化的关联,因而无法通过直观的量化来体现文档间的相似度。3) TF-IDF法。TF(Term Frequency)即关键词词频,是指一篇文章中某个关键词出现的频率,比如在一篇M个词的文章中某个关键词出现N次,则M / N为该关键词在该文章的TF[2]。IDF(Inverse Document Frequency)即逆向文本频率,是用于衡量关键词权重的指数,设D为文章总数,Dw为关键词出现过的文章数,则log( D / Dw ) 为该关键词的IDF[2]。通过建立这样的结构模型,来作为向量加权的依据。但是在本质上IDF是一种试图抑制噪音的加权,并且单纯地认为文本频数小的词就越重要,文本频数大的词就越无用,显然这并不是完全正确的。IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TF-IDF法的精度并不是很高。4) 基于词条空间的最少编辑距离法。设A、B为两个字符串,狭义的编辑距离定义为把A转换成B需要的最少删除(删除A中一个字符)、插入(在A中插入一个字符)和替换(把A中的某个字符替换成另一个字符)的次数,用LD( A, B ) 来表示[1][2]。直观来说,两个字串互相转换需要经过的操作次数越多,差异便越大。编辑距离法可以较为直观地体现两个文档之间的相似程度[3][4]。5) 复杂的专用查重算法。对于一些专业从事查重工作的机构,一般会针对实际情况,自制复杂的专用查重算法[8]。这些算法依托于运算能力强大的大型服务机,以及存储了大量语料的数据中心。这样大型的专用查重方案可以获得相对准确的查重结果,但一般的机构和个人难以部署、使用和维护。(3) 课题研究目的与意义本课题旨在基于动态规划方法,探索和实现一种作业管理和查重的解决方案。本系统具备轻、快、准的特点。相比功能强大的大型查重系统,本系统更易于部署和使用;简化了不必要的查重规则,使运算速度更快;同时因为采用了先进的算法,使查重准确度能够满足日常所需。因此,使用这项方案将很大程度地提升高校教师的工作效率和办公体验。

2. 研究内容和预期目标

(1) 课题主要硏究内容考虑到高校的现实使用情况,要在查重准确度与系统规模之间寻求一个平衡,又要便于使用。经过一系列调研后,确定了本次毕业设计主要包含的研究内容:① 作业查重的标准和实现技术;② 采用SSM框架实现高效管理作业的网站;③ 基于动态规划方法实现文本查重功能;④ 将文本查重功能合入作业查重系统;⑤ 作业管理系统与作业查重系统的对接。其中,交互界面部分采用MVC框架搭建,查重部分以机器学习中的动态规划为主要方法,以文本编辑距离为依据,力求设计出一套符合国内高校实际应用场景,对中文支持良好的作业管理与查重网站系统[5][6][7]。(2) 课题预期目标本系统应具备轻、快、准的特点。相比功能强大的大型查重系统,本系统应更易于部署和使用;简化不必要的查重规则,使运算速度更快;同时采用先进的算法,使查重准确度能够满足日常所需。因此,使用这项方案应可以很大程度地提升高校教师的工作效率和办公体验。

3. 研究的方法与步骤

(1) 调研并总结作业管理与查重系统的现实需求通过对过去作业管理和查重过程中存有缺陷之处进行总结,提出符合实际的新需求。(2) 分析需求通过分析需求,明确实现需求所用技术应当符合的标准和特征,并将分析结果写成需求分析报告,为后续系统的实现明确定位和方向。(3) 参阅相关资料通过互联网检索,了解相关领域的新技术和新标准,明确实现需求所采用的技术方案和指标,并将这些指标记录作为后续实践的参考。熟悉主流的用于文本相似度计算的方法,归纳它们各自的原理、特点以及不足,用于后续参考。(4) 设计相关数据结构根据需求分析的结果,设计相关符合要求的数据结构,对每个数据结构,明确它在系统中的定位和使用场景[9][10]。(5) 编码实现根据前期工作制定的方案,正式通过编码实现系统,在编码过程中,总结各模块之间的关系,对重要模块建立测试用例,用于后续测试。(6) 测试完善系统初步完成后,建立完备的测试用例,模拟实际应用场景,制定一系列测试计划。实施测试,以确保系统的每个模块都能正确运行。(7) 总结并完成论文最后对整个课题的学习和研究过程进行总结,完成论文。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1] CSDN, 程序员的自我反思. 动态规划问题:最短编辑距离算法的原理及实现[J/OL]. https://blog.csdn.net/a553181867/article/details/89008264, 2019-04-04/2020-3-28.[2] CSDN, Liangxiaxu. 信息检索中的重要发明TF-IDF与文本相似度算法[OL]. https://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html, 2018-12-1/2020-4-14.[3] CSDN. 动态规划斐波那契数列[OL]. https://blog.csdn.net/qq_41805514/article/details/82961373, 2018-10-07/2020-4-16.[4] MisterBooo. 递归与动态规划[OL]. https://www.cnblogs.com/fivestudy/p/10217887.html, 2018-10-07/2020-4-16.[5] 张跃平, 耿祥义. JSP程序设计[M]. 北京:清华大学出版社, 2009.[6] Shari Lawrence Pfleeger. 软件工程:理论与实践[M]. 北京:电子工业出版社, 2013.[7] 杨怀洲. 软件测试技术[M]. 北京:清华大学出版社, 2019.[8] Rubén -Tdus, Jaime Delgado. A Vector Space Model for Semantic Similarity Calculation and OWL Ontology Alignment[C]. UPC UPF, 2007.[9] Mark Allen Weiss. Data Structures and Algorithm Analysis in C[M]. 北京:机械工业出版社, 2016.[10] Stanley Lippman, Josee Lajoie, Barbara E. Moo. C Primer[M]. 北京:电子工业出版社, 2013.

5. 计划与进度安排

(1) 2022-01-01 ~ 2022-01-31调研 调研,撰写开题报告

平台搭建 搭建系统环境与基本框架

(2) 2022-02-01 ~ 2022-02-29查阅文献 论文综述、论文目录和学习现有算法

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版