智能论文格式检测系统的设计与实现开题报告

 2022-05-18 20:08:25

1. 研究目的与意义、国内外研究现状(文献综述)

随着网络技术与信息化技术的普及与发展,各高校的学生已普遍使用 Microsoft Office Word 文档完成毕业论文的撰写,每所高校的教务管理部门对毕业论文的撰写格式和文献的引用方面都有明确的要求,长期以来,论文格式、错别字的检查主要由学生本人、毕业设计指导教师或者专职人员审核,这种手工操作方式费时费力,所以开发一个可以自动进行错别字、格式检错与修改的软件是做好人工论文格式检查的最优解决方案。

安徽工业大学的陈国胜、何宗明老师早在2009年就提出了一种基于XML技术的Word文档录入及格式检测系统设计方法,该方法通过Word文档和XML文档的相互转换,设计了一个Word文档录入和格式检测模型系统,但是该系统还有不完善的地方,例如需要改进文档格式检测机制,进一步实现Excel接口和XSTL转化接口;东北电力大学的阚运奇老师在2012年提出一种基于VBA的论文检测方法,该方法需使用VBA技术操作宏,普通用户难以使用;隋欣、张军辉在2013年提出了一种基于.NET的文档信息提取解析方式,该方法仅仅读取到了文档内部的文本、标题、目录和表格信息,但对文档的样式信息提取并没有涉及。2017年叶秀云,刘德正的研究生学位论文格式自动检测系统设计与实现[1]研究了鉴于论文格式检测的背景与现状,但是没有对论文的格式错误进行指出与部分纠正。在前人研究基础上,本课题使用Python下的pycorrector和ElementTree开发了一个可以对确定论文格式的毕业论文进行错别字和格式检测的网站,为论文格式审查工作人员减轻负担。

2. 研究的基本内容和问题

主要内容如下:

(1) 设计一个页面简洁提供登陆功能的网站

(2) 用户角色有未登录和登录两种,为登录用户提供记录功能。

(3) 设计两个上传文档的模式,论文检测和常规的错字检测。

(4) 论文检测模式对用户上传的文件进行文件格式检测限制word类型,错字检测模式则可以上传word和txt。

(5) 对于论文检测,用户可以上传自己的word格式论文模板,也可以使用系统自带的默认模板。其中主要对论文的中英文摘要、各级标题、目录、行间距、字符间距、封面、字体、参考文献、图、表和公式等常规格式进行检测

(6) 再对论文进行错字检测,错字检测主要针对谐音字词,如配副眼睛-配副眼镜混淆音字词,如 流浪织女-牛郎织女;字词补全,如爱有天意-假如爱有天意;形似字错误,如 高梁-高粱

(7) 用户也可以上传纯文字文档进行单纯的错字检测。

(8) 检测结果,生成一个新的文档。其中格式有错误可能的地方和错别字,使用红色字体进行标出。

(9) 用户可以自行下载检测结果文件,登陆用户的检测结果文件会在服务器保存。

预期目标是实现上述所有功能

3. 研究的方法与方案

与众多研究者所采用的研究方法一样,我在研究论文错别字与格式检测时查阅了许多参考文献,我检索文件时利用论文格式和错别字等关键信息在网络上进行信息检索,利用检索到的信息初步了解nlp,为使用pycorrector做好准备。

通过微软提供的open xml 文档和前人发表的有关论文格式检测的论文,研究word解压后生成的文件夹中各个xml文件以及xml中各个tag与原word所对应的关系。

使用python的elementtree解析xml文件。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

[1] 贝超, 胡珀. 语言先验知识对神经网络模型自然语言处理任务的影响[j]. 中文信息学报,2017, 31(6): 10-17.

[2] 王晓龙.最少分词问题及其解法[j]. 科学通报,198934(13):1030-1032.

[3] 刘义, 何均宏. 一种保持语义关系的词向量复用方法[j]. 中国科学:信息科学, 2020, 50(6): 813-823.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 研究计划与进展

(1)2021.2.1 ----2021.3.10 查阅资料,撰写开题报告

(2)2021.3.11 ----2021.3.18 需求分析,熟悉开发工具

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版