全文总字数:4742字
1. 研究目的与意义、国内外研究现状(文献综述)
论文质量是反映大学生学习效果与专业素质的一项重要指标,而摘要是对整篇论文内容的概括,可以帮助读者快速了解论文内容。查阅文献过程中发现,不少大学生论文的摘要中存在错别字、搭配不当等语句错误,影响阅读体验和论文理解,需要进行校对工作。而文本校对量日益增加,传统的人工校对方式劳动强度大、工作效率低,已不能满足发展需求。因此,本研究将以计算机专业论文摘要为例,设计实现一个真词错误校对系统,提高校对效率和准确性,以提升摘要和论文的整体质量。
文本自动校对技术是自然语言处理的重要应用之一,也是自然语言处理领域研究的难点。现阶段,国外已有很多关于英文文本自动校对的研究,发展较为成熟。
2015年,sumit sharmaa , swadha gupta[8]利用三元模型和贝叶斯模型结合的方法校正拼写错误;2017年,s. m. dashti[7]基于三元模型,通过操作概率上下文无关语法区分搜索文本中的单词项,重点检测和纠正句子中的多个真词错误;2018年,s. m. dashti, a. k. bardsiri , v. k. bardsiri[6]利用约束语法在搜索空间中对校正候选集进行区分,提出了一种基于统计和句法知识的检测校正真词错误的方法。
2. 研究的基本内容和问题
(一)研究目标
摘要的用词准确体现了论文的水平和严谨性,校对工作显得十分重要。但在实际生活中,我国文本校对方式大多还是传统的人工校对,导致文本校对工作程序繁琐,效率不高。因此,本研究希望通过设计和实现真词错误校对系统,检测和校正论文摘要中的真词错误,帮助计算机专业的学生提高其论文摘要的的用词准确性,也帮助读者更好地理解论文。
(二)研究内容
3. 研究的方法与方案
(一)研究方法
1.预处理。为确保后续步骤的正常进行,需要将文本数据进行分词的预处理。
2.n-gram语言模型。该模型是文本自动校对中最常见的一种语言模型,通过构建字符串的概率分布,反映字符串作为一个句子出现的概率。本研究中可用于统计相邻真词出现的频次。
4. 研究创新点
(一)选题创新
选题为真词错误校对系统。文本自动校对技术是自然语言处理的重要应用之一,也是自然语言处理领域研究的难点。将自然语言处理技术运用在中文文本自动校对方面,符合社会信息化进程的发展需求,也可以促进相关研究领域的快速发展。
5. 研究计划与进展
1.获取《计算机学报》上的论文摘要,作为训练文本,对其进行预处理;
2.获取网上现有的同义词集、汉语词典;
3.基于预处理后的文本和获取的汉语词典,构建汉字混淆集、真词混淆集;
