基于上下文语境的真词错误校对系统——以计算机专业论文摘要为例开题报告

 2022-01-16 18:38:46

全文总字数:4742字

1. 研究目的与意义、国内外研究现状(文献综述)

论文质量是反映大学生学习效果与专业素质的一项重要指标,而摘要是对整篇论文内容的概括,可以帮助读者快速了解论文内容。查阅文献过程中发现,不少大学生论文的摘要中存在错别字、搭配不当等语句错误,影响阅读体验和论文理解,需要进行校对工作。而文本校对量日益增加,传统的人工校对方式劳动强度大、工作效率低,已不能满足发展需求。因此,本研究将以计算机专业论文摘要为例,设计实现一个真词错误校对系统,提高校对效率和准确性,以提升摘要和论文的整体质量。

文本自动校对技术是自然语言处理的重要应用之一,也是自然语言处理领域研究的难点。现阶段,国外已有很多关于英文文本自动校对的研究,发展较为成熟。

2015年,sumit sharmaa , swadha gupta[8]利用三元模型和贝叶斯模型结合的方法校正拼写错误;2017年,s. m. dashti[7]基于三元模型,通过操作概率上下文无关语法区分搜索文本中的单词项,重点检测和纠正句子中的多个真词错误;2018年,s. m. dashti, a. k. bardsiri , v. k. bardsiri[6]利用约束语法在搜索空间中对校正候选集进行区分,提出了一种基于统计和句法知识的检测校正真词错误的方法。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

(一)研究目标

摘要的用词准确体现了论文的水平和严谨性,校对工作显得十分重要。但在实际生活中,我国文本校对方式大多还是传统的人工校对,导致文本校对工作程序繁琐,效率不高。因此,本研究希望通过设计和实现真词错误校对系统,检测和校正论文摘要中的真词错误,帮助计算机专业的学生提高其论文摘要的的用词准确性,也帮助读者更好地理解论文。

(二)研究内容

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

(一)研究方法

1.预处理。为确保后续步骤的正常进行,需要将文本数据进行分词的预处理。

2.n-gram语言模型。该模型是文本自动校对中最常见的一种语言模型,通过构建字符串的概率分布,反映字符串作为一个句子出现的概率。本研究中可用于统计相邻真词出现的频次。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

(一)选题创新

选题为真词错误校对系统。文本自动校对技术是自然语言处理的重要应用之一,也是自然语言处理领域研究的难点。将自然语言处理技术运用在中文文本自动校对方面,符合社会信息化进程的发展需求,也可以促进相关研究领域的快速发展。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 研究计划与进展

1.获取《计算机学报》上的论文摘要,作为训练文本,对其进行预处理;

2.获取网上现有的同义词集、汉语词典;

3.基于预处理后的文本和获取的汉语词典,构建汉字混淆集、真词混淆集;

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版