基于SVM的智能文档分类系统的设计开题报告

 2022-01-02 04:01

全文总字数:3007字

1. 研究目的与意义(文献综述)

当今,互联网上出现了各种各样的信息,信息量也以几何倍数的快速增长。而这些信息大部分都是以文本的形式存在的。面对海量的文本文档,对它们合理的管理和利用,就显得特别重要。而研究的这些方法就是所谓的文本处理技术。该技术的核心就是文本分类技术[1]。文本分类,以前都是依靠人工操作来进行的,而且不同领域的分类标准和办法是不相同的。但是这样会有一个明显的问题就是,这种方法需要的人力和物力都是惊人的,而且效率非常低,有些情况下只靠人力是无法完成的。文档分类系统可以应用在很多领域比如图书馆管理、公司文件储存、垃圾邮件过滤、文字情感分析等。因此,设计开发一个方便快捷的文本分类系统,是十分重要的事情。

20世纪中叶,文本分类得到了迅速的发展,并利用知识工程理论实现了人为定制分类体系的建构目标。而在近期,相关专家和学者开始尝试利用机器学习的形式实现对文本的分类。这种不需要人为干预的文本分类方法得到快速的发展,并逐渐成为文本分类的主要研究内容。美国学者提出基于权重修复的分类器,并对数据检索展开分析研究,提出了召回率、准确率等相关概念。而英国学者提出使用向量机开展文本分类工作的理论方法,而在“深度学习”理论不断发展的过程中,神经网络逐渐被广泛应用到现代网络分类体系中,并且获得了显著的效果[2]。现阶段,文本分类的主要研究热点有四。首先是多语种分类,即如何通过分类器对跨文化文本进行分类。其次是噪声问题,即如何破解文本分类中所固有的噪声问题,尤其是短文本问题。再次是规模性文本分类,即如何在大规模数据文本中构建有效的分类器。最后是层次化分类,即根据文本内容间的主从关系、逻辑关系、依赖关系实现分级分类。在文本分类理论研究过程中,我国学者通过明确“深度学习”理论的内涵、深化召回率与准确率等概念,从实际应用层面阐述文本分类的现实价值。文本分类是互联网检索技术、大数据技术、云计算技术、数据库技术等多种技术的基础性技术,在实际研究过程中,能够有效提升数据的检索质量与传输质量。以现代检索技术为例,当前的检索平台以关键词检索为主,在数据文本的检索过程中存在着明显的局限,即60%的数据信息属于无效文本。而在文本分类技术快速发展的过程中,检索平台能够根据关键词的主题内容,向用户推送与之“存在内部逻辑关系”即依赖关系的数据信息,以此提升文本数据的利用率[3]

目前,文本分类的算法已经趋于成熟,但是在应用方面还存在许多不便之处。对于国内多数学者而言,平时需要管理的文档不局限于中文,也存在着大量的英文文档。因此,英文文档管理同样有相当大的重要性。结合以上条件,建立一个中英文文本分类的系统是十分必要的事情。本次设计将从中英文文本分类的结合方面入手,建立起一个较为完整的文本分类系统。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

由于互联网的迅速发展,出现了大量的电子文档,与之一同出现的便是文档分类问题。文档分类可以提供对于文档的有序管理和组织,目前电子文档的增长速度飞快,对于电子文档的处理日益重要。本次设计的主要研究内容为计基于 svm 的智能文档分类系统,实现文本的预处理、选择特征向量、输出训练样本集文件、验证分类模型精度等文本处理技术,通过这些技术的结合,能够达到对于未知文档分类的目标,有效解决中英文文档的分类问题,进而解决生活学习中数不胜数的中英文电子文档管理问题。

技术方案方面拟采用支持向量机(svm)作为文本分类器。svm是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。多年的实践证明,svm是分类器中的佼佼者,在人像识别、文本分类、模式识别等领域得到广泛应用。

本次设计在实现了以上功能的基础上,把代码封装好,用java语言编辑建立ui图形界面。结合ui界面设计,最终实现一个完整的文档分类系统。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1-3周:查阅相关中、英文文献资料,明确研究内容。确定设计方案,完成开题报告;

第4周:完成不少于1万字符的英文翻译任务;

第5-7周:学习svm算法基本理论,了解文本预处理方法;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1] 汪岿,刘柏嵩.文本分类研究综述[j].数据通信,2019,(3):37-47.

[2] alemu kumilachewtegegnie, adane nega tarekegn, tamir anteneh alemu.a comparative study of flatand hierarchical classification for amharic news text usingsvm[j].international journal of information engineering and electronicbusiness(ijieeb),2017,9(3):36-42

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。