基于J2EE的中文文本分类管理系统设计与实现开题报告

 2021-08-14 16:04:22

1. 研究目的与意义(文献综述)

如今人类社会已经步入了信息时代,信息资源同物质、能量资源一样十分的重要,各国政府部门都出台了很多信息化建设方案,都不想在新时代落后,我国对信息技术也是非常的重视。这个时代,首先是互联网上的信息呈爆炸式的增长,这些海量信息绝大部分是以文本形式存在,另外在企业、科研单位以及广大的院校和政府机构中,都积累了大量的纸质的或数字的文档资料,纸质文档资料可以通过一定的方式转换为数字文档资料,转换的方式一般有手工录入,通过扫描仪扫描或拍照等方式。面对这些海量文本文档信息,研究管理利用它们的技术显得十分的迫切,这些技术称为文本处理技术,而文本分类技术是文本处理技术中比较重要的技术之一,所以研究文本分类技术有十分重要的意义。

文本分类其实不是一个陌生的概念,只是很久以来,人们不是借助计算进行文本分类,而是手工进行的,一般不同领域的文本分类策略有一定的差异性,所以进行人工文本分类首先要判断要进行分类的文档所属领域,然后聘请该领域的权威人士来进行分类操作或监督分类工作,如今面对海量的文档数据,一个非常严重的问题是人工方式要耗费惊人的时间、人力和物力,甚至有时分类工作是无法完成的,另外特定领域的权威人士本身其分类结果又有不可预料的差异性,可见这种传统的人工方式已经无法满足文档分类的要求了,从而只有通过计算机分类才能解决现实中的海量数据问题。

随着互联网在我国的深入普及,中文信息资源呈几何级别增长。为了更好地挖掘和利用其蕴含的庞大信息,基于中文的文本分类系统成为了一个研究热点。国内外的诸多学者投身于此并取得了一定的研究成果。但是,在基于中文的文本分类研究中,仍旧存在许多难题:首先,不同于英文,中文句子的词语间通常没有空格,无法直接提取句子中的词组和成分;其次,中文存在较多的多义词和歧义现象,对词语的切分造成了困难;最后,现今还没有一种通用的文本自动分类算法可以快速高精度地完成文本分类任务,需要对特定的问题进行特定的设计实现。如何有效的设计实现中文文本分类系统仍然是一个具有挑战性的研究课题。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

本系统的主要目的是构建一个基于j2ee的中文文本分类系统。用户可设置文本分类类别后上传文档,系统利用信息检索模型、中文分词方法、特征抽取、特征项权重方法及朴素贝叶斯,knn,vsm等分类方法实现对用户上传文档的自动分类,以此实现用户对文档的清晰便捷的管理。

文本分类的严格定义为:计算机按照文本特征和某种分类规则构建分类器,将待分类的文本划分到预先定义好的已知类别中。文本分类过程总体上可以分为训练和分类两个步骤。根据定义,需要首先对文本进行预处理,提取文本的相关特征,而后将提取的特征进行数学描述,根据具体的算法训练已知类别的文本集合得到分类器。在得到分类器后便可以对未知文本进行自动分类,对未知文本进行了预处理,特征提取,数学描述,最后可以得到分类结果。

训练阶段使用训练集构造文本分类器,分类段就使用训练好的分类器对需要分类的文本进行分类处理。文本分类中几个重要的环节包括文本表示,特征选择,和分类算法。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1-3周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。

第4-5周:熟悉掌握基本理论,完成英文资料的翻译,熟悉开发环境。

第6-9周:编程实现各算法,并进行仿真调试。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]薛亮.基于svm的中文文本分类系统的设计与实现[d].重庆:重庆大学,2012.

[2]苏红刚.基于svm的中文文本分类系统实现[d].吉林:吉林大学,2012

[3]李峰,刘彦隆.基于ssh框架和jquery技术的javaweb开发应用[j].科技情报开发与经济,2010,20(6):106-109

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版