1. 研究目的与意义
它大大缩短了对于文本资料的整理时间。就中文文本而言,一篇特征明显的数千字的技术文档,使用人工手工进行分类需要几分钟,而机器通过程序自动判断只需要几秒钟。文本分类技术可以应用于信息过滤、信息检索等多个领域,有利于文档的分类、存档管理,为信息检索提供方便,使用户可以清晰高效地找到自己感兴趣的信息,替用户节约了宝贵的时间,提升了用户使用体验。
2. 研究内容和预期目标
通过对自然语言信息处理,实现文本精确分类。
降低计算量,提高精确度。
从大量复杂的信息中获取有效的信息。
3. 国内外研究现状
国外:2005年Gupta等人提出了一种使用粗糙集方法,并将这种方法用于文本分类的特征选择方面;同年,Hirsch等人尝试使用了遗传算法进行文本分类间。2016年,Mikolov提出了一种简单有效的文本分类方法,在该方法中将句子中所有的词向量进行平均处理。Ji Young Lee等人提出使用CNN和RNN生成文本词向量,然后使用人工神经网络ANN进行分类。
国内:2915年,Chun ting Zhou等人提出了将CNN与LSTM模型进行混合使用来进行文本分类。2016年,中科院大学来斯惟博士提出了RCNN(循环卷积神经网络)模型用于文本分类。Peng fei Liu等人提出了基于RNN的文本分类方法。Du yu Tang等人提出了文本的层次表示模型,该模型中使用两个神经网络分别建模句子和文档向量。
4. 计划与进度安排
概括性介绍国内外在文本分类以及文本分类系统搭建方面的主要进展,并罗列出本文的主要研究内容、创新点以及内容组织结构。简述了文本预处理、特征选择、特征权值计算、分类算法的几种经典实现算法及它们 各自的特点和使用环境
从系统架构设计整体分析了本文的系统。
介绍了系统的部署环境、展示了系统的主要功能、通过不同分类算法在系统上运行的实验数据对比,验证了本文提出的文本分类系统的有效性。
5. 参考文献
《基于机器学习的文本分类研究与实现_王振》
《基于主动学习的文本分类系统设计与实现_聂嘉贺》
《知识管理系统中文本分类算法的研究与实现_张维》
