基于Spark平台的中文文本分类的研究与系统实现开题报告

 2022-01-21 21:25:13

1. 研究目的与意义、国内外研究现状(文献综述)

意义:大部分检索系统在检索之前,一般来说都必须经历文本预处理的过程,来提高查询的性能和效率,其本质上也是一种信息检索的手段,与我们常见的信息检索不同的是:文本分类需要预先设定类别,制定具体的判别规则对待分类的新样本进行判断并将其归类到某个具体的类别中去。

其中最典型的就是对语料库的分类处理,过去积累了大量的语料,大部分是杂乱无章的,在对其进一步加工处理之前必须对它们进行分类处理。

以前的文本分类基本上都是通过人工手工进行分类的,这种分类方式既费时又费力,分类的效果也不尽如人意,如果能够找到一种技术来实现文本的自动分类,用来代替人工手工分类,势必会极大地提高语料的处理速度和处理质量。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

目标: 在spark计算平台下用python语言实现对文本分类的预处理、特征向量的构建、文本的分类以及运用部分语料数据进行测试评估内容:1.预处理:去除文本的噪声信息,例如 html标签,文本格式转换,检测句子边界等步骤: (1)选择处理的文本的范围。

   (2)建立分类文本语料库。

文本分类中所说的文本语料一般分为两大类:训练集语料和测试集语料。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

在虚拟机下,搭建好spark开发环境后,利用python软件进行编程开发。

编写程序导入事先存好的语料数据,所采取语料为中文文本分类语料库-tancorp,其预处理过程首先需要对文本进行分词处理,本文直接采用python库里面的结巴分词,重定向到新的文件夹,按照文件的遍历顺序重命名,以便后面能够较明显地识别。

同时需要去除停用词(采用百度停用词列表),根据文本的特点还可能需要对数据进行清洗,去除噪声项、进行词性的标注和对词频进行一些基本的统计工作。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

本系统采用spark开发环境,相比hadoop 更具有优势,更适合处理超大规模数据的机器学习任务。

apache spark 是专为大规模数据处理而设计的快速通用的计算引擎。

spark是uc berkeley amp lab (加州大学伯克利分校的amp实验室)所开源的类hadoop mapreduce的通用并行框架,spark,拥有hadoop mapreduce所具有的优点;但不同于mapreduce的是job中间输出结果可以保存在内存中,从而不再需要读写hdfs,因此spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 研究计划与进展

2018.1.14-2018.2.14做好准备工作,查阅相关文献,搭建好spark开发环境,学习并使用linux系统spark开发环境以及python软件,学习算法原理2018.2.15-2018.3.15对语料库的数据进行预处理和特征向量的构建,继续熟悉使用spark环境下python软件编程2018.3.16-2018.4.16研究并实现文本分类的训练算法以及软件系统2018.4.17-2018.5.17实验分析与比较,系统的优化和改善2018.5-2018.6撰写毕业论文

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付