1. 研究目的与意义、国内外研究现状(文献综述)
1、课题意义
科学技术及互联网的高速发展导致科技新闻的数量猛增。为了有效分析这些新闻,迫切需要对它们进行合理高效地分类。机器学习和计算机技术的迅速发展为这一问题的解决提供了一条有效的途径,几乎所有的机器学习算法都曾用于解决文本分类问题,如svm、神经网络等。
2、国内外研究进展
2. 研究的基本内容和问题
1、研究目标
该研究拟抓取环球日报和中国日报英文版两个网站的新闻作为研究语料,并对语料进行预处理,利用text-cnn模型对文本进行二分类(正/负),分析分类的损失函数和精度,确定适合于科技文本分类的模型参数。
2、研究内容
3. 研究的方法与方案
1、研究方法
(1)文本预处理
利用python的正则表达式去除数据中的非文本部分,使用nltk包对文本进行词形还原,并将单词转化为小写;
4. 研究创新点
近年来,对于文本分类的研究多数聚焦于研究用户评论、聊天记录等短文本,针对科技文本的分类研究较少,但是针对科技文本的情感分类又对网络舆情的监测有着重要作用,因此本课题研究的科技文本的情感分类是有必要的。而且在2006年深度学习概念第一次被提出,已经在图像识别、语音识别等领域取得了更加出色的性能,研究结果也表明深度学习理论中的许多模型都比传统的机器学习算法有更好的分类性能,因此本研究将卷积神经网络模型引入到科技文本的分类中来。
5. 研究计划与进展
相关准备工作:
利用相关的图书馆资源以及网上资料尽快掌握Word2vec和TensorFlow框架的应用,为文本分类以及随后的分析做好准备工作,具体工作预期进展如下所示:
时间 | 研究项目 |
2020年2月 | 进行新闻抓取与清洗 |
2020年3月 | 进行模型训练 |
2020年4月 | 结果分析,完成论文 |
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。