基于深度学习的文本垃圾信息的识别开题报告

 2021-11-29 09:11

1. 研究目的与意义(文献综述)

随着互联网技术在全球范围内的普及,人类开始进入大数据时代,数据挖掘和人工智能已成为时代主题。在科学领域、经济领域及社会生活的方方面面,我们所看到的或者看不到的事物无时无刻不呈现出海量数据的特征。其中文档数据更是蕴含着人类各种行为以及心理信息,如果对其认真挖掘并加以科学分析利用,将会产生极高的社会价值,对于社会学家和人类学家的研究有着非常积极的作用。而深度学习则可以满足我们这样的需求,它模拟人类大脑处理信息时的分层结构,将传统神经网络的层数加深(最深可达十几层),并采用了多种预训练的方法获得网络的初始参数,避免了采用随机值时由于参数过多等原因而导致算法发散。深度学习理念提出以来,在语音识别、图像识别等领域取得了巨大的成功,将很多领域的研究水平提升到了一个新的层次,成为时下机器学习领域的一大研究热点。当前社会上用于信息交互的各种社交平台、即时通讯工具日益普及。这些用来信息交流的平台工具目前主要使用短文本作为信息传播与交互的载体,其方便、快捷、高效的特点适合当今信息化、快节奏的生活。手机短信、微博、商品评论、论坛帖子等一类长度或长或短,字数有限的文本都可以作为我们的研究对象。在该类短文本中,往往存在着大量的违反信息交互平台使用规定的违法的垃圾类文本,这些文本编辑来源广泛且内容编辑存在诸多不规范,有时候我们在进行网上购物的时候可以发现在商品的评论区有着诸多类似的刷出来的评论,这些评论中的文本重复度非常高,如果我们需要提炼出其中有价值的信息的话,就需要对其进行一系列的去重复化处理,将重复的文本删除掉。还有我们在浏览论坛或者上网查找资料的时候,或许因为平台的审核制度,有时候原作者发出来的文本到网站上之后我们会看到文本其中会夹杂一些不明不白的特殊符号,那么这个时候我们就需要把文本中与原文毫无关联的杂乱符号删除掉,这样我们才可以得到一份纯净的文本供我们分析。类似的例子还有很多,总之,在我们想要获取网络中有价值的文本信息之前,我们必须要对整段文本进行一个文本垃圾的识别,去除掉文本中的垃圾信息对于我们的后续处理有着非常有利的作用。本设计涉及信息处理技术领域,用以在节省人工操作的基础上精准地识别垃圾文本。

2. 研究的基本内容与方案

二、基本内容和技术方案(1)爬取网络中的文本信息,基于scrapy框架进行爬虫,为接下来的文本垃圾信息的识别提供数据支持。(2)基于深度学习的自然语言处理(nlp)领域,利用卷积神经网络对文本进行二分类即正常文本以及垃圾信息。开发步骤:1)查阅资料,了解系统功能需求;学习爬取文本以及文本分类的方法和技术。 2)从技术可行性、运行环境、系统需求等方面完成系统分析功能,给出系统需求分析书。3)熟悉开发工具与环境,进行系统设计与开发。4)进行系统测试与完善。开发内容:1. 确定垃圾文本信息的定义。初步定义为与原文内容无关,没有它丝毫不影响阅读,并且文本垃圾信息的存在会有弊于后续对文本的处理。如重复语句、乱码符号、语义于上下文完全不相关的内容等即为文本垃圾信息。

2.读取文本信息:在python平台,基于scrapy框架,从url队列中按照顺序依次调用已保存的目标网站的url地址,然后程序会通过本地服务器获取该网页对应的ip地址,爬取地址里面的数据信息。

3.用深度学习的方法区别垃圾信息:区别垃圾信息的本质就是对文本进行分类,深度学习这一概念已经包含了卷积神经网络(cnn)、递归神经网络(rnn)、生成式对抗网络(gan)等多种具体模型。其中卷积神经网络和递归神经网络都是当前应对文本分类问题的有效手段。4.研究重难点1)文本爬取过程中可能会得到我们并不需要的文本数据,需要想办法进行筛选

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

4月15号之前,学院组织完成中期检查,检查结果正式行文报教务处

4月20日完成第一次阶段性报告

5月5日完成第二次阶段性报告

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]朱定局.数据处理与深度学习[m].北京:清华大学出版社,2019.

[2]张军阳,王慧丽,郭阳,扈啸.深度学习相关研究综述[j].计算机应用研究,2018,35(7):1921-1928.

[3]刘芳,李戈,胡星,金芝.基于深度学习的程序理解研究进展[j].计算机研究与发展,2019,56(8):1605-1620.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。