基于主题爬虫的食品安全事件分析开题报告

 2022-01-14 11:01

全文总字数:4256字

1. 研究目的与意义、国内外研究现状(文献综述)

本次毕设通过分析国内外主流新闻媒体关于食品安全报导的数据,对数据进行处理分析,获得关于这些食品安全事件的统计分析结果,找出其中原因与联系,从而指导决策避免类似事件发生。拟开发出一个使用python开发的基于新闻网站数据的食品安全事件分析应用程序。该程序首先在国内外的主要新闻网站上抓取关于食品安全类的新闻报导(主要为文本数据),然后对这些文本数据进行清洗、分词等操作,并使用rnn attention网络对文本进行分类、数据分析。

在网络数据的挖掘分析方面,国内的王祯骏等通过分析社交网络上用户之间的影响力,从而找出最有影响力的用户集;彭舰等通过提取用户在新浪微博上的行为特征,从而了解到用户的兴趣爱好并进行个性化的推荐;沐光雨等基于社交网络数据分析社交网络信任机制的影响因素;刘先红通过比较国内外科研社交网络,找出目前国内科研社交网络在推荐系统方面的不足。而在国外,menchi等提出了用于社交网络数据分析的语义模型;souvik等提出了基于社交网络数据的混合协同过滤机制;ediger等使用graphct处理facebook和twitter上的数据,并分析了一个具有6千万个顶点的社交网络图,通过对图中的对象排名,找出关键的数据子集。此外,针对社交网络数据的分析已经体现出极大的社会价值,例如cambridge analysis 公司被指使用facebook提供的数据影响2016年的总统大选。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

本次毕设首先通过在国内外主要的新闻网站上收集近些年来关于食品安全方面的新闻报导,然后采用numpy、scipy、matplotlib来对数据进行整理、清洗、可视化。使用基于字典的分词方法,比如正向分词、逆向分词或者是基于统计的分词方法比如隐马尔可夫对中文文本进行分词处理,之后基于tensorflow以及rnn算法对文本进行分类处理。最后对处理后的文本按照不同的特征进行归类分析,并对结果概括以及展示。

一、研究内容

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

一、研究方法

1.查找搜集相关的资料确定实验过程中需要用到的各种工具软件;

2.查阅搜集资料,参考相关的实现案例,对数据分析以及算法应用的方法有初步的了解;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

本次毕设有以下几个特色:

1.将自然语言处理应用于食品安全方面。目前自然语言处理方面的工作主要集中于使用社交媒体上的数据,一般用于进行社会舆情分析。本次毕设将自然语言处理的算法应用于处理新闻事件报导的分析中,通过处理历年与食品安全事件相关的新闻,分析其内在联系,获得更为一般的食品安全的起因、内在规律,从而更好地指导避免出现类似的食品安全事件;

2. 使用最新的SRNN算法应用于文本分类处理。文本分类可以使用SVM或者是基于统计的贝叶斯算法。不过使用RNN神经网络可以取得更好的分类效果。而SRNN是最新出现的RNN算法的一种改进,相较于标准的RNN算法,使用SRNN能够以更快的速度对文本进行分类。

5. 研究计划与进展

2019年1月上旬-2019年2月初:python编程学习,学习使用python常用的库;

2019年1月末-2019年2月初:使用python爬虫抓取数据;

2019年2月初-2019年3月初:学习rnn算法的原理,实现rnn attention模型;

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。