1. 研究目的与意义、国内外研究现状(文献综述)
(一)研究背景
1.我国食品安全突发事件频发
生活质量的提高,让群众越来越重视食品安全问题。2003年3月我国正式组建国家食品药品监督管理局,负责食品、保健品、化妆 品安全管理的综合监督、组织协调和依法组织开展对重大事故查处。但利益使然,例如地沟油、苏丹红、瘦肉精、三聚氰胺、漂白粉条、红心鸭蛋等和人们生活息息相关的食品安全问题依旧频发。
2. 研究的基本内容和问题
用对食品安全突发事件聚类得到的类簇验证本课题提出的类别知识挖掘流程的有效性,并帮助研究人员判断、预测事情发展的倾向,或作为服务机构突发事件信息平台的参考。
主要研究内容为:将新闻传播学理论中突发事件的特征以及突发事件报道特点进行深度挖掘并进行分析,进而总结出新闻报道在突发事件各个时期所表现出的语言特征;把信息科学中链接分析、时序关联分析、事件关联分析以及数据挖掘等技术结合起来;建立究对象是突发事件案例知识库、突发事件策略库以及突发事件分类模型和相似度模型的应对突发事件信息平台,据此为各级政府机构提供突发事件的各种服务,如突发事件的信息可视化、突发事件信息报告、突发事件策略服务和突发事件公众信息窗口。
3. 研究的方法与方案
通过Wget抓取网络上的食品安全突发事件新闻,并对其进行聚类,得到数个类簇。
Wget抓取相关网页的流程为:
1.结合主题,确定抓取的网站;
2.根据食品专业相关词汇、食品安全热门词汇和突发事件相关词汇,初步制定出抓取词汇底表,而后在抓取过程中,结合人工内省完善统计词表对底表进行改进,得到所需的词汇底表;
3.利用网络抓取工具自动获取含有食品安全突发事件信息的网页;
4.将所得网页中的新闻保存为文本文档,并编号。
对新闻事件聚类的完整流程为:
1.获取中文文本;
2.利用中文识别程序得到中文分词;
3.通过词表和人工判断获得中文特征;
4.利用文本聚类程序得到数个聚类簇。
类别知识的获取步骤如下图。
加权特征提取 |
候选特征提取 |
中文分词 |
去除虚词 |
去除停用词 |
TF-IDF筛选 |
特征融合 |
构建特征网络 |
获取每篇文档的加权特征 |
聚类 |
余弦相似度计算 |
DBSCAN算法去除噪声点 |
K-Medoids算法自动聚类 |
4. 研究创新点
出自不同需要可自行设定k值来获得有关食品安全突发事件的类别信息,本课题设定k值为15、40。
观察k=40的聚类结果可知,数量不大于50的类有25个,介于50和500之间的类有12个,剩下3个是数量多于500的类。其中,数量小于50的类大多都有明确的关键词,数量大于50小于500的类的关键词则范围比较宽泛。
聚类后的词汇类别虽然有些不属于同一类别,但从整体分布上看,仍基本符合人们所熟知的类别。这证明了本文类别知识挖掘是有效的,也说明k-medoids的精确率有待提升。
5. 研究计划与进展
本课题通过对食品安全突发事件的类别知识挖掘研究,获得了食品安全领域人们关注的主题与关键词。这些词汇验证了本文所提出的类别知识挖掘流程的有效性和适用性。并若分析某一具体突发事件,还能得到其周期历程本文分析的毒豆芽事件正好经历过一个完整周期。这些都能帮助研究人员判断、预测事情发展的倾向,并可为服务机构突发事件信息平台做参考借鉴。
