1. 研究目的与意义、国内外研究现状(文献综述)
本课题的意义、国内外研究概况、应用前景等(列出主要参考文献)1、研究意义21世纪以来,随着经济、人口、资源与环境矛盾的日益加深,世界范围内重大突发事件成灾次数、经济损失和受灾人口明显增多。
近年来发生在全世界各地的恐怖暴力事件,各类型的重大突发事件对社会公众的生命、健康、心理及财产安全构成了严重威胁。
因此,对全球范围内重大突发事件新闻篇章特征进行统计和分析的总结和整理,可以大致的揭示了恐怖袭击事件的研究现状和语篇特征研究以及自动识别的研究现状,为后续进行的研究提供参考的内容。
2. 研究的基本内容和问题
1、 目标利用提取出2001-2015年一代一路沿途发生的恐怖袭击事件的相关报道的新闻标题,来计算针对同一起事件进行报道的新闻标题的相似度,并同时构建恐怖袭击事件媒体共同报道的共现矩阵,同时结合这十五年间发生的恐怖袭击事件的地理位置信息,来针对对恐怖袭击报道新闻的共现以及模仿现象。
2、 内容本研究所使用的数据来源于由马里兰大学start总部建立的全球恐怖袭击数据库(global terrorism database,以下简称gtd)所统计的全球范围内发生的恐怖袭击事件。
该数据库中的每份数据来自于公开的情报资源,主要包括媒体文章,电子新闻档案,二手信息如书籍、期刊和法律文件。
3. 研究的方法与方案
研究方法、技术路线、实验方案及可行性分析1、研究方法:(一)字符串相似度现有的基础的相似度算法大多基于文档(如:余弦相似度算法)或者字符串(如:编辑距离算法和最长公共子序列算法)层面,而本研究需要计算的相似度是基于新闻标题,即句子层面,计算的是句子中词与词之间的匹配程度。
因此,本研究将使用编辑距离算法和最长公共子序列算法来进行相似度的计算,同时利用python针对算法做出了改进。
(二)共现分析共现分析是将各种信息载体中的共现信息定量化的分析方法,通过分析共现现象人们可以发现研究对象之间的亲疏关系,挖掘隐含的或潜在的有用的知识,。
4. 研究创新点
1、 对编辑距离和最长公共子序列两种字符串相似度算法进行改进,以适应分词后的语料。
编辑距离和最长公共子序列两种算法所处理的对象都是字符串,而在研究中,分词后的语料都存入一个字符串数组中,所以在计算文本之间的相似度的时候,相当于是计算两个字符串数组之间的相似度。
因此需要针对两种字符串相似度算法进行改进,使其能够计算数组之间的相似度。
5. 研究计划与进展
3月20日至3月27日,完成数据的获取和清洗工作,获取结构化数据,以供后续程序进行统一化处理。
3月28日至4月4日,对数据进行统计和相似度计算工作,获取2001-2015年一带一路恐怖袭击如媒体机构频次分布图、一带一路沿途恐怖袭击事件地理分布图等基本相关统计表。
4月5日至4月12日,对数据进行分析、绘制数据可视化图谱,获取基于相似度算法的新闻标题相似度直方图等。
