新浪微博的网络舆情时空扩散分析研究模型开题报告

 2021-08-14 03:08

1. 研究目的与意义(文献综述)

本文研究目的是运用爬虫抓取、文本聚类、定量分析等方法, 对选定的突发事件的新浪微博文本进行舆情分析,识别热点话题,通过时间和话题两个维度进行分布,采用分布统计汇总的方法,识别新浪微博各个话题的文本情感倾向性,然后根据研究分析结果为政府、企业、个人更好地应用新浪微博提供一定的指导意义。

新浪微博作为twitter类的新兴网络应用,是将微内容和sns的结合,很大程度上改变了网络信息的分享和传播模式,通过关注功能,将用户关联在一起,使得微博出现了人人都是发言者,人人都是听众的局面。而且微博即时、快速、便捷和快速传播的特性,进一步推进了网络舆情的发展,微博上的舆论也成为了网络舆情中最具影响力的一种。较多学者以微博内容的传播为立意点,探讨了微博传播的特点、机制、影响力以及传播中的注意问题及解决办法;一些学者运用特定的理论来试图分析微博传播的实质,例如社会网络理论、长尾理论等;一些研究是由特殊事件来引发的,通过具体事例来形象地表明微博的特点与作用,这些事件大多是影响性较大、代表性较强的例子,例如玉树地震与玉树贩灾、奥巴马选举与医改措施、两会报道、世界杯直播与富士康跳楼案等等;另有文章强调了微博在政府危机处理中扮演的重要角色,说明了政府在危机预警期存在的问题,并提出解决意见;也有文章尝试从受众角度解读微博现象,从受众的需求和权力方面解释微博深得网民们喜爱的原因,特别是以大学生为样本进行了微博使用动机的实证研究。还有国外学者san jose研究了twitter的社会网络的拓扑属性和地理属性,实验发现用户更倾向于群体联系,san jose还分析了具有相同兴趣的人是如何相互联系的。更有学者bo jar u.认为,将语义网络技术运用到社会网络中,会带来社会性语义网络,同时将产生互联的丰富的知识网络。john breslin提出,挖掘互联网潜力最好的方法是建立社会性语义网络,让信息和人以一种有意义的方式进行互动。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

  1. 从2015年度百度沸点热搜榜单的前十名:1.大阅兵2.天津爆炸3.二孩政策放开4.优衣库事件5.毕福剑违纪6.a股保卫战7.人民币贬值8.苹果发布会9.发现另一地球10.日本8.5级地震,确定热点话题,在“bigdata爬虫开放平台”收集该事件后近一个月的微博文本数据,并做数据清理。

  2. 将文本分词并进行向量化,分词结果为,向量化为,其中,k为词语,m为对应的词频,n为对应在文本中出现的频数,t为向量值。然后再基于k-means算法进行文本聚类。其中,选取词频比较大的几个互不相关的词语组成文本,设为初始聚类中心。计算与各个聚类中心之间的文本相似度,确定所属的聚类,再计算各个文本与聚类中心之间相似度的平均值,计算测度函数(均方差),取平均值的文本为新的聚类中心。得到每个文本所属的话题聚类。

  3. 对数据进行分组的汇总,可以分析出不同话题的一些基本特征“如热门话题、延续时间、参与人数等”,并可以在不同主题之间进行对比分析和研究。

    剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

    3. 研究计划与安排

    第1-3周:查阅有关新浪微博网络舆情方面的文献资料,中文文献4篇,外文文献2篇,阅读指导老师要求的必读参考文献5篇,对新浪微博网络舆情有初步的认识,温习并深入学习研究所需的应用回归的理论知识和操作方法。

    第4-5周: 查找相关的英文文献,并翻译1篇。从相关论文中学习研究所需的知识及方法等,设计自己的研究方案,撰写毕业论文开题报告。

    第6-9周:深入接触文本聚类模型及其可视化,为论文撰写过程做铺垫。对样本数据进行整理和分析,通过文本聚类并定量分析样本数据的统计特征并进行处理,完成毕业设计(论文)中期进展情况检查表和粗纲。

    剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

    4. 参考文献(12篇以上)

    [1]david freedman等.统计学[m],魏宗舒,施锡铨等译.北京:中国统计出版社,1997.

    [2]s.weisberg.应用线性回归[m],王静龙等译.北京:中国统计出版社,1998.

    [3]王济川,郭志刚.logistics回归模型——方法与应用[m],北京:高等教育出版社,2001.

    剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。