全文总字数:2876字
1. 研究目的与意义(文献综述)
舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。
关注舆论情况的群体通常是政府部门,但是对于一些企事单位也有关注舆论的必要。对于政府部门,关注民众对执政者及其所持有的政治取向的看法,意见和态度,是不断改善民情状况的前提,同时还要确保不正确的导向在传播过程中及时被阻断;对于企事单位,一些非理性讨论,小道消息或负面报道通常会在一定程度上影响消费者对某一企业品牌的认同,如不及时采取正确的措施和应对,会造成难以估计的后果。
传统的舆情存在于日常的街头巷尾的议论之中,收集方式是明察暗访,调研等方式,获取效率底下,样本少,耗费巨大且时效性不强,所以以前对舆情的分析非常困难且不准确。随着互联网的发展,网络在群众中普及率的提高,大众都在网络平台发表观点看法,舆情逐渐发展成为网络舆情。网络舆情下,互联网热点扩散快,热点转瞬即逝。如果政府部门或企事单位不能快速获取到互联网热点事件的舆情变化,慢吞吞地做出响应,那么热点可能已经“爆炸”。
2. 研究的基本内容与方案
舆情分析系统是由信息抓取,信息分析和一个可视化的web服务三部分所构成。
信息抓取采用网络爬虫技术。网络舆论信息的来源通常是一些资讯网站(如新闻网站,微博和微信公众号等)的评论区。使用爬虫并发地周期性地获取目标网站的评论列表,按照指定数据结构生成数据源存储在redis数据库中,因为redis数据库实时读写效率高。当爬取的周期缩短到一定的程度即可认为数据是实时获取的。爬虫的实现使用okhttp构造http请求访问新闻网站的接口,获取html页面,然后使用jsoup对html进行结构性的分析,提取出评论信息,最后整合并存储到数据库里。
信息分析主要利用nlp技术。数据源来自于一些评论列表,基本都是文本,使用nlp技术对文本进行分词处理词性分析等初步操作。然后利用事先使用词典训练好的情感模型进行情感分析,情感分析能获取每条评论是带消极情绪还是积极情绪,或者具体到评论者的喜怒哀乐等。对这些评论者的情感数据进行基本统计,选出代表性的情绪作为数据源的舆论评价。nlp部分采用开源的自然语言处理工具包hanlp作为基础,对中文文本进行初步处理,然后利用公开的情感分析语料库,如chnsenticorp,使用相关算法训练出情感分析模型,再用该模型进行情感分析,最后将结果持久化保存在数据库里。
3. 研究计划与安排
舆情分析系统的三个部分通过读写数据库里的数据进行联系,属于低耦合的三个模块,故可以针对每个模块独立设计和开发。每个模块按照(1)阅读参考文献;(2)设计架构及数据结构;(3)编写代码(编码过程中查阅文档);(4)测试验收四个步骤进行。最后对三个模块进行整合,集成测试。
按照所涉及的技术复杂性和工作量,初步将三个部分的比重划分为信息获取:信息分析:可视化服务 = 2:4:1。所以安排前两周开发信息获取模块,中间四周开发信息分析模块,然后一周左右开发可视化服务模块,最后一周进行三个模块的整合和调整。
4. 参考文献(12篇以上)
[1]余才忠, 熊峰, 陈慧芳. 舆情民意与司法公正——网络环境下司法舆情的特点及应对, 2011.
[2]许鑫, 章成志. 互联网舆情分析及应用研究, 2018.
[3]李金海, 徐辉. 大数据环境下网络舆情预警系统的设计研究, 2020.
