1. 研究目的与意义、国内外研究现状(文献综述)
背景
21世纪以来,随着web2.0的飞速发展及web3.0 的兴起,互联网已经深入到国民经济的各个方面。据工信部公布的《2016年1月份通信业经济运行情况》显示,我国移动互联网用户净增1942.1万户,同比增长11.8%,总数达9.8亿户,也就是说,用户逐渐成为网络的主角。而在互联网端,最具代表性的产品就是博客(blog),它将人们带入了个人媒体时代,每个互联网用户都可以成为信息的发布者,同时也是信息的接收者。
微博(weibo),即微型博客(microblog)的简称,也即是博客的一种,是一种通过关注机制分享简短实时信息的广播式的社交网络平台。作为一种分享和交流平台,其更注重时效性和随意性。微博客更能表达出每时每刻的思想和最新动态。作为一种新型的社交媒体,微博以其独特的用户关联关系和信息发布方式引起了互联网的一股新浪潮,吸引了大量互联网用户的青睐。至 2015年底,微博移动端月活跃用户规模接近2亿,平均每天在这里将产生超过3亿条微博消息。而这些海量的微博数据就是通过用户自己三言两语发布自己生活中的点点滴滴,比如在干什么、身边有什么趣事等,或通过与其他用户互动,比如转发、评论他人微博,表达自己对一些事物、时事的一些看法或感悟而组成的。正是由于微博的这种闲言碎语降低了内容门槛,提高了发布效率,以及微博的病毒式传播特点,使得每个用户都可以成为新闻消息的发布者、自由发表自己的看法、经营自己的品牌。
2. 研究的基本内容和问题
研究目标
此次研究的主题是基于词典与机器学习的中文微博情感分析,使用数据分析的方法,从数学的角度去研究在社交网络上人们表达情绪的倾向。设计并实施了一整套从数据抓取到分析的流程。通过爬虫获取微博数据、对微博数据进行筛选、对微博数据的相似度分析、采用词典分析和机器学习的方法对微博进行情感分析以及可视化展示。
研究内容
3. 研究的方法与方案
1.编写python网络爬虫进行微博数据获取,包括用户的信息和原创微博获取;
2.编写过滤器,在获取数据的基础上筛选掉不适用的微博;
3.通过tf-idf算法和余弦函数相结合的方式实现文本相似度;
4. 研究创新点
设计并实施了一整套从数据抓取到分析的流程。
通过爬虫获取微博数据、对微博数据进行筛选、对微博数据的相似度分析、采用词典分析和机器学习的方法对微博进行情感分析以及数据可视化展示。
5. 研究计划与进展
研究计划及预期进展
2017年1月:进行资料搜集,项目整体的设计。编写爬虫程序,获取项目所需要的微博数据。收集机器学习所需要的训练集并进行人工情感分类。
2017年2月:完成文本相似度,基于词典和机器学习的情感分析的程序编写。
