1. 研究目的与意义、国内外研究现状(文献综述)
1、研究意义微博又称微型博客,是一个基于用户关系,通过短文本进行信息的实时分享、传播以及获取的社交网络平台。
微博的最早形式为twitter,发展到中国,出现了新浪微博、腾讯微博、网易微博、搜狐微博等等,新浪微博目前拥有最大的市场占有率,也是最受用户欢迎的微博平台,本研究所使用数据均为新浪微博数据。
根据cnnic发布的《第38次中国互联网络发展状况统计报告》,截至2016年6月,中国网民规模达7.10亿,互联网普及率为57.1%,微博用户规模达到2.42亿。
2. 研究的基本内容和问题
1、研究目标本研究首先利用网络爬虫抓取大学图书馆相关微博文本数据,并进行数据的预处理,对数据做基本的统计分析;同时改进文本的向量表示方法,利用k-means聚类算法进行文本聚类,展示聚类结果;最后找出图书馆服务评价与感受相关的微博并进行总结,最后对于大学图书馆开展读者服务提出建议。
2、项目研究内容(1) 大学图书馆微博数据基本情况分析将抓取下来的图书馆微博数据分别进行用户昵称统计、大学图书馆相关机构统计、热门微博统计以及词频统计。
(2) 大学图书馆微博文本内容聚类研究利用k-means聚类算法,对微博内容文本数据进行聚类。
3. 研究的方法与方案
1、研究方法 (1)网络爬虫利用python编程,抓取新浪微博数据。
(2)文本处理利用tf-idf算法,进行文本特征提取,并构建文本向量。
(3)文本聚类 利用k-means文本聚类算法,进行微博文本内容的聚类。
4. 研究创新点
(1)本研究全程利用python编程功能,对整个实验过程中涉及的算法与处理一一实现,具有自我把控与自由调整的优势。
(2) 对于k-means算法中的文本向量表示方式做出改进,针对传统文档-语词矩阵规模过大的弊端,采用键值对的形式表示文本向量。
通过改进,明显提升了聚类过程运算的速度,提高实验的效率。
5. 研究计划与进展
2017年3月上旬:开展文献调研,了解国内外相关研究的进展,作文献综述。
2017年3月中下旬:编写python微博爬虫程序,并开始抓取和保存微博数据。
2017年4月:针对抓取的微博数据进行数据清洗、数据描述性统计,以及文本的预处理工作。
