基于Fuzzy C-Means的微博数据聚类的分析与实现开题报告

 2022-01-28 21:42:40

1. 研究目的与意义、国内外研究现状(文献综述)

本课题的意义:从用户的角度出发,分析用户转发微博的行为,来提高新浪微博的用户体验值,为微博的推荐关注提出更加精准的方法。

目前微博运营商主要是采用热点人物和好友的间接关注的推荐模式,这种方式受到了很好的效果,但忽略了用户本身的行为,本课题正是通过研究分析用户本身的行为,把被用户关注的层面发掘出来,得出用户的偏好,最后根据得出来的偏好预测其他用户的行为。

国内外研究概况: 微博的使用人群数量基数大,状态信息更换频繁、信息传播迅速。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

一、研究的目标通过采用c#,java作为开发工具,新浪api作为接口,tomcat作为应用服务器,mysql作为数据库,来收集、存储用户的基本信息和所转发的微博内容,利用k-means聚类分析技术分析用户消息转发模式。

二、研究的内容: 1、c#: c#是一种安全的、稳定的、简单的、优雅的,由c和c 衍生出来的面向对象的编程语言。

它在继承c和c 强大功能的同时去掉了一些它们的复杂特性(例如没有宏以及不允许多重继承)。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

一、研究方法 采用c#来调用新浪api的用户接口和微博接口,并连接数据库进行存储,再利用java编写的k-means算法进行分词,统计和分析,最后得出用户消息转发模式的结论。

二、技术路线1.调用接口收集数据2.存储用户信息和转发消息3.对转发消息分词再聚类分析4.根据聚类分析的结果得出消息转发模式的结论三、实验方案1.c#获取oauth认证2.c#调用用户和微博接口3.c#将数据存入mysql数据库里4.java编写k-means算法5.获取消息内容,进行清洗、分词6.k-means算法确定聚类中心,进行聚类分析7.根据分析出的结果得出消息转发模式结论四、可行性分析1、数据挖掘技术已经广泛应用于社交网络中,国内多数具有影响力的门户网站都开始提供微博服务,其中新浪、网易、腾讯都提供了相应api供开发者使用。

2、k-mean聚类分析算法是聚类算法中最基础也是使用比较频繁的算法, 其思想已经很成熟,被研究运用的很广泛。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

在传统的网络爬虫程序中,通过设定入口url地址来抓取需要的网页内容,这种方式不仅效率较低而且抓取的数据中带有很多JS代码。

本课题的特色在于使用了最新的新浪微博API接口作为数据抓取的方案,使抓取的数据更加符合要求,完整可信,并使抓取过程更加有效率。

5. 研究计划与进展

研究计划及预期进展2015年1月7日2015年1月13日 确定题目并撰写开题报告2015年1月13日2015年1月28日 获取新浪微博oauth认证,学习并初步完成基于新浪api的数据挖掘2015年1月28日2015年2月12日 复习java的知识并完成基于api的数据初步挖掘。

2015年3月1日2015年3月10日 完成用户转发的微博数据的获取以及初步清洗,最后存储到数据库中。

2015年3月10日2015年3月25日 随机抽取50个用户的数据,运用k-mean聚类算法进行分析,得出结论,并输出表格或视图。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版