基于大数据平台的微博恶意差评分类与处理研究开题报告

 2021-11-08 22:27:25

1. 研究目的与意义(文献综述)

从万维网的出现,到现在互联网的普及,短短几十年的时间里,网络已经成为几乎每个人不可或缺的生活必需品,关系到人们生活的方方面面。而作为众多网络衍生物产品中,娱乐方向的产品往往可以得到大众的关注。其中,在线社交平台一经出现,便吸引了海量用户的参与。

随着移动网络技术的飞速发展和更多更好的在线社交平台的搭建,越来越多的人参与到在线社交中,通过在线社交平台与形形色色的人交流分享。在线社交网络的构建打破了区域,语言等诸多限制,使得不同国家,不同肤色的人们能够通过社交平台进行交流分享。而在国内的众多在线社交平台,首屈一指的便是新浪微博(后简称微博)。作为国内最流行、最受欢迎的在线社交平台之一的微博,吸引了海量用户在线分享自己的所见所闻和所思所想。但是在这海量用户中,也包含大批量恶意用户,他们在其他正常用户作品的评论区发布多种垃圾评论,这些发表垃圾评论的用户通常拥有很强的目的性,或为满足一己私利,或为抹黑他人等。但无论出于什么目的,其行为都对微博整体风气和普通用户的使用体验造成了非常不好的影响。

这些用户通过在其他正常用户作品的评论中,发布广告、色情、钓鱼等不良信息,又或者故意发布带有辱骂、栽赃等字眼的评论来扰乱用户视线,带坏平台风气。本文将这些评论通过成为恶意评论。这些恶意评论的主要危害如下:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

研究的基本内容

(1)数据的爬取以及预处理。为了获取完整的实验数据,本文利用python语言设计并实现了微博爬虫系统。该系统可以用于获取热门微博下的用户评论数据、用户信息数据。对这些内容进行处理,删除表情及难以存储的无用符号,并将这些数据存入到数据库中,这些数据将被用于之后的恶意评论判断以及分类实验。

(2)建立可扩展的恶意词典。本文结合原有的基于语义信息的恶意评论判断技术,建立了可扩展的恶意词典。利用词频的统计信息以及词汇的语义信息获取微博环境下停用表,通过添加该停用表并考虑微博恶意词汇变体,改进恶意词典构造过程以及恶意评论判定过程。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1-4周:收集和整理资料。

第5-6周:拟定提纲,提交开题报告。

第7-13周:撰写论文初稿和修改稿,保持与指导教师的沟通。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]李慧. web2.0环境下的信任模型与争议发现研究[d].西安电子科技大学,2016.

[2] 吴琪.第三方点评网站垃圾评论分类模型的构建[d].天津师范大学,2018.

[3] 董宇蔚.电子商务中的评论挖掘及应用研究[d]. 电子科技大学,2014.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版