1. 研究目的与意义、国内外研究现状(文献综述)
一、课题目的及意义本课题利用机器学习结合数据分析的方法,从数学的角度分析总结微博平台高校用户关注的潜在话题。
通过对微博数据进行有效地清洗和预处理,并利用微博热词、新词对现有词典进行扩充,选择名词作为特征词对lda模型加以改进,以提高主题发现的效率和精度。
目前对于微博文本的研究多集中于情感分析、用户结构等方面,而对于微博文本的内在关系的研究较少。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容和问题
1.研究目的在梳理国内外主流的主题发现方法后,提出一种基于lda模型的微博文本主题自动发现方法。
在充分考虑微博数据的结构化信息的基础上,深入分析微博新词、热词对微博主题的影响,对特征词词典进行扩充并加以词性区分,抽取名词作为主题词对lda模型加以改进。
1.关键问题重点:如何提高lda建模的效率与精度。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 研究的方法与方案
研究方法利用爬虫程序,在微博平台抓取南京农业大学用户的相关微博。
通过对文本数据进行数据预处理、中文分词、特征词提取、lda建模及层次聚类等操作,实现对微博文本主题发现。
通过主题发现,在海量的微博数据中找出用户普遍关注的主题及主题的结构。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
4. 研究创新点
由于微博中主题更新较快,分词时根据微博热词添加用户自定义词典,以提高分词的准确度。
并对话题名进行处理加入用户自定义词典。
利用停用词表,分词同时做词性标注。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
5. 研究计划与进展
1-2周:搜集相关资料,熟悉编程环境、完成需求分析。
3-5周:程序设计,根据需求总结程序需完成的主要功能。
功能模块与代码设计,具体编写代码。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
