基于改进LDA模型的大学生微博主题发现开题报告

 2022-01-21 21:27:38

1. 研究目的与意义、国内外研究现状(文献综述)

一、课题目的及意义本课题利用机器学习结合数据分析的方法,从数学的角度分析总结微博平台高校用户关注的潜在话题。

通过对微博数据进行有效地清洗和预处理,并利用微博热词、新词对现有词典进行扩充,选择名词作为特征词对lda模型加以改进,以提高主题发现的效率和精度。

目前对于微博文本的研究多集中于情感分析、用户结构等方面,而对于微博文本的内在关系的研究较少。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

1.研究目的在梳理国内外主流的主题发现方法后,提出一种基于lda模型的微博文本主题自动发现方法。

在充分考虑微博数据的结构化信息的基础上,深入分析微博新词、热词对微博主题的影响,对特征词词典进行扩充并加以词性区分,抽取名词作为主题词对lda模型加以改进。

1.关键问题重点:如何提高lda建模的效率与精度。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

研究方法利用爬虫程序,在微博平台抓取南京农业大学用户的相关微博。

通过对文本数据进行数据预处理、中文分词、特征词提取、lda建模及层次聚类等操作,实现对微博文本主题发现。

通过主题发现,在海量的微博数据中找出用户普遍关注的主题及主题的结构。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

由于微博中主题更新较快,分词时根据微博热词添加用户自定义词典,以提高分词的准确度。

并对话题名进行处理加入用户自定义词典。

利用停用词表,分词同时做词性标注。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 研究计划与进展

1-2周:搜集相关资料,熟悉编程环境、完成需求分析。

3-5周:程序设计,根据需求总结程序需完成的主要功能。

功能模块与代码设计,具体编写代码。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版