基于改进LDA模型的大学生微博主题发现开题报告-开题报告网

1. 研究目的与意义、国内外研究现状（文献综述）

一、课题目的及意义本课题利用机器学习结合数据分析的方法，从数学的角度分析总结微博平台高校用户关注的潜在话题。

通过对微博数据进行有效地清洗和预处理，并利用微博热词、新词对现有词典进行扩充，选择名词作为特征词对lda模型加以改进，以提高主题发现的效率和精度。

目前对于微博文本的研究多集中于情感分析、用户结构等方面，而对于微博文本的内在关系的研究较少。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

1.研究目的在梳理国内外主流的主题发现方法后，提出一种基于lda模型的微博文本主题自动发现方法。

在充分考虑微博数据的结构化信息的基础上，深入分析微博新词、热词对微博主题的影响，对特征词词典进行扩充并加以词性区分，抽取名词作为主题词对lda模型加以改进。

1.关键问题重点：如何提高lda建模的效率与精度。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

研究方法利用爬虫程序，在微博平台抓取南京农业大学用户的相关微博。

通过对文本数据进行数据预处理、中文分词、特征词提取、lda建模及层次聚类等操作，实现对微博文本主题发现。

通过主题发现，在海量的微博数据中找出用户普遍关注的主题及主题的结构。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

由于微博中主题更新较快，分词时根据微博热词添加用户自定义词典，以提高分词的准确度。

并对话题名进行处理加入用户自定义词典。

利用停用词表，分词同时做词性标注。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

1-2周：搜集相关资料，熟悉编程环境、完成需求分析。

3-5周：程序设计，根据需求总结程序需完成的主要功能。

功能模块与代码设计，具体编写代码。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付