全文总字数:5100字
1. 研究目的与意义、国内外研究现状(文献综述)
课题的意义:
随着科学技术快速发展以及极大的网络普及程度,我们已进入了“大数据”时代,。因此数据挖掘成为当前it行业的研究热点之一。而文本挖掘是数据挖掘的重要内容之一。其应用十分广泛。随着互联网的广泛应用,电子化文本文档的规模急剧增长,文档类型包括研究报告、学术论文、在线文献库、e-mail、web页面、公司内部公告、会议纪要等,这些文档中包含了大量的信息,是重要的知识源,但是由于文档的数量十分庞大,缺乏整理,因此我们要借助算法发掘在大规模文本集合中隐含的、以前未知的、潜在有用的模式。聚类算法是数据挖掘领域最重要的算法之一,它是最常见的无监督学习技术,可以帮助人们给数据打“标签”。聚类目的就是把不同的数据点根据它们的相似度和相异度分割成不同的簇。而密度聚类算法是聚类算法中最常用的算法,适用于大规模数据集。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容和问题
研究的目标:
复现三种典型基于密度的聚类算法,并应用于文本挖掘,测试其适用性。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 研究的方法与方案
研究方法:
1文献研究法:搜集整理相关研究资料,为研究做准备;
2比较分析法:比较、分析各种文本预处理的方法,找出最适合最佳的方法;
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
4. 研究创新点
特色或创新之处
(1)本课题通过网络爬虫技术获得文本原始数据;
(2)本课题实现了基于汉语言的文本数据预处理,自定义创建训练样本;
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
5. 研究计划与进展
研究计划及预期进展:
研究计划:
1月2日-1月9日:搜集资料,撰写开题报告。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
