1. 研究目的与意义、国内外研究现状(文献综述)
本课题的意义、国内外研究概况、应用前景等(列出主要参考文献)本课题的意义:在数据量急速增长的今天,无论在生物学领域、商业、科研机构或者某些企业集团都存储着大量的以不同形式存在的数据。
然而,面对如此海量的数据,如何充分地分析并处理这些数据,提取其中有用的信息就成了当务之急。
在这种需求情况下,数据挖掘技术应运而生。
2. 研究的基本内容和问题
研究目标; 1. 通过理解并掌握现在应用较为广泛的k-means算法、核聚类算法、谱聚类算法和快速ap聚类算法等,统一利用较为底层、程序执行效率高的c语言来实现上述各种聚类算法。
2. 在统一并且执行效率高的运行环境下,各个聚类算法的优点和特性可以更加直观、可信地表现出来。
选取合适的数据集,并对其进行归一化处理,若不同维度的数据大小不一,会影响聚类结果。
3. 研究的方法与方案
研究方法: 1. 文献研究法:首先通过研读各种文献,理解并掌握各种聚类算法的实验步骤和方法,以及找到聚类算法的有效性指标。
2. 模拟法:用c语言编程模拟出各种聚类算法,然后通过合适的数据集运行、比较和测试。
3. 定性分析法:用图表、有效性指标将之前的结果进行归纳和演绎、分析和综合以及抽象概括等方法,对获得的各种材料进行思维加工,从而能去粗取精、去伪存真、由表及里,认识聚类算法的特点。
4. 研究创新点
特色或创新之处 1. 一般的聚类算法都是用matlab实现的,聚类算法虽然用matlab实现较为简单,但是运行效率并不高,所以我就想可不可以用较为底层、运行效率高的C语言来实现,这样可以使聚类结果更直观、更可信。
2. 通过合适的有效性指标,比较系统地比较现在应用较为广泛的几种聚类算法。
5. 研究计划与进展
研究计划及预期进展研究计划:阶段一:熟悉、理解各个聚类算法的实现方式和步骤、有效性指标等。
阶段二:能够熟练运用c语言等工具,并用其模拟出各个聚类算法。
阶段三:选取各种合适的数据集和有效性指标,用c语言实现的聚类算法,进行测试比较各自的适用范围和优越性。
