1. 研究目的与意义
研究背景:
聚类分析起源于分类学,在考古的分类学中人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展,人们的认识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学逐渐被引进分类学中,形成了数值分类学。后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。
在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。在服务业,聚类分析用来分析、发现不同的客户群,并刻画出不同客户群的特征;在生物学上,聚类分析用来对新发现的物种进行属性的归类;在人口统计学上,分析人员利用聚类分析对地域进行划分,进而对不同类型的地域制定出合适的政策。
2. 研究内容和预期目标
聚类分析是机器学习领域一种重要的数据处理方法,是研究(样品或指标)分类问题的一种统计分析方法。本项目要求研究k均值(k-means)聚类、基于密度(dbscan)的聚类、谱聚类、层次聚类等几种常见聚类方法,比较各种方法的联系与区别,并用python或matlab等其他高级程序设计语言实现相应算法,给出验证实例。
主要内容包括:
1)研究各种聚类方法的实现机理,理论上分析各种方法的优缺点。
3. 研究的方法与步骤
研究方法:
本项目要求研究k均值(k-means)聚类、基于密度(dbscan)的聚类、谱聚类、层次聚类等几种常见聚类方法
研究步骤:
4. 参考文献
[1] 周志华,机器学习,北京:清华大学出版社,2016年1月
[2] robert tibshirani, jerome friedman著,范明,柴玉梅,咎红英等译,统计学习基础-数据挖掘、推理与预测,北京:电子工业出版社,2004
[3] 华校专、王正林,python大战机器学习-数据科学家的第一个小目标,北京:电子工业出版社,2017年3月
5. 计划与进度安排
1、2022年2月25日-3月10日 完成开题报告,指导教师修改和审定论文开题报告
2、2022年3月11日-5月31日 按开题报告撰写论文
3、2022年4月15日-4月28日 汇报课题进展情况,回答教师提问
