基于Hadoop架构的K-Means聚类算法研究开题报告

 2021-12-02 01:12

1. 研究目的与意义(文献综述)

一、目的和意义

随着近几年互联网和移动互联网的高速发展,我们也跨入一个数据爆炸的时代。在这样的环境下,数据挖掘的相关研究得到重视和发展。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘作为一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。数据挖掘在医疗、金融、保险、电子商务和电信等多个领域具有广泛应用,并取得了很好的效果。

在数据挖掘中,聚类分析可以作为其他算法的预处理步骤,利用聚类进行数据的预处理,可以获得数据的基本情况,以便进一步的分析和研究,聚类分析也可以作为独立的工具获得数据的分布情况。k均值聚类算法作为一种迭代求解的聚类分析算法,具有简洁以及效率高等特点,应用于统计学、生物学、数据库技术和市场营销等领域。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

二、研究(设计)的基本内容、目标、拟采用的技术方案及措施

本文的主要研究内容k-means的并行化实现方法,在hadoop平台将聚类算法与mapreduce框架结合,探究分布式下与k-means效率相关的规律。主要包括以下方面:

生成数据文件:k-means每个特征点都有特征向量,假设有20维,分为4个部分:1-5,6-10,11-15,16-20维。每一个部分和一个簇对应。即簇1中的点在维度1-5上比较相似,以此类推。每个簇上的数据点在特征上的分布很明显。将数据放到k-means中,可以跑出4个类。按照这种思路,生成不同大小的数据文件:10m,100m,1g… …

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

(1)2020/1—2020/2:确定选题,查阅文献,了解相关算法和技术的原理和知识

(2)2020/3—2020/4:完成相关数据文件的准备,在伪分布式环境下调试

(3)2020/4-2020/5:在分布式环境中进行测试和完善,并根据测试结果总结规律

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。