基于Hadoop架构的K-Means聚类算法研究开题报告-开题报告网

1. 研究目的与意义（文献综述）

一、目的和意义

随着近几年互联网和移动互联网的高速发展,我们也跨入一个数据爆炸的时代。在这样的环境下，数据挖掘的相关研究得到重视和发展。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘作为一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，作出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，作出正确的决策。数据挖掘在医疗、金融、保险、电子商务和电信等多个领域具有广泛应用，并取得了很好的效果。

在数据挖掘中，聚类分析可以作为其他算法的预处理步骤，利用聚类进行数据的预处理，可以获得数据的基本情况，以便进一步的分析和研究，聚类分析也可以作为独立的工具获得数据的分布情况。k均值聚类算法作为一种迭代求解的聚类分析算法，具有简洁以及效率高等特点，应用于统计学、生物学、数据库技术和市场营销等领域。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

二、研究（设计）的基本内容、目标、拟采用的技术方案及措施

本文的主要研究内容k-means的并行化实现方法,在hadoop平台将聚类算法与mapreduce框架结合,探究分布式下与k-means效率相关的规律。主要包括以下方面：

生成数据文件：k-means每个特征点都有特征向量，假设有20维，分为4个部分：1-5，6-10，11-15，16-20维。每一个部分和一个簇对应。即簇1中的点在维度1-5上比较相似，以此类推。每个簇上的数据点在特征上的分布很明显。将数据放到k-means中，可以跑出4个类。按照这种思路，生成不同大小的数据文件：10m，100m，1g… …

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

(1)2020/1—2020/2：确定选题，查阅文献，了解相关算法和技术的原理和知识

(2)2020/3—2020/4：完成相关数据文件的准备，在伪分布式环境下调试

(3)2020/4-2020/5：在分布式环境中进行测试和完善，并根据测试结果总结规律

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于Hadoop架构的K-Means聚类算法研究开题报告

1. 研究目的与意义（文献综述）

2. 研究的基本内容与方案

3. 研究计划与安排

4. 参考文献（12篇以上）

您可能感兴趣的文章

最新文档

联系我们

登录

注册

找回密码

1. 研究目的与意义（文献综述）

2. 研究的基本内容与方案

3. 研究计划与安排

4. 参考文献（12篇以上）

您可能感兴趣的文章

最新文档

联系我们