1. 研究目的与意义(文献综述)
1.1设计(论文)的目的
随着目前互联网数据爆炸式的增长,信息的产生速度越来越快,数据量也急剧上升,这使得我们步入了大数据的时代。面对tb甚至 pb 级的数据量,企业不再局限于海量数据的获取,而是着重如何挖掘数据,如何在海量的数据中提取出对企业有价值的信息。但是,传统的数据存储和处理方式已经不能够适应数据的增长速度,并且当今生成的大量数据多为web存储的数据结构,其数据存储格式不统一、数据结构多样化,给数据的处理带来了极大的困难。
开源组织机构 apache 基金会下大数据处理平台 hadoop 的诞生,突破了传统数据处理方式的瓶颈,使得海量数据的收集、存储、计算变得更加容易、更加高效。hadoop 系统是一个分布式的数据存储与处理的平台,可以实施在廉价的计算机集群上,提供了一个海量数据分布式存储和计算的架构。文件系统 hdfs 和计算框架mapreduce,使用户能充分利用集群的大容量空间存储海量数据和集群总分总的高速计算能力开发分布式的应用程序,实现海量数据的毫秒级高速处理。
2. 研究的基本内容与方案
2.1设计的任务
本文设计的海量数据分析系统能够提供以下功能:
1.实时对数据进行收集。
2.能够对海量数据进行存储。
3.对海量数据进行可视化展现。
4.对Hadoop集群进行监控,并提供这些服务器Load、IO、内存和网络带宽这些指标的可视化界面。
2.2研究内容
本文共分为六个章节,安排如下:
第一章:绪论。阐述课题的背景和研究意义,介绍海量数据分析系统的国内外研究现状,概括本文主要研究内容及章节安排。
第二章:基于 Hadoop 的分布式技术。介绍目前业界流行的分布式编程思想,介绍 Hadoop 的原理和应用,并从海量数据分析系统出发,对该系统中的技术应用进行分析。
第三章:主要介绍系统的需求分析以及总体设计思想,对目标应用的背景、架构进行详细的分析,确定系统的数据流程和基础架构。
第四章:基于 Hadoop 的海量数据分析系统的设计和实现。给出该系统的总体设计方案,并对各组成部分及功能进行详细分析和设计,包括数据模型、中间文件及系统架构。并从业务角度分析设计系统,以达到规范、健壮和复用易维护的目标。
第五章:基于 Hadoop 的海量数据分析系统的部署和测试。根据第四章给出的详细系统设计实现,详述系统的测试过程,,并对测试结果进行分析。
第六章:结束语,对本文的研究工作进行全面总结。
2.3设计(论文)需要重点解决的问题是:
1)存储系统的改变
数据量急剧增加,使得原有的存储系统和方法不能适应新产生的大量数据的存储要求。可以通过技术构建分布式存储系统,将大量数据分别存储在不同的存储系统里,不仅可以实现海量数据的存取,而且可以方便实现分布系统扩展。
2)复杂的数据结构存储
原有存储方案中,一种类型的数据库只能存储一种结构的数据。大数据的产生使得数据结构已经由原来单一的结构化数据变为结构化、非结构化、半结构化数据并存的局面。这种多数据结构的数据在目前只能存放单一数据结构的数据库中已经没有办法存储了。可以通过设置多种存储引擎,为每种数据结构提供合适的存储方案,来代替以前的结构化为主体的存储方式。
3)数据处理难度增大
和处理单一的数据类型不同,将多种数据结构的数据整合、分析、挖掘并从中得出有价位的信息的难度大大增加。可以通过对多种结构的数据进行集成,实现对在同一架构下对多种数据结构的分析。
2.3设计(论文)的技术方案是:用技术路线图来表示
请参考附件
3. 研究计划与安排
| 时间 | 内容 | 备注 |
| 2015.12.30 | 完成毕业设计选题 | |
| 2016.03.20 | 结合选题和任务书的目标要求,完成开题报告撰写 | |
| 2016.05.23 | 完成系统的设计和实施、提交论文初稿 | |
| 2016.06.01 | 根据指导老师的修改意见,完成系统的修改完善和论文的修订 | |
| 2016.06.12 | 进行毕业设计答辩的相关准备,参加毕业设计答辩 | |
| 2016.06.19 | 根据答辩小组老师的修改意见,完善论文和系统,提交和上传最终的毕业设计相关资料(论文和系统) |
4. 参考文献(12篇以上)
[1]王虎,张骏.管理信息系统(第2版). 武汉:武汉理工大学出版社,2007.
[2]张骏,鄢丹. 信息系统课程设计. 北京: 科学出版社,2007.
[3]刘勇军. 面向对象程序设计-c#asp.net实现.武汉:武汉理工大学出版社,2011.
