1. 研究目的与意义
生活在数据时代,我们很难估计全球存储的电子数据总量是多少,但是据idc(internet data center),即互联网数据中心估计2006年"数字全球"项目(digital universe)的数据总量为0.18 zb,并且预测到2011年这个数字将达到1.8 zb,为2006年的10倍 。
1 zb相当于10的21次方字节的数据,或者相当于1000 eb,1 000 000 pb,或者大家更熟悉的10亿tb的数据!这相当于世界上每个人一个磁盘驱动器的数量级。
这一数据洪流有许多来源。
2. 国内外研究现状分析
hadoop应用案例1-全球最大超市业者 wal-mart wal-mart分析顾客商品搜索行为,找出超越竞争对手的商机 全球最大连锁超市wal-mart利用hadoop来分析顾客搜寻商品的行为,以及用户透过搜索引擎寻找到wal-mart网站的关键词,利用这些关键词的分析结果发掘顾客需求,以规画下一季商品的促销策略,甚至打算分析顾客在facebook、twitter等社交网站上对商品的讨论,期望能比竞争对手提前一步发现顾客需求。
wal-mart虽然十年前就投入在线电子商务,但在线销售的营收远远落后于amazon。
后来,wal-mart决定采用hadoop来分析顾客搜寻商品的行为,以及用户透过搜索引擎寻找到wal-mart网站的关键词,利用这些关键词的分析结果发掘顾客需求,以规画下一季商品的促销策略。
3. 研究的基本内容与计划
1、详细了解毕业设计项目的技术背景及国内外相关研究的最新发展趋势,并针对毕业设计的特点总结项目的重点、难点及创新点;2、通过学习与本毕业设计相关的关键技术选择合适的开发技术和运行环境,并初步搭建设计开发及测试环境。
撰写技术方案应综合考虑科学性、系统性、健壮性、兼容性等一系列可行性因素。
3、设计合理的程序构架,运用较优的算法,完成软件内部代码;准确实现软件编码,完成既定的功能,各部分测试通过;在设计过程中,提取并保存各阶段的数据及文档。
4. 研究创新点
利用炙手可热的大数据分析研究金融商业数据?职业体育?天文学、物理学?搜索关键字?文学作品研究同样可以!利用Hadoop这一接受混杂性的高效数据分析框架来对文学作品进行全新的探索,通过不同的视角来产生前所未有的思维灵感!
