1. 研究目的与意义(文献综述)
随着互联网的飞速发展,人们开始针对web这个数据源进行数据挖掘来获取需要的数据,这称之为web挖掘。internet用户群体表现出多样的特点,全球互联网约有数千万个web网站,其访问用户具有不同的背景,不同的兴趣和目的,他们在访问过程中留下大量的web访问和使用信息生成大量的web日志,随着互联网规模的不断发展,日志数量也呈指数增长,传统web预处理算法已经不能适应海量数据的处理要求,需要对其进行并行化设计,以适应海量数据处理要求。
1996年学者m.s.chen,h.mannila,t.yan提出了可以将数据挖掘的方法用于web研究的领域。同时也提出用这种方法来分解用户访问的session成为一个个的事,然后就可以在实务基础上挖掘用户访问的模式。1999年jborges等人又提出了引入超链接概率的原理,修改了传统意义上对序列的界定,可以将用户的访问在网站结构图中记录下来,根据访问的条件概率判断用户频繁访问的路径[3]。
相对国外而言,国内对web数据挖掘领域进行研究的时间较晚,目前大部分还处于理论研究阶段。陆丽娜等提出了基于拓展有树模型进行浏览模式识别的web日志挖掘方法,并将这种基于事务的处理方法用于研究web日志预处理及用户访问序列模式挖掘方法[5]。
2. 研究的基本内容与方案
一、研究目标
通过对分布式技术以及数据挖掘技术的理解与学习,熟悉常用的一些分布式框架和数据挖掘流程,特别是web日志挖掘的流程以及算法研究。设计出一套基于hadoop分布式平台的web日志系统。该系统中主要使用hadoop分布式框架作为基础,利用hadoop的mapreduce的编程模型来实现分布式计算。二、研究内容
1、学习并掌握web日志与处理方法
3. 研究计划与安排
2月23日-3月15日
完成开题报告和翻译。
3月15日-3月31日
4. 参考文献(12篇以上)
[1]基于hadoop的日志分析系统的设计与实现2014
[2]张晓强mapreduce在web日志挖掘中的应用2011
