Web日志预处理并行算法的应用研究开题报告

 2021-08-14 02:37:04

1. 研究目的与意义(文献综述)

随着互联网的飞速发展,人们开始针对web这个数据源进行数据挖掘来获取需要的数据,这称之为web挖掘。internet用户群体表现出多样的特点,全球互联网约有数千万个web网站,其访问用户具有不同的背景,不同的兴趣和目的,他们在访问过程中留下大量的web访问和使用信息生成大量的web日志,随着互联网规模的不断发展,日志数量也呈指数增长,传统web预处理算法已经不能适应海量数据的处理要求,需要对其进行并行化设计,以适应海量数据处理要求。

1996年学者m.s.chen,h.mannila,t.yan提出了可以将数据挖掘的方法用于web研究的领域。同时也提出用这种方法来分解用户访问的session成为一个个的事,然后就可以在实务基础上挖掘用户访问的模式。1999年jborges等人又提出了引入超链接概率的原理,修改了传统意义上对序列的界定,可以将用户的访问在网站结构图中记录下来,根据访问的条件概率判断用户频繁访问的路径[3]。

相对国外而言,国内对web数据挖掘领域进行研究的时间较晚,目前大部分还处于理论研究阶段。陆丽娜等提出了基于拓展有树模型进行浏览模式识别的web日志挖掘方法,并将这种基于事务的处理方法用于研究web日志预处理及用户访问序列模式挖掘方法[5]。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

一、研究目标

通过对分布式技术以及数据挖掘技术的理解与学习,熟悉常用的一些分布式框架和数据挖掘流程,特别是web日志挖掘的流程以及算法研究。设计出一套基于hadoop分布式平台的web日志系统。该系统中主要使用hadoop分布式框架作为基础,利用hadoop的mapreduce的编程模型来实现分布式计算。二、研究内容

1、学习并掌握web日志与处理方法

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

2月23日-3月15日

完成开题报告和翻译。

3月15日-3月31日

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]基于hadoop的日志分析系统的设计与实现2014

[2]张晓强mapreduce在web日志挖掘中的应用2011

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版