Web日志预处理并行算法的应用研究开题报告-开题报告网

1. 研究目的与意义（文献综述）

随着互联网的飞速发展，人们开始针对web这个数据源进行数据挖掘来获取需要的数据，这称之为web挖掘。internet用户群体表现出多样的特点，全球互联网约有数千万个web网站，其访问用户具有不同的背景，不同的兴趣和目的，他们在访问过程中留下大量的web访问和使用信息生成大量的web日志，随着互联网规模的不断发展，日志数量也呈指数增长，传统web预处理算法已经不能适应海量数据的处理要求，需要对其进行并行化设计，以适应海量数据处理要求。

1996年学者m.s.chen,h.mannila,t.yan提出了可以将数据挖掘的方法用于web研究的领域。同时也提出用这种方法来分解用户访问的session成为一个个的事，然后就可以在实务基础上挖掘用户访问的模式。1999年jborges等人又提出了引入超链接概率的原理，修改了传统意义上对序列的界定，可以将用户的访问在网站结构图中记录下来，根据访问的条件概率判断用户频繁访问的路径[3]。

相对国外而言，国内对web数据挖掘领域进行研究的时间较晚，目前大部分还处于理论研究阶段。陆丽娜等提出了基于拓展有树模型进行浏览模式识别的web日志挖掘方法，并将这种基于事务的处理方法用于研究web日志预处理及用户访问序列模式挖掘方法[5]。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

一、研究目标

通过对分布式技术以及数据挖掘技术的理解与学习，熟悉常用的一些分布式框架和数据挖掘流程，特别是web日志挖掘的流程以及算法研究。设计出一套基于hadoop分布式平台的web日志系统。该系统中主要使用hadoop分布式框架作为基础，利用hadoop的mapreduce的编程模型来实现分布式计算。二、研究内容

1、学习并掌握web日志与处理方法

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

2月23日-3月15日

完成开题报告和翻译。

3月15日-3月31日

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

[1]基于hadoop的日志分析系统的设计与实现2014

[2]张晓强mapreduce在web日志挖掘中的应用2011

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

Web日志预处理并行算法的应用研究开题报告

1. 研究目的与意义（文献综述）

2. 研究的基本内容与方案

3. 研究计划与安排

4. 参考文献（12篇以上）

您可能感兴趣的文章

最新文档

联系我们

登录

注册

找回密码

1. 研究目的与意义（文献综述）

2. 研究的基本内容与方案

3. 研究计划与安排

4. 参考文献（12篇以上）

您可能感兴趣的文章

最新文档

联系我们