基于Hadoop的分布式网络爬虫的设计与研究任务书

 2023-02-28 11:02

1. 毕业设计(论文)的内容和要求

1、利用Hadoop平台搭建分布式网络爬虫系统;

2、优化有关模块,使得数据的抓取与存储更加的简便快捷。

2. 实验内容和要求

1、分析分布式爬虫发展现状和hadoop平台的分布式文件系统(hdfs)和计算模型(map/reduce)相关理论和技术;

2、设计分布式爬虫的框架设计、工作流程和功能模块划分。

3、研究分布式爬虫领域里的关键算法---url去重算法,对其进行了优化。利用hbase进行数据储存,设计url抓取模块。采用pagerank算法对url的重要性进行了判断,按照pagerank值进行分批抓取,以降低网站的无关信息的检索数量。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 参考文献

[1]许文杰. 大数据及其在电信业中的应用[j]. 无线互联科技, 2013(05):181-181.

[2]郑睿颖 王芷婷. 基于hadoop的分布式搜索引擎的研究[j]. 求知导刊, 2017(32):2-2.

[3]杜军龙 周剑涛. 基于大数据的医疗监察系统研究[j]. 数码设计, 2017(7):4-4.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 毕业设计(论文)计划

一、搜集资料并整理研究资料:2022.1.1~2022.2.15;二、拟定毕业设计说明书提纲,撰写初稿:2022.2.16~2022.3.24;三、中期检查:2022.3.25~2022.3.30;四、修改提高:2022.3.31~2022.4.30;五、设计定稿:2022.5.1~2022.5.8

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。