1. 毕业设计(论文)的内容和要求
1、利用Hadoop平台搭建分布式网络爬虫系统;
2、优化有关模块,使得数据的抓取与存储更加的简便快捷。
2. 实验内容和要求
1、分析分布式爬虫发展现状和hadoop平台的分布式文件系统(hdfs)和计算模型(map/reduce)相关理论和技术;
2、设计分布式爬虫的框架设计、工作流程和功能模块划分。
3、研究分布式爬虫领域里的关键算法---url去重算法,对其进行了优化。利用hbase进行数据储存,设计url抓取模块。采用pagerank算法对url的重要性进行了判断,按照pagerank值进行分批抓取,以降低网站的无关信息的检索数量。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 参考文献
[1]许文杰. 大数据及其在电信业中的应用[j]. 无线互联科技, 2013(05):181-181.
[2]郑睿颖 王芷婷. 基于hadoop的分布式搜索引擎的研究[j]. 求知导刊, 2017(32):2-2.
[3]杜军龙 周剑涛. 基于大数据的医疗监察系统研究[j]. 数码设计, 2017(7):4-4.
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
4. 毕业设计(论文)计划
一、搜集资料并整理研究资料:2022.1.1~2022.2.15;二、拟定毕业设计说明书提纲,撰写初稿:2022.2.16~2022.3.24;三、中期检查:2022.3.25~2022.3.30;四、修改提高:2022.3.31~2022.4.30;五、设计定稿:2022.5.1~2022.5.8
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。