基于用户浏览行为模拟的分布式web数据采集系统文献综述

 2022-11-19 23:37:04
  1. 文献综述(或调研报告):

爬虫基础功能

一个设计良好的爬虫架构必须满足如下需求。

(1) 分布式:爬虫应该能够在多台机器上分布执行。

(2) 可伸缩性:爬虫结构应该能够通过增加额外的机器和带宽来提高抓取速度。

(3) 性能和有效性:爬虫系统必须有效地使用各种系统资源,例如,处理器、存储空间和网络带宽。

(4) 质量:鉴于互联网的发展速度,大部分网页都不可能及时出现在用户查询中,所以爬虫应该首先抓取有用的网页。

(5) 新鲜性:在许多应用中,爬虫应该持续运行而不是只遍历一次。

(6) 更新:因为网页会经常更新,例如论坛网站会经常有回帖。爬虫应该取得已经获取的页面的新的拷贝。例如一个搜索引擎爬虫要能够保证全文索引中包含每个索引页面的较新的状态。对于搜索引擎爬虫这样连续的抓取,爬虫访问一个页面的频率应该和这个网页的更新频率一致。

(7) 可扩展性:为了能够支持新的数据格式和新的抓取协议,爬虫架构应该设计成模块化的形式。

并行爬虫架构

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版