1. 研究目的与意义
背景:
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。爬虫从一个或若干初始网页的url开始,获得初始网页上的url,在抓取网页的过程中,不断从当前页面上抽取新的url放入队列,并重复上述过程,直到达到系统的某一条件时停止。
爬虫具有一些特点:主动——爬虫的重点在于“爬取”(crawl),这是一种主动性的行为。换句话说,它是一个可以独立运行且能按照一定规则运作的应用程序。 自动化——由于处理的数据可能很分散,数据的存留具有一定的时效性,所以它是一套无人值守的自动化程序
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究内容和预期目标
本系统主要针对试题网站上面的试题进行爬取然后分类存储。
主要内容:
(1)设计url和网页解析部分,从网页上寻找出需要的数据源。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 研究的方法与步骤
(1)观察网页源代码,了解其结构以及数据存储显示方式,大致了解如何提取其中数据。
(2)在需求分析之后进行相关概要设计。
(3)设计爬取模块,使用定位方式取出网页里面的数据,并循环深度爬取所有页面及其答案。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
4. 参考文献
[1]lutz m. learning python, fourth edition.[m].sebastopol: o’reilly media.inc, 2011.
[2]wesley j. chun. core python programming[m]. 北京:人民邮电出版社, 2014.
[3]王珊, 萨师煊. 数据库系统概论[m]. 北京:北京高等教育出版社, 2014.
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
5. 计划与进度安排
(1) 2022年12月24日 —2022年1月30日
接受毕业设计任务,查阅资料并完成开题报告;
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
