基于Python的在线试题爬虫的设计与实现开题报告-开题报告网

1. 研究目的与意义

背景：

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。爬虫从一个或若干初始网页的url开始，获得初始网页上的url，在抓取网页的过程中，不断从当前页面上抽取新的url放入队列，并重复上述过程，直到达到系统的某一条件时停止。

爬虫具有一些特点：主动——爬虫的重点在于“爬取”（crawl），这是一种主动性的行为。换句话说，它是一个可以独立运行且能按照一定规则运作的应用程序。自动化——由于处理的数据可能很分散，数据的存留具有一定的时效性，所以它是一套无人值守的自动化程序

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

本系统主要针对试题网站上面的试题进行爬取然后分类存储。

主要内容：

（1）设计url和网页解析部分，从网页上寻找出需要的数据源。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

（1）观察网页源代码，了解其结构以及数据存储显示方式，大致了解如何提取其中数据。

（2）在需求分析之后进行相关概要设计。

（3）设计爬取模块，使用定位方式取出网页里面的数据，并循环深度爬取所有页面及其答案。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

[1]lutz m. learning python, fourth edition.[m].sebastopol: o’reilly media.inc, 2011.

[2]wesley j. chun. core python programming[m]. 北京:人民邮电出版社, 2014.

[3]王珊, 萨师煊. 数据库系统概论[m]. 北京:北京高等教育出版社, 2014.

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

(1) 2022年12月24日 —2022年1月30日

接受毕业设计任务，查阅资料并完成开题报告；

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付