基于网络爬虫的网上农产品信息获取的研究与开发开题报告

 2022-01-28 21:43:02

1. 研究目的与意义、国内外研究现状(文献综述)

随着国际互联网(internet)的迅速发展,网上的信息越来越多,全球目前的网页超过20亿,每天新增加730万网页。

要在如此浩瀚的信息海洋里寻找 信息,就像大海捞针一样困难。

搜索引擎正是为了解决这个问题而出现的 技术。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

研究的目标和拟解决的关键问题1、关键问题首先,网络爬虫的搜索策略有很多,爬虫系统的运行质量很大程度上取决于搜索策略的好坏,如何选择一个适合的搜索策略是实现自己抓取目标的关键;其次,抓取下来的信息存储后如何提取数据供自己需要也是一个关键的问题。

2、实现目标本次设计的实现的目标有:1、首先能够将通过对网页结构的分析进行关键字匹配获取自己所需信息2、然后对信息进行存储3、最后就是提取数据显示出来综上,需要进行的关键代码编写部分主要有:信息抓取、信息存储、网页显示

3. 研究的方法与方案

需要使用的技术手段和可行性分析1、方法技术路线1.1 工作原理 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。

传统爬虫从一个或若干初始网页的url开始,获得初始网页上的url,在抓取网页的过程中,不断从当前页面上抽取新的url放入队列,直到满足系统的一定停止条件。

首先选取一部分精心挑选的种子url;其次,将这些url放入待抓取url队列;然后从待抓取url队列中取出待抓取在url,解析dns,并且得到主机的ip,并将url对应的网页下载下来,存储进已下载网页库中。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

本次设计的实现的目标有:1、首先能够将通过对网页结构的分析进行关键字匹配获取自己所需信息2、然后对信息进行存储3、最后就是提取数据显示出来

5. 研究计划与进展

研究计划及预期进展1月8日3月1日 :了解并熟悉网络爬虫的原理、关键技术,并确定最终搜索策略,明确本次设计预达到的目标,并且完成平台搭建。

在过去学习的基础上进一步巩固java语言的学习,能够熟练运用java。

3月1日3月10日:测试几个小型的爬虫程序,深刻理解爬虫的工作原理。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付