1. 研究目的与意义(文献综述)
目的意义
随着网络时代的到来,互联网的发展十分迅猛, 互联网已经渗透到社会的各个层面,随之而来的是信息爆炸的时代,网络信息资源呈指数级增长, 用户主要通过搜索引擎来获取所需的网络信息,在庞大的网络信息资源中用户所需的往往是夹杂在庞大冗杂的信息中,面对用户越来越个性化的需求,通用搜索引擎已经越来越难以满足[1]。
网络爬虫是一种自动下载特定主题网页的程序,是搜索引擎的重要组成部分。爬虫从一个或若干个个url开始,通过分析该网页的源文件抽取出新的url,继而通过这些url继续寻找新的链接,一直循环直至抓取并分析完所有网页或满足系统的一定停止条件[2]。互联网是一个庞大的非结构化的数据库,根据搜索引擎的搜索范围,搜索引擎可以分为通用搜索引擎和垂直搜索引擎。这两种搜索引擎的爬虫有很大的区别:通用搜索引擎的爬虫通常是漫无目的的抓取,抓下来的页面也是五花八门,没有门类的区别;而垂直搜索引擎的爬虫只是抓取某一个类别的网页,抓取的网页数目都是有限的[3]。而从目前公布的数据来看最好的搜索引擎也只不过抓去了大致40%网页,一方面是网络爬虫的技术瓶颈所限,无法访问到所有网页,另一方面是储存技术和处理技术的瓶颈,有限的搜索引擎服务器资源无法迅速的储存并处理互联网上庞大的数据[4]。搜索引擎作为一个辅助用户检索信息的更方便的获得自己所需信息的工具,可以说是用户访问互联网的入口和指南,但不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含了大量用户不需要的冗杂网页。此时一个灵活的爬虫有着无可替代的重要意义[5]。
2. 研究的基本内容与方案
研究目标
本课题主要研究搜基于网络爬虫的信息采集系统设计与实现,实现简单的可在后台自动运行的信息采集系统。
1.可以多线程进行抓取。
3. 研究计划与安排
第1-3周:查阅相关文献资料,明确研究内容,了解研究所需的相关知识。确定大体的设计制作方案,完成开题报告。
第4-7周:对设计进行软件仿真,完善设计,并记录。
第8-11周:进行程序的测试,进行记录
4. 参考文献(12篇以上)
[1] 刘金红,陆余良.主题网络爬虫研究综述[j].计算机应用研究,2007,24(10) :26-29.
[2] winter.中文搜索引擎技术解密:网络蜘蛛 [m].北京:人民邮电出版社,2004年
[3] 朱良峰.主题网络爬虫的研究与设计[d].南京:南京理工大学控制理论与控制工程,2008.
