基于Java的主题网络爬虫的研究开题报告

 2021-11-25 10:11

1. 研究目的与意义(文献综述)

在互联网这个庞大的资源库中,信息浩瀚万千且杂乱无章,用户如果想从其中获取有用信息,就必须依靠搜索引擎。搜索引擎是指自动从因特网上搜集信息,经过一定整理之后,提供给用户的查询系统。人们日常使用的通用搜索引擎,例如百度和google,力图遍历整个网络以尽可能全面地搜索到所需信息。但是随着信息的爆炸增长,网络资源变得更加多元,这种搜索方式的弊端逐渐显现,内存占用高,消耗系统资源,针对某一特定主题,搜索结果的准确性和相关性均有所下降。

面对专业性,特定需求的搜索要求,定向获取信息的检索工具--垂直搜索引擎应运而生。垂直搜索引擎针对特定主题,是通用搜索引擎的延伸和发展,具有更专业、更具体以及更高的主题相关度,而垂直搜索引擎的核心技术就是主题网络爬虫。

网络爬虫是一种按照一定的规则,自动抓取万维网信息的程序或脚本。区别于通用网络爬虫不区分主题,爬取网页中全部链接,主题网络爬虫可以根据事先指定的主题,通过适合的搜索策略对链接进行选择爬取,在爬行效率,信息的准确率等性能上均有较大提高,具有一定实践意义。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

基本内容:

分析网络爬虫原理特点、主题爬虫与通用爬虫的区别和不同主题爬虫搜索策略的比较;确定目标主题,设计网页获取和网页解析模块,确定链接后爬取下载解析网页;设计主题相关度计算模块,根据已经解析的网页获取新的url,采用shark-search算法和pagerank算法相结合的搜索策略,计算url的主题相关度,过滤掉与主题无关的网页;设计判断url爬取优先级模块,将优先级存入数据库,从其中按照优先级选择下一步要爬取的网页;设计包含url队列的数据库系统;将各个模块整合,基于java实现多线程并发工作的主题爬虫。

目标:

本文首先将分析不同主题搜索策略对搜索引擎性能的影响,并研究基于内容的shark-search算法和基于链接结构的pagerank算法相结合的搜索策略如何进行主题相关度的计算及其优缺点;包括如何获取网页和网页下载的方式以及网页解析的方法和分析;最后在java多线程并发应用和数据库系统的设计基础之上,设计并实现基于java的主题网络爬虫。

拟采用的技术方案及措施:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1-4周:查阅相关文献资料,明确研究内容,了解研究所需掌握的知识范围,完成开题报告。

第4-7周:熟悉相关理论知识、设计工具和计算机语言。完成主题相关度预测、主题相关度计算、url优先级排序、爬取下载解析网页和数据库模块的初步设计设计,编写设计图和结构框图。

第8-11周:代码实现和系统测试、性能分析。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

  1. 左薇,张熹,董红娟,于梦君.主题网络爬虫研究综述[j/ol].软件导刊:1-4[2020-03-22].

  2. 彭宏胜. 基于shark-search与otie自适应算法的主题爬虫关键技术研究与实现[d].江苏大学,2019.

  3. 赵康. 面向主题的网络爬虫系统的设计与实现[d].北京邮电大学,2019.

    剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。