基于Java的主题网络爬虫的研究开题报告-开题报告网

1. 研究目的与意义（文献综述）

在互联网这个庞大的资源库中，信息浩瀚万千且杂乱无章，用户如果想从其中获取有用信息，就必须依靠搜索引擎。搜索引擎是指自动从因特网上搜集信息，经过一定整理之后，提供给用户的查询系统。人们日常使用的通用搜索引擎，例如百度和google，力图遍历整个网络以尽可能全面地搜索到所需信息。但是随着信息的爆炸增长，网络资源变得更加多元，这种搜索方式的弊端逐渐显现，内存占用高，消耗系统资源，针对某一特定主题，搜索结果的准确性和相关性均有所下降。

面对专业性，特定需求的搜索要求，定向获取信息的检索工具--垂直搜索引擎应运而生。垂直搜索引擎针对特定主题，是通用搜索引擎的延伸和发展，具有更专业、更具体以及更高的主题相关度，而垂直搜索引擎的核心技术就是主题网络爬虫。

网络爬虫是一种按照一定的规则，自动抓取万维网信息的程序或脚本。区别于通用网络爬虫不区分主题，爬取网页中全部链接，主题网络爬虫可以根据事先指定的主题，通过适合的搜索策略对链接进行选择爬取，在爬行效率，信息的准确率等性能上均有较大提高，具有一定实践意义。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

基本内容：

分析网络爬虫原理特点、主题爬虫与通用爬虫的区别和不同主题爬虫搜索策略的比较；确定目标主题，设计网页获取和网页解析模块，确定链接后爬取下载解析网页；设计主题相关度计算模块，根据已经解析的网页获取新的url，采用shark-search算法和pagerank算法相结合的搜索策略，计算url的主题相关度，过滤掉与主题无关的网页；设计判断url爬取优先级模块，将优先级存入数据库，从其中按照优先级选择下一步要爬取的网页；设计包含url队列的数据库系统；将各个模块整合，基于java实现多线程并发工作的主题爬虫。

目标：

本文首先将分析不同主题搜索策略对搜索引擎性能的影响，并研究基于内容的shark-search算法和基于链接结构的pagerank算法相结合的搜索策略如何进行主题相关度的计算及其优缺点；包括如何获取网页和网页下载的方式以及网页解析的方法和分析；最后在java多线程并发应用和数据库系统的设计基础之上，设计并实现基于java的主题网络爬虫。

拟采用的技术方案及措施：

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

第1-4周：查阅相关文献资料，明确研究内容，了解研究所需掌握的知识范围，完成开题报告。

第4-7周：熟悉相关理论知识、设计工具和计算机语言。完成主题相关度预测、主题相关度计算、url优先级排序、爬取下载解析网页和数据库模块的初步设计设计，编写设计图和结构框图。

第8-11周：代码实现和系统测试、性能分析。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

左薇,张熹,董红娟,于梦君.主题网络爬虫研究综述[j/ol].软件导刊:1-4[2020-03-22].
彭宏胜. 基于shark-search与otie自适应算法的主题爬虫关键技术研究与实现[d].江苏大学,2019.
赵康. 面向主题的网络爬虫系统的设计与实现[d].北京邮电大学,2019.
剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于Java的主题网络爬虫的研究开题报告

1. 研究目的与意义（文献综述）

2. 研究的基本内容与方案

3. 研究计划与安排

4. 参考文献（12篇以上）

您可能感兴趣的文章

最新文档

联系我们

登录

注册

找回密码

1. 研究目的与意义（文献综述）

2. 研究的基本内容与方案

3. 研究计划与安排

4. 参考文献（12篇以上）

您可能感兴趣的文章

最新文档

联系我们