基于主题的网络爬虫设计与实现开题报告

 2022-01-28 21:42:42

1. 研究目的与意义、国内外研究现状(文献综述)

一.本课题的意义互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景。

搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。

但是,这些通用性搜索引擎也存在着一定的局限性。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

一.研究目标本论文主要研究搜索引擎的搜索器(网络爬虫程序)的设计与实现,实现高效的网络爬虫功能。

1.可以多线程进行抓取。

2.可以进行面向主题的抓取。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

一.研究方法网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。

网络爬虫应用宽度搜索技术。

对url进行分析,用hash算法来实现去重。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

本课题的特色之处:1.采用java多线程技术使网络爬虫程序可以高效的进行抓取。

2.采用hash法来实现url消重处理。

3.提出了一种基于网页标题的空间向量模型主题相关度计算方法。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 研究计划与进展

2014.12.282015.01.06 查阅资料完成开题报告2015.01.07 开题报告2015.01.082015.02.28 查阅资料,进行论文基本章节的写作,完成初稿,并开始代码编写2015.02.282015.04.09 初步完成设计参加毕业设计中期报告2015.04.092015.05.06 系统设计结束、检查系统的可靠性并完成论文2015.05.07 毕业设计答辩

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版