基于爬虫的垂直搜索引擎设计与实现开题报告

 2022-05-10 08:05

1. 研究目的与意义

internet的发展,给人类社会带来了翻天覆地的变化,将人类文明推向一个新的高度。它的到来,使信息技术成为当今世界各国发展的主题。internet的普及,网民的数量的猛增,web资源的指数般增加,激励着人们探索新的突破。以服务大众出名的通用搜索引擎为我们指引了方向。它们为无数的网民提供了从无底的web中寻找资源,然而,随着internet的发展,如何快速的,准确的检索到并利用到这些信息成为研究的热点。

研究目的是研究如何设计一个垂直搜索引擎的信息抓取系统,使得系统能够尽可能多地,快速的抓取与特定主题内容非常相关的网页,同时最大限度地避免无关网页的抓取。

通过对网络的发展,通用搜引擎的使用进行了介绍,分析了现有搜索引擎在使用中存在的问题的基础上设计了一个基于爬虫系统的,并且整合elasticserach搜索框架,实现一个行业信息信息高度集中,搜索响应速度快的垂直搜索引擎。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

本毕业设计以基于scrapy爬取数据作为毕业设计数据来源,以django作为垂直搜索引擎系统的后端,用elasticsearch搜索服务器完成全文搜索分词功能,把开源的分析与可视化平台kibana 和 elasticsearch 一起使用,用 kibana 搜索、查看、交互存放在elasticsearch 索引里的数据。

本系统研究难点在于如何使用scrapy大规模抓取网络数据并且绕过目标网站的反爬虫策略,和如何把爬取到的数据批量写入到elasticsearch并对需要搜索的数据建立索引,以达到快速搜索的目的。

对于用爬虫爬取数据时候遇到的反爬问题做了很多应对策略,首先是建立一个useragent池,在程序中随机切换useragent伪装浏览器;其次我通过程序限制爬虫的数据抓取速度,降低网站服务器压力,避免对目标网站服务器造成伤害;对于长时间抓取数据封ip的,我会构建ip代理池,随机切换代理伪装真实身份;对于有的网站结构比较复杂,是通过js展现数据的,不容易抓取,我通过fiddler抓包,进行数据抓取;最后通过chrome完全模拟浏览器进行抓取。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

1. 底层模块

在制作过程中学习与掌握文件i/o原理,map原理,字符串切割原理等知识,来设计和实现系统数据模块,用于读、写和存储与搜索引擎相关的垂直信息数据。

2.数据收集与整理模块

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1]王文钧, 李巍. 垂直搜索引擎的现状与发展探究[j]. 情报科学, 2010 (3): 477-480.

[2]陈竹敏. 面向垂直搜索引擎的主题爬行技术研究[j]. 山东: 山东大学, 2008.

[3]白亚光. 大规模垂直搜索方法的研究与实现[d]. 北京交通大学, 2018.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 计划与进度安排

序号 起止日期 任务 工作内容

1、 2022-01-01~ 2022-01-31 调研与数据采集 调研、撰写开题报告和前期数据采集

2、 2022-01-01~ 2022-01-31平台搭建 搭建系统环境与基本框架

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。