1. 研究目的与意义
随着计算机的普及以及信息工程的日益发展,从网上获取信息已经成为人们的日常生活和工作一个重要途径,互联网如今已成为一个资源不断丰富的平台,整个互联网逐渐成为一个信息量超大的资源存储空间。因此怎样有效而又快捷的从海量数据中获取所需的信息就成为一件困难的事情,搜索引擎的出现正是为了解决“信息丰富,获取困难”的问题的一种信息检索服务。
现如今主流的搜索引擎如百度、搜狗,都是全文搜索引擎,在针对某些特定领域搜索时就显得没有那么友好,并且很有可能搜索结果不是我们期待的或者干脆没有对应的搜索结果,为解决网上的信息太多太繁杂的问题,可以对某个特定的领域做信息采集,这会大大减少不必要的时间花费并提高获得的信息的准确度。
针对上述不足,本课题将设计实现一个基于分布式爬虫的垂直搜索引擎,具备分布式运行、信息检索、页面展示等功能,其中,分布式功能基于scrapy-redis组件,实现爬虫分布式运行的功能,对信息采集速度较慢问题有较好的解决能力,信息检索功能则基于elasticsearch框架,实现数据检索和中分分词功能,页面展示部分采用django框架,拥有自主管理后台的功能,总之,本系统相比传统搜索引擎,在特定领域搜索等方面具备更加准确、快速的优势
2. 研究内容和预期目标
研究内容:
1.深入学习基于scrapy爬虫的基本理论和方法;
2.学习如何使用scrapy-redis组件将爬虫打造成分布式爬虫;
3. 研究的方法与步骤
方法:
1.阅读任务书,了解课题的研究方向;
2.上网查找相关资料;
4. 参考文献
| [1] [美]MangnusLie Hetland 著,司维等译. Python基础教程(第2版·修订版). 人民邮电出版社, 2014. [2] [美]JefferyE.F.Friedl 著,余晟译. 精通正则表达式(第3版). 电子工业出版社, 2012. [3] [英]BenForta 著,刘晓霞,钟鸣译. MySQL必知必会[M]. 人民邮电出版社, 2014. [4] [澳]理查德劳森 著,李斌译. 用Python写网络爬虫[M] . 人民邮电出版社, 2016. [5] 韦玮 著, 精通Python网络爬虫:核心技术、框架与项目实战[M] . 机械工业出版社, 2017. [6] 范传辉 著, Python爬虫开发与项目实战[M] . 机械工业出版社,2017. [7] 李子骅 著, Redis入门指南[M] . 人民邮电出版社, 2013. [8] [波]RafalKucMarek Rogozinski 著,时金桥,柳厅文等译. ElasticSearch可扩展的开源弹性搜索解决方案[M] . 电子工业出版社, 2015. [9] [美]JuliaElmanMark Lavin 著,侯荣涛,吴磊译. 轻量级Django[M] . 中国电力出版社, 2016.
|
5. 计划与进度安排
1、2022.1 ---- 2022.2 查阅资料,了解课题背景,撰写开题报告
2、2022.2 ---- 2022.3 根据课题要求,进行需求分析,熟悉开发工具
3、2022.3 ---- 2022.3 根据分析结果,对系统进行概要设计
