学术热点爬虫系统设计开题报告

 2021-11-21 16:21:29

1. 研究目的与意义(文献综述)

1.目的及意义(含国内外的研究现状分析)

网络爬虫是一种按照一定的规则自动地抓取网络信息的程序或者脚本。简单来说,就是根据一定的算法实现编程开发,主要通过url实现数据的抓取和发掘。随着大数据时代的发展,数据规模越来越庞大,数据类型繁多,但是数据价值普遍较低。为了从庞大的数据体系里获取有价值的数据,从而延伸了网络爬虫、数据分析等多个职位。近几年,网络爬虫的需求更是井喷式地爆发,在招聘的供求市场上往往是供不应求,造成这个现状的主要原因就是求职者的专业水平低于需求企业的要求。传统的爬虫有百度、google、必应等搜索引擎,这类通用的搜索引擎都有自己的核心算法。但是,通用的搜索引擎存在一定的局限性:(1)不同的搜索引擎对于同一个搜索会有不同的结果,搜索出来的结果未必是用户需要的信息。(2)通用的搜索引擎扩大了网络覆盖率,但有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。(3)随着网络上数据形式繁多和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。因此,为了得到准确的数据,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,可根据设定的抓取目标有目的性地访问互联网上的网页与相关的url,从而获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求全面的覆盖率,而是抓取与某一特定内容相关的网页,为面向特定的用户提供准备数据资源。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

2.基本内容和技术方案

2.1设计的需求分析

本设计是针对学术热点进行爬虫程序的设计,即在特定的学术资源提供网站上对特定关键词或数字的学术论文或相关文章进行爬取,并且实时存入mysql,爬取模块同时显示爬虫状态。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

在综合考虑设计任务之后,设计进度安排如下:

第1-2周:查阅相关文献资料,明确研究内容,了解研究所需掌握的知识范围,完成开题报告。

第3-4周:学习编程技术。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]hosseini nafiseh,fakhar fatemeh,kiani behzad,eslami saeid. enhancing the security of patients' portals and websites by detecting malicious web crawlers using machine learning techniques.[j]. international journal of medical informatics,2019,132.

[2]. science - social anthropology; new findings on social anthropology from faculty of social sciences summarized (spiders on the world wide web: cyber trickery and gender fraud among youth in an accra zongo)[j]. science letter,2019.

[3]shengye wan,yue li,kun sun. pathmarker: protecting web contents against inside crawlers[j].2019,2.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版