招聘网站信息爬取、可视化及数据分析与系统实现开题报告

 2022-08-15 09:16:01

1. 研究目的与意义

伴随着网络信息的爆炸式增长,大数据时代悄然而至,如何在海量的数据当中获取可以有效利用的关键数据信息,成为各界研究的热点。网络爬虫是一种按照设计者所设定的规则,模拟成为浏览器,自动驱动抓取网页信息的程序或脚本,利用网络爬虫,设计者可结合自己的目标需求从海量的互联网信息中抓取大量目标信息数据并存储,然后进行进一步的数据可视化分析,挖掘出数据内涵的意义。

2. 研究内容和预期目标

随着大数据技术的发展,从互联网里采集数据是大众获取数据的重要渠道,网络爬虫技术通过编写程序自动爬取互联网网页内容,实现数据的自动采集,已经广泛应用于搜索引擎、数据挖掘以及网站优化推广等领域。python是一门解释型、面向对象、动态数据类型的高级程序设计语言,广泛应用于科学计算、数据处理、web 开发、网络爬虫和数据分析等领域,在网络爬虫和数据分析方面,python 提供了多种功能强大的基本库和第三方库。以招聘信息数据为例,大部分招聘网站只是单纯的推送公司招聘岗位,并未进行深层次的数据挖掘,本次毕业设计对招聘网站特定岗位信息进行采集,然后把采集到的数据进行去重、分类等操作后存入数据库,同时注意考虑应对网站的反爬虫策略,避免被网站封锁ip,再通过可视化图表的形式直观的从不同角度和维度进行展示,挖掘出所需要的信息。

本论文的写作安排如下:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状

根据网络爬虫的目标范围和技术特点,业界把网络爬虫的类型分为四类:通用网络爬虫,爬取的目标是整个互联网数据,获得的数据是海量的,主要用于搜索引擎领域,例如,百度,Google 等;主题网络爬虫,其爬取的目标是某一个专题数据,目标和范围都非常明确,主要用于某一特定主题的数据获取,目前使用最为广泛; 增量式网络爬虫,是指网站有新的内容时,启动爬虫程序,获取该网站最新的数据,主要用于数据更新方面;深层网络爬虫,相对于爬取静态页面,深层网络爬虫是指通过构造Form 爬取网站的动态页面数据,这些数据往往存储在网站的后端数据库中。

4. 计划与进度安排

具体实现使用 python语言及其库如urlib/scrapy/beutifulsoup/request等进行爬虫,存储于mysql或mongodb中,采用特定的内容抽取算法、文本分类算法以及文本去重方法来清洗处理目标数据,然后使用matplotlib或echarts进行可视化数据分析,最后使用 django 和 weui 来做内容展示页或pyinstaller打包成可执行文件exe。

进度安排:
12 月:查阅收集相关资料
1-3 月:进入设计和开发阶段,提交中期检查报告
4 月:完成初稿,根据意见完善论文
5 月:定稿、查重、翻译

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 参考文献

[1]文斌.基于beautifulsoup爬虫招聘信息查询系统的设计与实现[j].电脑编程技巧与维护,2020(10):107-109.

[2]赵宸,刘建华.基于django的分布式爬虫框架设计与实现[j].计算机与数字工程,2020,48(10):2495-2498.

[3]杨国军.基于python的数据爬虫的设计与实现[j].数字技术与应用,2020,38(10):153-154 158.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版