1. 研究目的与意义
据教育部统计,2019年全国普通高校毕业生预计834万人,比2018年增加14万人,再创新高,毕业生的就业问题已经成为全社会关注的焦点。
目前,网络招聘已成为大学生就业主渠道之一,许多大学生都通过网络来了解现在的招聘信息,但是对于一类相似的岗位,又不知道岗位有哪些需求,希望通过互联网能够发现更为全面、具体的信息。
为此,采用网络爬虫技术,构造特定url,可以对这些招聘网站进行信息的提取,这样能够获取国内部分知名招聘网站发布的上万条招聘岗位信息,然后利用统计学方面的知识对获取到的信息进行分析,得到有用的市场需求条件,掌握大量人才市场对高校毕业生的需求情况,让高校毕业生更加了解就业。
2. 研究内容和预期目标
本项目要求利用网络爬虫方法获取最新的网络招聘信息,分析用人单位对本科毕业生的需求情况并给出合理建议。
主要内容包括:
1.利用网络爬虫分析用人单位对本科毕业生的专业背景、技术要求、薪资待遇等方面的总体情况以及信息与计算科学专业的相关情况。
3. 研究的方法与步骤
主要借助互联网资源,参考网上开源的网络爬虫和各种网络相关的书籍、视频等信息,学习了解网络爬虫运行机制、基本原理。
根据所爬取的目标网站设计自己的爬虫,自主学习Python语言,熟悉Scrapy框架的搭建,了解Mysql的简单操作,对有关框架学习、编写、调试。
4. 参考文献
[1]李航,统计学习方法,北京:清华大学出版社,2012年1月
[2]于娟,刘强,主题网络爬虫研究综述,计算机工程与科学,2015 年2月:231-237
[3]胡松涛,python网络爬虫实战 第2版,北京:清华大学出版社,2018年1月
5. 计划与进度安排
2022年02月28日—2022年03月10日 查阅资料完成任务书,完成开题报告
2022年03月11日—2022年05月31日 开始论文写作,学习网络爬虫基本机制,学习使用mysql数据库,学习python,搭建scrapy环境,学习相关框架知识
2022年04月15日—2022年04月28日 查阅资料,与导师讨论设计缺陷,并提出解决方案,完成基础代码编写
