基于网页抓取技术的企业数据采集开题报告

 2022-04-23 06:04

1. 研究目的与意义

随着人们对数据中隐藏价值信息的重视,数据挖掘成为当下的研究热点。网络中蕴藏着巨大价值的海量数据,挖掘 web 数据成为当下大数据研究的大方向之一。

网络爬虫也称网络蜘蛛, 或网络机器人,是一个功能很强的自动提取网页的程序。它为搜索引擎从万维网上下载网页 , 并沿着网页的相关链接在 web中采集资源, 它遍历 Web空间 ,不断从一个站点移动 到另一个站点 ,自动建立索引 ,并加入到网页数据库中,是一个功能很强的网页自动抓取程序 , 也是搜索引擎的重要组成部件 , 它的处理能力往往决定了整个搜索引擎的性能及扩展能力等 。传统的网络爬虫从一个或若干个初始种子开始爬行, 获得初始的 URL, 在爬取网页的过程中 , 不断从当前页面上获取新的 URL放入队列, 直到满足系统结束条件为止。然而随着网络资源的爆炸式膨胀和信息量的飞速增长, 通用的爬虫技术在索引规模、更新速度和个性化等很多方面都已不能满足用户的需求 , 与此同时, 应运而生的主题爬虫则不像通用爬虫那样采集全部网络资源, 而是从互联网上采集特定主题资源的网页 , 大大提高搜索效率 , 日渐受到人们的青睐 。

Python,是一种面向对象的解释性的计算机程序设计语言,也是一种功能强大而完善的通用型语言,已经具有十多年的发展历史,成熟且稳定。 Python 具有脚本语言中最丰富和强大的类库,足以支持绝大多数日常应用。 这种语言具有非常简捷而清晰的语法特点,适合完成各种高层任务,几乎可以在所有 的操作系统中运行。目前,基于这种语言的相关技术正在飞速的发展,用户数量急剧扩大, 相关的资源非常多。

本次研究主要是运用Python设计语言设计网页抓取程序,抓取出相关数据并用ARCGIS进行数字化,获得其关联性。

2. 研究内容和预期目标

通过各种方式对Python设计语言进行学习了解,设计出能够从网页的海量信息中抓取出金融、高新技术企业相关信息的应用程序,运用网络爬虫技术对苏州地区的每个相关目标企业进行遍历,提取出相关企业部门的点位信息以及相应的属性信息等并建立数据库,其中属性信息包括该企业部门的发展状况、规模大小以及企业类型等。探索两种产业的空间布局之间是否存在一定的关联性,如若存在,是怎样的关系,通过Arc gis对其空间分布进行分布展示处理。

ARCGIS软件能够对空间数据进行高效、准确、快速的分析,并能够实现对运用网络爬虫技术建立好企业数据进行数字化,借助空间分析工具实现对金融与高新技术企业间的关联分析,将所得结论给以相关规划部门以合理建议。

3. 研究的方法与步骤

1、1、进行于本次研究具有参考意义的期刊论文的研究阅读,整理好具体作法与思路。

2、 2、了解网络爬虫的相关方法,从中选取最适合本次研究的应用方法,了解其基本原理以及运用要求。

3、3、阅读有关Python程序设计语言的相关书籍或学习有关教学视频,掌握其基本功能并编写网页数据抓取的源代码。将所抓取出的苏州地区的金融与高新技术企业数据建立数据库,以便关联分析的应用。

4、4、学习Arcgis软件的空间分析等应用,将所得数据库数字化,运用相关功能完成关联分析工作得出期望结论。

4. 参考文献

1、《基于网络抓取技术的GPS/MET水汽站自动监测报警系统》李建勇 ,气象水文海洋仪器,2013

2、《基于Python的文本分类系统开发研究》孙强,计算机应用与软件,2011

3、《基于Python的空间数据批量处理方法》,彭海波,测绘与空间地理信息,2011

4、《高性能网络爬虫:研究综述》周德懋,计算机科学,2009

5、《基于网络爬虫的地名数据库维护方法》张春菊,地球信息科学学报,2011

6、《基于web的网络爬虫设计与实现》徐远超,微计算机信息,2007

7、《一种知识型网络爬虫的设计与实现》杨德仁,华东师范大学学报(自然科学版),2006

8、《Python 模拟登录网站并抓取网页的方法》 刘艳平,微型电脑应用,2015

9、《浅析 python 在地图处理中的运用 》王亚卿,东方森林经理,2008

10、《基于 Python 的 ArcGIS Server 地图瓦片定时自动更新方法》马卫春,地理空间信息,2013

11、《基于 Python 的 ArcGIS 地理数据批处理》方圣辉,测绘与地理空间信息,2015

12、《基于Python 的 ArcGIS空间数据 格式批处理转换工具开发》焦 洋,现代测绘,2013

13、《基于 Python 的新浪微博数据爬虫》周中华,计算机应用,2014

14、《简析搜索引擎中网络爬虫的搜索策略》刘世涛,阜阳师范学院学报 (自然科学版),2006

15、《网络爬虫技术的研究》孙立伟,电脑知识与技术,2010

16、《网络爬虫技术研究》于成龙,东莞理工学院学报,2011

17、《网络爬虫在 Web 信息搜索与数据挖掘中应用》杨定中,计算机工程与设计,2009

5. 计划与进度安排

1 、2022-3-14至2022-3-25:接受任务,了解指导教师对论文的要求和工作内容,根据论文题目阅读指导教师规定的文献,通过网络、期刊、专业书籍等进行相关背景资料了解,撰写开题报告。

2、 2022-3-26至2022-4-4:原理理解及方案设计,编程语言熟悉及软件下载安装。

3 、2022-4-5至2022-5-2:数据格式转换设计,系统框架设计,管理软件实现。

4、 2022-5-3至2022-5-24:归纳、分析与总结,完成论文初稿。

5 、2022-5-25至2022-6-6:修改论文初稿,论文定稿,打印、装订。

6 、2022-6-7至2022-6-13:论文答辩准备及答辩。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。