1. 研究目的与意义、国内外研究现状(文献综述)
课题意义网络爬虫[1]是能够自动抓取网页中各类数据的一段程序。
网络爬虫通过网页的链接地址来查找网页内容,并直接返回给用户所需要的数据,不需要人工操纵浏览器获取。
爬虫是搜索引擎中的重要组成部分,为搜索引擎抓取互联网中的数据。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容和问题
研究目标本次课题的目标在于解决用python语言对不同购物网站不同时间的同一商品进行爬取,用mysql实现存储,将爬取的数据分析并可视化处理。
(1)python爬取数据[3]链接网址的提取,首先初始化为一些网址,然后通过网页分析不断抓取新的网址链接;下载要提取信息的页面。
页面上往往有我们需要的信息,如链接、图片、点评等等;网址的管理。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 研究的方法与方案
研究方法1)从基础出发将python语言关于网络爬虫方面的知识研究透彻;熟悉mysql的操作语言,熟练的掌握数据的导入导出。
2)选择合适的软件,搭建完整的环境。
3)将系统各个模块完成,不断完善。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
4. 研究创新点
4特色或创新之处1)python网络爬虫技术,可以爬取不同电商平台不同时间的数据。
2)使用mysql存取数据,将不同类型不同属性的数据分类存取。
将数据导出成折线图或柱形图等直观的方式。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
5. 研究计划与进展
5研究计划及预期进展2017 1.1-1.15 进行理论知识的学习,选择合适的软件,搭建实验环境框架。
2017 1.15-2.1选择合适的网站,进行实际操作学习。
2017 2.1-2.15完成初步的数据爬取,存入数据库。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
