基于Python的农产品价格信息获取及分析开题报告

 2022-01-21 21:24:37

1. 研究目的与意义、国内外研究现状(文献综述)

一、本课题的意义、国内外研究概况、应用前景1、 课题的意义随着网络的迅猛发展,信息技术为人类带来了空前的便利。

万维网成为了大量信息的载体,如何有效获取并利用这些信息成为了一个巨大的挑战。

虽然搜索引擎为为用户获取信息提供了便利,但因为在输入关键字后搜索引擎反馈的结果有成千上万条,用户想要找到真正所需要的信息还有一定的难度。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

1、 研究目标利用基于python的网络爬虫爬取 全国农产品信息服务平台网站中关于某农产品的信息。

信息包括有产地、价格、发布日期等;再根据所获得的数据信息对这一农产品的未来价格走向作出分析及预测。

2、 研究内容(1) 学习了解并掌握python的语法规则和基本使用(2) 对网络爬虫的基础知识进行一定程度的理解(3) 爬取所选定的农产品网站中某农产品的信息(4) 将所得数据存入数据库中(5) 将数据整理以图表的形式展现(6) 基于已有的价格数据作出分析并对未来的价格走势作出预测3、拟解决关键问题 (1)如何及时有效的爬取农产品网站中某一农产品的信息 (2)如何将数据存储到库和表中 (3)怎样利用第三方库绘制出饼图柱状图等 (4)怎样针对所爬数据进行分析预测

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

1、 研究方法(1)内容爬取:选定目标网站对某种农产品的信息进行爬取,获取该农产品的价格、产地、发布日期等信息(2)内容分析:若内容简单,则考虑用正则表达式,若较为复杂,则考虑用python的beautiful soup模块,编写函数获取所需信息(3)总体实现:将网站爬取的数据整合,然后以图表的形式展现出来,基于这些信息作出分析预测2、技术路线 (1)选定 全国农产品信息服务平台网站中的某个产品,获取其相关产地、价格、发布日期等信息,利用python语言爬取。

(2)分析目标网页的html源代码,如果提取内容简单,考虑使用正则表达式(python模块)进行提取;如果提取内容较为复杂,则考虑使用python的beautiful soup模块或lxml模块(基于libxml2这一xml解析库)提取。

(3)编写好目标内容的解析函数,添加到爬虫的回调函数中,获取所需要的内容信息字段,并统一编码成utf-8格式。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

1、用户仅通过搜索引擎往往会搜索到大量并不关注的网页内容,不能很好的达到搜索的目的。

相较于传统搜索引擎,本次设计主要是针对某特定农产品的,其目的性更强,能更好的满足用户的搜索需求。

2、首先,本次设计对农产品的价格信息进行了长时间范围的爬取,可以根据以往的农产品价格数据进行分析,推测出未来的价格变动规律;其次,爬取的数据利用图表的形式表现出来更加的直观。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 研究计划与进展

2018年1月:学习熟练掌握并使用python语言,了解并掌握爬虫的基本流程2018年2月:对所选定的网页进行调研分析,查阅文献资料,掌握基本方法,根据网站特点对网站的农产品信息进行有效爬取,学习使用python中的各个模块及库的使用,将所爬取的数据存入CSV中2018年3月:将数据以图表的可视化形式展现出来,并针对所得数据做出对比分析,对农产品未来价格作出预测2018年4-5月:整体运行调试并做出改进,撰写报告

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付