基于python的香樟树信息整合的平台设计开题报告

 2021-08-08 07:08

1. 研究目的与意义

1.香樟的重要性

香樟是樟目、樟科、樟属常绿大乔木,高可达30米,直径可达3米,树冠广卵形;树冠广展,枝叶茂密,气势雄伟,是优良的绿化树、行道树及庭荫树。产中国南方及西南各省区。越南、朝鲜、日本也有分布,其他各国常有引种栽培。植物全体均有樟脑香气,可提制樟脑和提取樟油。木材坚硬美观,宜制家具、箱子。香樟树对氯气、二氧化硫、臭氧及氟气等有害气体具有抗性,能驱蚊蝇,能耐短期水淹,是生产樟脑的主要原料。材质上乘,是制造家具的好材料。

2.香樟的经济价值

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 国内外研究现状分析

对于网络爬虫的研究从上世纪九十年代就开始了,目前爬虫技术已经趋见成熟,网络爬虫是搜索引擎的重要组成部分。网络上比较著名的开源爬虫包括nutch,larbin,heritrix。网络爬虫最重要的是网页搜索策略(广度优先和最佳度优先)和网页分析策略(基于网络拓扑的分析算法和基于网页内容的网页分析算法)。

国内外流行的爬虫技术相当多,有基于python的,也有基于c#的,很多人由于系统集成开发和跨平台的需要倾向于java。爬虫组件被设计创造出来,大部分情况是用于自动化测试的。基于socket的httpclient功能简单,性能强大,特别是在高并发的情况下,而被大家所青睐,特别是搜索引擎中,如果抓取静态页面,httpclient非常适合。此外主流的浏览器都提供了相应的抓取支持,selenium可谓是一个集大成者,包含了上述的所有组件,以webdriver的形式,适配各种爬虫组件,你可以用它操控浏览器自动抓取,当然,并发和性能的问题依然存在。

爬虫开发的主要问题是性能和反封锁。很多时候,采用高并发高频率抓取数据是可行的,前提是目标站点没有采用任何反爬措施(访问频率限制、防火墙、验证码);更多时候,有价值的信息,一定伴随着严格的反爬措施,我们需要针对具体的情况,采用对应的措施,以最大限度的完成爬虫爬取任务。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的基本内容与计划

研究内容:

1.利用爬虫技术在线搜索香樟的相关信息

2.进行数据解析与处理

3.利用MySQL存储香樟的相关数据

4.如何具备更强的抓取能力。

5.如何分辨重复的网页内容。

6.如何确定主题相关性。

进度计划:

序号

项目

时间

阶段成果

1

背景研究

2周左右

文献综述,开题报告

2

熟悉阅读国内外相关论文

2周左右

开发计划及技术方案

3

学习Python相关知识

2周左右

系统基础框架的搭建

4

需求分析

1周左右

需求概设文档

5

软件研发

3周左右

测试版本

6

计算测试结果及完善

2周左右

正式系统

7

撰写论文

2周左右

毕业论文

8

准备答辩材料,答辩

1周左右

答辩演示文稿

4. 研究创新点

爬虫技术:python用作搜索引擎能够极大简化在互联网上获取香樟的有关信息。

python,是一种面向对象的解释型计算机程序设计语言, python是纯粹的自由软件源代码和解释器cpython遵循gpl(gnugeneral public license)协议。python语法简洁清晰,特色之一是强制用空白符(white space)作为语句缩进。

python具有丰富和强大的库。它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是c/c )很轻松地联结在一起。常见的一种应用情形是,使用python快速生成程序的原型(有时甚至是程序的最终界面),然后对其中有特别要求的部分,用更合适的语言改写,比如3d游戏中的图形渲染模块,性能要求特别高,就可以用c/c 重写,而后封装为python可以调用的扩展类库。需要注意的是在使用扩展类库时可能需要考虑平台问题,某些可能不提供跨平台的实现。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。