1. 研究目的与意义
1.香樟的重要性
香樟是樟目、樟科、樟属常绿大乔木,高可达30米,直径可达3米,树冠广卵形;树冠广展,枝叶茂密,气势雄伟,是优良的绿化树、行道树及庭荫树。产中国南方及西南各省区。越南、朝鲜、日本也有分布,其他各国常有引种栽培。植物全体均有樟脑香气,可提制樟脑和提取樟油。木材坚硬美观,宜制家具、箱子。香樟树对氯气、二氧化硫、臭氧及氟气等有害气体具有抗性,能驱蚊蝇,能耐短期水淹,是生产樟脑的主要原料。材质上乘,是制造家具的好材料。
2.香樟的经济价值
2. 国内外研究现状分析
对于网络爬虫的研究从上世纪九十年代就开始了,目前爬虫技术已经趋见成熟,网络爬虫是搜索引擎的重要组成部分。网络上比较著名的开源爬虫包括nutch,larbin,heritrix。网络爬虫最重要的是网页搜索策略(广度优先和最佳度优先)和网页分析策略(基于网络拓扑的分析算法和基于网页内容的网页分析算法)。
国内外流行的爬虫技术相当多,有基于python的,也有基于c#的,很多人由于系统集成开发和跨平台的需要倾向于java。爬虫组件被设计创造出来,大部分情况是用于自动化测试的。基于socket的httpclient功能简单,性能强大,特别是在高并发的情况下,而被大家所青睐,特别是搜索引擎中,如果抓取静态页面,httpclient非常适合。此外主流的浏览器都提供了相应的抓取支持,selenium可谓是一个集大成者,包含了上述的所有组件,以webdriver的形式,适配各种爬虫组件,你可以用它操控浏览器自动抓取,当然,并发和性能的问题依然存在。
爬虫开发的主要问题是性能和反封锁。很多时候,采用高并发高频率抓取数据是可行的,前提是目标站点没有采用任何反爬措施(访问频率限制、防火墙、验证码);更多时候,有价值的信息,一定伴随着严格的反爬措施,我们需要针对具体的情况,采用对应的措施,以最大限度的完成爬虫爬取任务。
3. 研究的基本内容与计划
研究内容:
1.利用爬虫技术在线搜索香樟的相关信息
2.进行数据解析与处理
3.利用MySQL存储香樟的相关数据
4.如何具备更强的抓取能力。
5.如何分辨重复的网页内容。
6.如何确定主题相关性。
进度计划:
序号 | 项目 | 时间 | 阶段成果 |
1 | 背景研究 | 2周左右 | 文献综述,开题报告 |
2 | 熟悉阅读国内外相关论文 | 2周左右 | 开发计划及技术方案 |
3 | 学习Python相关知识 | 2周左右 | 系统基础框架的搭建 |
4 | 需求分析 | 1周左右 | 需求概设文档 |
5 | 软件研发 | 3周左右 | 测试版本 |
6 | 计算测试结果及完善 | 2周左右 | 正式系统 |
7 | 撰写论文 | 2周左右 | 毕业论文 |
8 | 准备答辩材料,答辩 | 1周左右 | 答辩演示文稿 |
4. 研究创新点
爬虫技术:python用作搜索引擎能够极大简化在互联网上获取香樟的有关信息。
python,是一种面向对象的解释型计算机程序设计语言, python是纯粹的自由软件源代码和解释器cpython遵循gpl(gnugeneral public license)协议。python语法简洁清晰,特色之一是强制用空白符(white space)作为语句缩进。
python具有丰富和强大的库。它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是c/c )很轻松地联结在一起。常见的一种应用情形是,使用python快速生成程序的原型(有时甚至是程序的最终界面),然后对其中有特别要求的部分,用更合适的语言改写,比如3d游戏中的图形渲染模块,性能要求特别高,就可以用c/c 重写,而后封装为python可以调用的扩展类库。需要注意的是在使用扩展类库时可能需要考虑平台问题,某些可能不提供跨平台的实现。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。