基于文本数据挖掘的外来森林病虫害热点研究开题报告

 2021-08-08 02:08

1. 研究目的与意义

研究目的:挖掘森林病虫害致病机理、发生、发展规律进行外来森林病虫害空间发生规律的数据挖掘以期总结出森林病虫害文本信息数据挖掘的一般方法和步骤。

研究意义:为森林保护科研成果的开发利用提供基础。

2. 国内外研究现状分析

国外对于文本挖掘的研究开展较早,50年代末,H.P.Luhn在这一领域进行了开创性的研究,提出了词频统计思想用于自动分类。1960年,Maron[2]发表了关于自动分类的第一篇论文,随后,众多学者在这一领域进行了卓有成效的研究工作。研究主要有围绕文本的挖掘模型、文本特征抽取与文本中间表示、文本挖掘算法(如关联规则抽取、语义关系挖掘、文本聚类与主题分析、趋势分析)文本挖掘工具等,其中Mothe J等首次将KDD中的知识发现模型运用于KDT。

我国学术界正式引入文本挖掘的概念并开展针对中文的文本挖掘研究是从最近几年才开始的。从公开发表的有代表性的研究成果来看,目前我国文本挖掘研究还处在消化吸收国外相关的理论和技术与小规模实验阶段,还存在如下不足和问题:1)没有形成完整的适合中文信息处理的文本挖掘理论与技术框架。目前的中文文本挖掘研究只是在某些方面和某些狭窄的应用领域展开。在技术手段方面主要是借用国外针对英文语料的挖掘技术,没有针对汉语本身的特点,没有充分利用当前的中文信息处理与分析技术来构建针对中文文本的文本挖掘模型,限制了中文文本挖掘的进一步发展。2)中文文本的特征提取与表示大多数采用词袋法,词袋法即提取文本高频词构成特征向量来表达文本特征。这样忽略了词在文本(句子)中担当的语法和语义角色,同样也忽略了词与词之间的顺序,致使大量有用信息丢失。而且用词袋法处理真实中文文本数据时,特征向量的维数往往是高维的,这将使挖掘算法效率大大降低。3)知识挖掘的种类和深度有限,一般只是进行文本的分类、聚类或者信息抽取,而且针对开放语料的实验结果也不是很理想。当然,现在文本挖掘涉及的领域较过去而言拓宽了不少,在生物医药、金融商业、信息检索、机械自动化、情报分析、生命科学等等领域慢慢拓展开来,但仍是不够,至少在研究森林病虫害方面很少,在中国知网里搜索发现国内没有这方面的研究。

3. 研究的基本内容与计划

研究内容:挖掘森林病虫害致病机理、发生、发展规律是制定森林保护策略的前提。收集松材线虫、松突圆蚧、美国白蛾等主要外来森林病虫害研究资料,将其归类、筛选,转换为统一的英文文本文件格式,代入clementine 12.0 文本挖掘工具箱,进行外来森林病虫害空间发生规律的数据挖掘,并以图形、报表的形式输出,以期总结出森林病虫害文本信息数据挖掘的一般方法和步骤,从而为森林保护科研成果的开发利用提供基础。

研究计划:(1)2011.03.10~2011.03.31:收集论文所需的数据及资料;

(2)2011.04.01~11.04.30:起草论文,完成论文的初稿;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

运用文本挖掘的方法来进行森林病虫害空间发生规律的提取,寻找出森林病虫害调查的更简单精确的方法,从而推广到其他易发生地区,以便加强文档管理、灾情控制与防治。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。