1. 研究目的与意义、国内外研究现状(文献综述)
1意义
中国水稻总产量占全球 30% ,是世界第二大的水稻种植国家[1]。植物表型是植物在一定环境下表现的可观察形态特征植物表型指植物在不同环境以及生长阶段中所体现出的可以被观察到的外在以及内在的特征。随着近年来水稻的表型组学研究深入,出现了大量的水稻表型组学相关的研究 [2]。目前,水稻表型组学研究对于水稻分子育种和实际生产等领域具有重要的指导作用,可视化的知识图谱越来越多获得研究者的重视。
知识图谱技术能够把水稻表型组学相关的数据表达为可视化的更贴近人类认知的形式[3]。为了尽可能及时准确地使得知识图谱包含更多的知识领域,实体关系抽取技术作为一种能够根据句子语义信息自动获取实体间的关系的方法,是构建水稻表型组学知识图谱的重要步骤,实体关系抽取的正确率对于知识图谱的质量影响较大。近年来,深度学习模型被越来越广泛的应用于处理关系抽取任务中,在处理此类任务中体现出了优异的性能 [4]。
2. 研究的基本内容和问题
1研究目标
(1)对于水稻表型组学数据进行预处理。从水稻数据库中使用scrapy等爬虫框架进行数据的爬取,随后使用分词工具进行中文分析任务,方便后续进行文本特征提取。
(2)采用词向量的方式表示文本数据。使用word2vec模型来对数据集进行训练,从而获得文本表示。
3. 研究的方法与方案
1研究方法
(1) 通过查阅书籍资料,对于循环神经网络经典模型原理以及长短时记忆网络模型的原理进行学习。
(2) 学习scrapy框架爬取水稻表型组学数据集,学习使用中文分词工具进行预处理。
4. 研究创新点
特色或创新之处
(1)研究用于中文水稻表型组学数据集上的关系抽取任务。
(2)在处理水稻知识图谱的构建过程中使用长短时记忆网络模型,使得网络对序列中较长时间之前的输入有了记忆的能力。
5. 研究计划与进展
研究计划及预期进展
2019年12月15日-12月30日:选定论文题目,python语言的学习;
2019年12月30日- 01月10日:上网查找资料,准备深度学习相关资料及论文;
