1. 研究目的与意义、国内外研究现状(文献综述)
一、课题的研究意义
随着互联网在社会生活中的大规模应用,网络上的各式信息正在以指数级数量爆炸增长,因特网已成为一个规模庞大的信息资源数据库。在海量的文本信息资源中,获取最有效最准确的信息是信息处理的基础,而文本分类能够更快更好地帮助人们整合组织管理这些海量的文本信息,快速而准确地获取所需信息,实现个性化的信息收集。如何从这些浩瀚的文本信息中发现有价值的信息资源是信息处理的一大目标。基于机器学习的中文文本分类系统能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,因此得到日益广泛的关注,成为信息处理领域最重要的研究方向之一【1】。
二、国内外的研究进展
2. 研究的基本内容和问题
一、研究目标
利用跨域情感分类的方法对wos(web of science,以下均简称wos)的多义术语建立训练集,并通过层次注意力转移网络(hatn)进行特征提取,用于对训练文本的训练和分类。当出现一篇新的含有歧义的专业英文学术术语的文献时,就可以预测这个专业术语属于哪一具体领域,从而达到术语消歧,提高信息检索的正确率和召回率。
二、研究内容
3. 研究的方法与方案
一、研究方法
本课题采用基于word2vec词向量表示的跨域条件下的层次注意力转移网络(hatn)机制方法,对wos数据库中存在的少量一词多义术语进行词语的消歧研究,以便更好地按照学术文献中的关键字对文献进行自动识别和划分,帮助提高学术文献的检索准确性。
二、技术路线
4. 研究创新点
本课题的模型中使用了多处注意力转移网络的创新点,如下
(1)word attention
语境词对句子的语义意义贡献不大,特别是当我们专注于特定的任务时,例如情感分类。因此,我们引入了单词层次注意每个句子的加权单词,并输出所有单词信息的加权和。
5. 研究计划与进展
一、研究计划2020.01-2020.02:数据的收集及处理。
在导师的帮助下获得在web of science中爬取的各个领域的论文数据,使用python和mysql对数据进行分词、去重、非空等处理,并分析出含有歧义的学术术语,以学术术语作为检索词检索其所在的文献数据。
2020.02-2020.04:参考杨强老师的hatn模型进行改进、运行,使其适用于训练wos数据,分析预测歧义术语的类别。
