文 献 综 述
【摘要】本文主要介绍了情感分类研究相关的基本概念,对当前情感分类的基本方法进行了总结,在此基础上对现有的方法进行分析,并提出了基于混合网络的情感分类方法作为本课题的研究对象。
【关键词】 文本情感分类;BLSTM; 卷积;
随着互联网的蓬勃发展,社交网络以及网上购物等活动在人们生活中愈发重要。到 2016 年 12 月底,中国网民已达 7.31 亿,手机网民达 6.95 亿,互联网普及率达到 53.2%。人们不仅能从互联网获得信息,更能在互联网上发表意见,表达情感。无论是用户在社交网络如微博,朋友圈,各大博客,论坛发布动态,或者是在淘宝,京东等网上购物平台购买商品发表评论,都产生了大量的文本信息,这些形形色色的文本信息无不包含了用户的各种情感色彩和情感倾向。通过这些带有情感的文字,更多的用户就能了解大众对于某一事件的主观看法。随着互联网发展,越来越多的用户选择在网上分享自己的观点,从而使得这类信息数量日益膨胀,仅仅依靠人工是难以对这些信息进行分析,所以,文本情感分类算法的设计势在必行。
文本情感分析是自然语言处理研究领域中的热点研究方向,又称评论挖掘或者意见挖掘。最早在1997年由Hatzivassiloglou和 McKeown[8] 提出。是指用自然语言处理,文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。涉及到人工智能、机器学习、数据挖掘、信息检索、自然语言处理等多个研究领域。按照应用领域不同可以划分成基于产品评论的文本情感分析和基于新闻评论的文本情感分析。按照文本的不同粒度,又可以分成词语级,句子级,篇章级和海量数据级。
文本情感分析的发展已有20余年时间。早期的研究包括规则 词典的方法和基于统计的机器学习方法。规则 词典方法一般基于情感资源和句式模板。Kim等[9]人利用情感词典计算每个词汇的情感得分,从而量化文本的情感倾向。Turney[10]通过构造固定的句式模板来分析文本情感。Wang等[11]用二元语法(bigram)为基本特征设计了NBSVM分类器。该分类器整合了朴素贝叶斯(NB)和支持向量机(SVM),在多个数据集上都取得了不错的效果。这些方法通过设计好模板和整合特征已经取得了不错的效果。但是这些特性与模板需要人工进行设计,设计好的特征往往没有普遍的适应性。一旦领域变化,对应的特征模板就需要发生相应的变化。为了避免大量的人工工作使得这些工作走向自动化。人们开始研究自动学习生成特征模板的深度学习的方法。深度学习方法基于神经网络,是一种端到端(end-to-end)的解决方案, 以词向量(word embedding)作为输入, 自动抽象出高级特征并学习到对应的参数, 最后得到输出。
机器学习的关键在于选取合适的文本特征。所以后续的很多研究都集中在了特征的选取上。卷积神经网络(CNN)在小窗口的情感信息特征提取中表现良好。Kim[12]使用单层CNN对文本进行建模。Kalchbrenner等[13]则是使用了带有多层卷积和更加复杂的池化操作的CNN结构。而循环神经网络(RNN)模型则是在长距离的情感信息特征提取中应用。Longpre等[14]研究长短期记忆网络(LSTM)及其变体在完本情感建模时候的作用。Socher等[15]提出使用递归神经网络(RecNN)以达到对文本更加细致的分析。RecNN依赖于树的结构, 一般使用短语结构树(Constituency Tree)或句法依存树 (dependency tree),它关注如何结合子节点的信息, 来得到父节点的信息。Socher 等[16,17]经过改进, 提出矩阵–向量递归神经网络(matrix-vector recursive neural network, MV-RNN)和张量递归神经网络(recursive neural tensor network, RNTN)模型, 并证明了该模型的有效性。除此之外, 也有研究关注如何使用更好的词向量来改进效果。Tang 等[18]在Collobert等[19]模型的基础上添加了情感信息, 使得学习出的词向量包含一定的情感知识, 实验证明了这种词向量在情感分类任务上的有效性。
在中文语料上, 李勇敢等[2]研制了一个评测系统:通过构建多级词库、制定成词规则、开展串频统计等给出一种基于规则和统计的新词识别方法,在情感词和评价对象的依存模式的基础上给出基于词语特征的观点句识别算法。张仰森等[3]针对微博文本的特点,提出了一种级联式微博情感分类器模型,该模型首先构建基于情感词典和新浪表情符号词典的微博情感初级分类模型;然后根据基准词构建基于类别倾向相似度的二级分类模型,对初级模型未能确定情感类别的微博进 行再次分类,并对初级模型的词典进行更新;最后采用朴素贝叶斯分类器构建三级分类模型,对以上还未确定情感类别的微博进行三级分类。杜慧等[6]在Word2vec的基础上, 对其进行情感调整,得到同时考虑语义和情感倾向的词向量。对于一篇输入文本,基于情感词向量建立文本的特征表示,采用机器学习的方法对文本进行情感分类。该方法与基于词、 n-gram 及原始Word2vec词向量构建文本表示的方法相比,情感分类准确率更高、性能和稳定性更好。而罗帆等[4]提出了一种结合RNN和 CNN 的层次化网络(Hierarchical RNN-CNN , H-RNN-CNN)模型来处理长文本。将文本按句子进行划分, 引入句子层作为中间层, 以改善文本过长带来的信息丢失等问题。模型使用循环神经网络建模词语序列和句子序列, 并通过卷积神经网络识别跨语句的信息。探讨循环神经网络变种和不同输入向量对模型的影响。实验结果表明, 所提方法在多类数据集上都取得良好的效果。
Yanping Yin[7]提出了基于词嵌入和支持向量机的情感分类方法。使用文字嵌入来表示文档,使得文档的最终表示与文字嵌入的维度一致。通过降低文档表示维度,提高文档情感分类的准确性。Wei Jiang[1]提出用于文本分类的神经网络结构BLSTM包括BLSTM隐藏状态的前向队列和后向队列串联组成双通道,平行非对称卷积来从双通道中提取多粒度n-gram短语的非线性特征值,全局最大池化用来把可变长文本转化为定长向量。在四个文本分类任务中实现出极好的结果。
【参考文献】
