电影评论基于词汇算法的情感分析外文翻译资料

 2022-12-07 11:12

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


电影评论基于词汇算法的情感分析

Deebha Mumtaz, Bindiya Ahuja

摘要:随着互联网和网络技术的发展,网络用户越来越多,同时扩大了用户数据的生成。 各种博客,社交网站,微博和评论论坛提供了丰富的挖掘意见数据来源。 情感分析,也称为意见挖掘,是一种自然语言处理技术用于提取一般群众对某一特定的感觉或态度主题或产品。 本研究的目的是对电影评论数据进行情感分析。 我们提出了Senti-lexical算法,将审查的极性发现为正,负或中立。 我们有也提出了一种处理对评论有否定作用的词语的方法,同时对表情符号的作用也做同样的处理。

关键词:情感分析,极性、意见挖掘

1.介绍

每当一个人必须作出选择时,决策程序的重要部分就是通过他们的经验来了解别人对此的态度了解别人对此的态度。人们可以从朋友,亲戚或外地的专家那里获得建议。然而,由于在线审查信息的产生有巨大的发展,我们现在已经开始考虑互联网作为意见评估的重要来源。现在,我们在购买之前先查看产品的评论,评分,喜欢和客户评论。无论是客户对商品的评级,政治地位或最新社会经济倾向的人,意见挖掘在大多数领域中都发现其效用。用户 今天的主要挑战之一是审查数据如此巨大,使得人们对于累积结果的可视化几乎不切实际。研究发现,由于不同网站的过滤等分析和清理意见网站上的信息是一件可怕的工作 [25]。情感分析或意见挖掘是一种处理自然语言的技术,以评估其位置,敏感度或人们对一个特定的主题,商品或主题的评估。它也被称为主观性分析或意见挖掘[1]

客户对在线建议的需求和依赖是企业巨头、政治家、个人和研究人员相关领域的利益突然增加背后的主要原因[2]。分析结果可以进一步运用于客户选择评估、产品质量改进、领域数据库、市场调查、广告宣传、推荐系统和人工智能研究[3]。在本文中,我们描述了意见挖掘的范围、级别和类型。电影评论是一个很好的来源为了分析,他们清楚地表达了各自的意见。电影Bo Pang等人已经使用了评论[4]训练一种检测情感的算法。在下一节中描述情感分析的分类和层级,接着我们讨论一下分析资料的方法和收集资源;第四部分讨论一系列评估方法及其相关问题;第六部分,讨论了提出的方法以及算法。最后,分析讨论结果和展望。

2.情感分析的层次与类型

根据极性概念,一般来说一种意见可分为三大类型:正面、负面或中性。 一个积极的意见是指包含积极情感词的意见,例如:好、优秀、美丽等;同样,一个意见可以是负面的,如果它包含悲观的情感词,如仇恨,生气,坏等。除了这些词,还有否定词如不、无、没有,结合关键词会使极性情绪反转[5]。 重要的是要注意这样的词语的存在,他们可以产生巨大的影响最终情感分析结果[6]

情感分析层次:

A.文章级分析:在这个级别,整个文章被考虑在内,由此产生的意见可分为中性、正面或负面[7]。前提是使每个文章都表达出一个意见持有人对某一特定主题的看法。在论坛和博客,文章级分析具有同一文章中意见可能含有不同极性的情感的特征 [9]

B.句子层次挖掘:在这个层次上,目标是探索句子并获得它的情感方向。有两个目标第一,

确定句子是客观的还是主观。一个客观的陈述就是一个这是完全公正的。它不包含以前的经历或喜好的表达[8]。主观陈述是一个是评价人的陈述,它经常反映出意见持有者的意见或看法。 [10][11]

C.产品级分析:上面提到的层次没有准确地得出用户什么是喜欢的或不喜欢某个实体。 产品级别分析在于执行精细分析,而不是分析语言结构,它在于意见本身[9]的评估。通过遵循与之相关的目标,识别和获取的分析对象的特点,最终基于特征建立情感倾向意见总结 [12]

3.数据的来源和分析工具

用户生成的分析数据构成了基础情感分析。 系统的最终结果与输入数据质量成比例。

来源是提供分析数据。各种微博,博客,网站和社交网站提供了大量数据挖掘[9]。推文、评论、帖子、分享、喜欢、不喜欢、入站链接和现场参与是公众感知的宝贵指标。

A.博客:期刊或讨论网站在线提供包含多种文章或者社论被称为博客[25]。例子Tumblr和Wordpress是博客。

B.社交网站:允许人们做一个帐户,添加朋友,分享图片和帖子,并访问其他同事的简介的网站被称为社交网站[13]。 Google 、Sparks、Facebook是一些社交网站,Pinterest,Twitter,

和Friend Feed都是微博网站。

C.评论网站:烂番茄,亚马逊,Flipkart是电子商务网站,给人一个平台来表达自己的意见 [14]。这些网站可以对产品进行评分、评论,发帖子或展示喜欢的人数。

一些可用于情感分析软件分析工具是:

A. WEKA:当数据已经可用时并且每个数据点都具有特征向量WEKA可用于聚类。同时也可以建立数据输出可用分类[15]

B.评论Seer工具:朴素贝叶斯技术是从事学习和实现意见取向取决于给定的功能[14],用于线上分析、比较和评估现在的评论。[17]

D. StanfordCoreNLP:对于评论类别、句法分析、共同参考或文本中的命名实体,StanfordCoreNLP是最好的工具。

E. Google Analytics(分析):它用于创建自定义报告,注释保持不间断营销和网页设计行动记录,以及高级细分市场访客数据,并获得他们的在线体验宝贵见解。[16][25]

Facebook Insights, Red Opal, Google Analytics,Hootsuite, Tweetstats, Marketing Grader, Twitrratr,

Social mention, and Sentimetrics是其他几个情感分析工具[18]

4.情感分析技术

情感分析是一个蓬勃发展的研究课题。意见挖掘技术可以分类,如:

4.1机器学习方法

机器学习是计算机科学的一个分支,通过给电子机器学习的能力并通过设定给定的预测来理解数据,但没有被明确编程[25]。一些流行的分类算法有:

A.朴素贝叶斯分类器是基于贝叶斯定理。它假定a的值具体功能独立于该值的任何其他功能[25]。这个分类器是直接,简单和高效对于大型数据集,没有任何复杂的迭代参数估计[19]

B.最大熵是一个分类器基于的概率分布数据。主要规则是当不信息是已知的分配应具有最大熵[20]标记的培训数据提供了限制分发并找出哪里有最小不均匀。

C.支持向量机被监督技术与学习算法观察为用于分类的数据提供了培训实例,即明确标示为属于其中之一类型[21]。 SVM训练算法开发分配唯一的系统每个小组的例子,使其成为一个非概率性的,二进制线性分类器[22][25]

机器学习方法的主要缺点是难以获得训练数据集。 处理这个问题的方法是自动执行产生一个训练集,但是这些训练集会产生不准确和不切实际的结果[8]

4.2基于词汇的方法

在基于词典的方法中,作为替代培训数据,预建情感字典或使用已有词典[24]。这是基于一句话的最终方向等于字的单个极性的总和[20]这个假设的。在情感分析中需要注意评论长度,使用否定,语法错误等问题。

建立意见词汇的方法论:

A.手工方法:这是一个漫长的劳动密集和详尽的技术建立一个词典因此与之结合以下两种方法之一。

B.基于词典的方法:此方法最初是已知极性一个基本的种子组

的词,是手动组装然后,程序运行收集同义词和反义词这些话因此扩大字典。在每次迭代中,新词都是添加到字典,直到没有更多的新可以找到文字。一旦第一个循环完成后,手动检查列表清理。即使方法似乎简单,这个方法的关键限制是它一般产生于独立于背景的单词[25]

C.基于语料库的方法:在这种方法中,构建域特定词典。 这样词典可以通过两种方法构建。

通用的主要种子列表情感词生成然后不同的意见词与他们赋予相同的取向[24]。第二种方法是转换一般用途字典到语料库字典用字段语料库发表意见在领域中挖掘应用程序。 但从同一个域中的字可以为负面情感,而和一个上下文另联系发现一个词的正面情感过程太复杂了[23]。机器学习方法比准确基于词法的方法,但它们是时间的他们的表现很大程度上取决于训练数据集。 另一方面,词典方法比较快,直接简单编程。 它们适用于简单的数据集正面与负面之间有明显的差异定向句子。

5.情感分析的关键挑战和研究问题

情感分析是一个迅速发展的科学,它在各种商业和研究领域应用中有很多应用。意见挖掘的关键挑战和问题是:

A.讽刺句子:蔑视或讽刺具有潜在意义的句子感觉难以理解,因此可能会导致误解。

B.意见伪造:某些组织和公司受益于事实用户的身份在网络上是匿名的。他们放置垃圾评论来诋毁他人产品或认可其商品。

C.随着时间的推移波动:人们的意见或一个主题的情绪可以随着时间而发展。因此分析的时间也应该考虑执行。

D.拼写变异:因为自发性,休闲环境和局限性文本长度,语法规则和拼写是很少被人照顾。于是导致缩写,拼写错误,分类延长和强调大写[25]

E.多语言内容:用户经常张贴他们的内容多种语言的视图,如中文,阿拉伯语和印地语等

进一步使挖掘过程复杂化。

6.建议的方法

我们提出一个基于词汇技术的情感分析系统, 我们使用电影评论域名进行分析,并从中获得这些相关推特文章。 如此收集的推文包含一个积极,中立和负面的评论方向。 除了评论,我们还包括符号积极,消极和否定的话和表情符号。 在第一步,预处理是承担和句子被过滤掉以去除不想要的单词、标签、标点符号、数字等。然后对精细数据库进行评估使用词汇分析。 句子被分解进入词汇,与列表进行比较积极和消极的条件。根据一定规则,计算评估的得分。 如果句子包含一个否定词,如不,不,不是等那么最终的得分值是相反的,需要定向翻转。 我们已经开发了这个程序,RStudio是一个免费的开放源码集成开发环境(IDE)和R语言,图形和统计计算。系统提出的主要步骤如下:

1)输入电影 - 电影的名称评估将被收购。

2)检索评论 - 电影评论是从Twitter获得,但未经过滤形成。

3)数据预处理 - 评论是原始的并且未过滤,这些可能包括不必要的和非舆论的话、标题、URL、停止字等处理在分析前至关重要。

4)极性关键词 - 积极的和否定关键字,积极和消极表情和否定关键词是提供分析。

5)应用Sent-Lexicon算法 - 在此步骤中,预处理后的数据用Senti-Lexicon算法的帮助。

6)情绪方向计算 - 评论分为正面,负面或基于Score值的中立。

7)分析结果 - 分析结果为绘制为直方图。

7.结果与评估

在这项研究中,我们进行了意见挖掘电影评论采用Senti-lexical算法。我们使用RStudio工具和R语言任务。搜索电影的推特评论收集了约300条推文。他们是最初进行预处理,然后分析得分。当电影评论被分析使用算法,发现大约有50个tweet评论得分中立,大概200个tweets得分正面和大约50评论得分否定。进一步的积极和消极的评论描绘了从-7到 4的不同强度的得分。一个混淆矩阵是使用的矩阵以说明分类模型的表现在一组实验数据中为其实际值可用。在矩阵的帮助下,我们也发现结果的准确性约70%,这是非常好的给予简单算法的方法。精准和还发现回忆值是最佳的。最后得到的直方图中,x轴代表得分的评论,y轴代表频率的评分。

8.结论与未来的工作

本文介绍了在Twitter中使用的电影评论情感分析Senti-lexicon算法。 意见的主要目的

挖掘正在分类,识别和获取给定数据的意见极性。 在本文中,我们提出了一种Senti-lexicon算法并执行分析资料的情感分析。证明与其他机器学习相比,词汇算法算法是简单,通用和可行的。在未来,我们需要加大力度性能的算法,面对挑战如存在讽刺,盲目否定,复杂句子,垃圾邮件检测,伪造评论,敏感度随着时间的推移,处理隐藏的功能可能会被占用作为研究领域。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[25083],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。