Twitter Rumor Detection in the Health Domain
Abstract
In the last years social networks have emerged as a critical mean for information spreading bringing along several advantages. At the same time, unverified and instrumentally relevant information statements in circulation, named as rumours, are becoming a potential threat to the society. For this reason, although the identification in social microblogs of which topic is a rumour has been studied in several works, there is the need to detect if a post is either a rumor or not. In this paper we cope with this last challenge presenting a novel rumour detection system that leverages on newly designed features, including influence potential and network characteristics measures. We tested our approach on a real dataset composed of health-related posts collected from Twitter microblog. We observe promising results, as the system is able to correctly detect about 90% of rumours, with acceptable levels of precision.
Key words: Health rumour detection, Social microblog, Twitter, Network- and User-based Features
Introduction
Since their birth social networks have revealed themselves as a new and powerful mean for information and social behaviors spread. In the latest years they have gained a critical role in this scenario bringing along several advantages. In particular, social microblogs have emerged as the most used social network services, allowing users to be constantly connected and to stay abreast with ongoing events. Among all the positive aspects, there are also some downsides: as good and reliable information spreads, also rumors and false news easily reach a wide range of people in short time, becoming a potential threat to the society. For instance, in 2013 the official Twitter account of the Associated Press was hacked and it sent out a rumor about the explosion of two bombs at the White House and the US President being injured in the attack. This news caused deep panic in such a broad scale that ended with a dramatic, though brief, crash of the stock market. Along with this event, other similar episodes of misinformation causing disasters can be found in many domains, such as emergency situation management, health and wellness, politics, etc.
Unreliable and treacherous news is generally referred to as rumor. Although sometimes rumors are considered as constituting information which is ultimately deemed false, this definition leaves out all those newsworthy stories that have the same level of uncertainty and potential threat at a first time spread and that only in the end reveal themselves to be true. The most used and comprehensive definition is the one that considers rumors as unverified and instrumentally relevant information statements in circulation.
Straightforwardly, the social microblogs available online could be affected by rumors. Twitter is a social microblog that counts millions of users from all over the world, facilitating real-time propagation of information to a large group of people and allowing users to carry out different actions, such as posting 140-character-long messages (tweets), replying to such posts (replies), or forwarding them (reposts or retweets). With these actions a user can start or participate a conversation, which therefore consists of a set of tweets, replies, and retweets. Furthermore, a set of conversations can be grouped into a topic by keywords. Twitter is therefore an ideal environment for the diffusion of breaking-news directly from the news source and the geographical location of events. Online social microblogs can be obviously affected by rumors. The possibility of recognizing them could be a powerful mean to prevent misinformation spreading, along with the possible consequences that this could cause.
For these reasons rumor detection in social media is an issue in high demand that has been only partially investigated in the literature. On the one side, there exist three papers that identify if a topic is affected by rumors, but they do not determine which posts are rumors or not. On the other side, Wu et al. (2015) presented an approach for rumor detection at conversation level. Hence, to the best of our knowledge, rumor detection within a specific topic and within a conversation is still a point deserving further research efforts, since, in many cases, there is the need to identify which posts are reliable on a desired argument. In this respect, this paper aims at filling this gap and it presents a novel rumor detection system for Twitter focusing on topic-specific rumors, namely the health-related topic. Indeed, among all the information domains, this field is of particular interest for two main reasons: first, the literature has shown that rumors concentrate in some specific topics such as the health, and, second, nowadays people often look for health knowledge and advices on online services, but not all these resources provide accurate or reliable information. Hence, it is intuitive why discovering rumors at a smallest granularity could be of great value in this field. We explore two levels of features, named as user level and network level, respectively. For each level, we study three types of features including influence potential, personal interest and network characteristics. In particular, besides widely used features such as user statistics and sentiment of tweets, we also develop new features including the likelihood that a tweet is retweeted and the likelihood of a URL to be shared, conversation size, fraction of userrsquo;s followers of root, and fraction of tweets with URLs in a conversation. The use of general features unrelated to the particular topic considered would allow to develop an approach that could be employed in the future in other analyses on different specific domains. We also investigate the discrimination power
剩余内容已隐藏,支付完成后下载完整资料
健康领域的推特谣言检测
摘要
在过去几年中,社交网络已经成为信息传播的主要方式。与此同时,流传的无法发现和与工具相关的信息声明被称为谣言,其正在成为对社会的潜在威胁。出于这个原因,虽然已经有几个课题对社交微博中主题的谣言识别进行了研究,但是仍需要检测一个帖子是否是谣言。在本文中,我们应对这一最新挑战,提出了一种新颖的谣言检测系统,该系统利用了新设计的功能,包括影响潜力和网络特征测量。我们在由推特收集的与健康相关的帖子组成的真实数据集上测试了我们的方法。我们观察到有效的结果,因为该系统能够正确地检测大约90%的谣言,具有可接受的精确度。
关键词:健康谣言检测,社交微博,推特,基于网络和用户的功能
- 介绍
社交网络自诞生之日起就成为信息传播和社会行为传播的一种新的强大途径。近年来,它们在这种情况下发挥了关键作用并带来了一些优势。特别是,社交微博已经成为使用最广泛的社交网络服务,用户可以不断地与他人联系,并随时了解正在发生的事件。然而在积极的方面之外,也有一些缺点:随着广泛的信息传播,谣言和假消息很容易在短时间内迅速传播,成为一个潜在的社会威胁。例如,2013年,美联社的官方推特账号被黑客入侵,并传出白宫发生两起爆炸案,美国总统在袭击中受伤的谣言。这一消息在广泛的范围内引起了深深的恐慌,并以股市虽然短暂但戏剧性的崩溃而告终。随着这一事件的发生,在许多领域,如紧急情况管理、健康和福利、政治等,也可以发现类似的错误信息引发灾难的事件。
不可靠和欺骗的消息通常被称为谣言。虽然有时谣言被认为是虚构信息,最终被认为是假的,但这个定义忽略了所有有新闻价值的故事,这些故事在第一次传播时具有相同程度的不确定性和潜在威胁,而且最终只能证明它们是真实的。最常用、最全面的定义是将谣言视为未经证实的、具有工具价值的流通信息陈述。
坦率地说,网络上的社交微博可能会受到谣言的影响。推特是一个社交网络平台,其内容来自世界各地数以百万计的用户,它允许用户执行不同的动作,如发布140字长的信息(微博),回复这样的帖子(回复),或者转发。通过这些操作,用户可以开始或参与对话,因此对话由一组推文、回复和转推组成。此外,一组对话可以按关键词分组为一个主题。因此,推特是一个理想的环境,可以直接从新闻来源和事件的地理位置传播突发新闻。网络社交微博显然会受到谣言的影响。认识到它们的可能性可能是防止错误信息传播的一个强有力的手段,以及这可能造成的后果。
基于这些原因,社交媒体中的谣言检测是一个需求量很大的问题,在文献中也只是进行了部分的研究。一方面,有三篇论文确定一个话题是否受到谣言的影响,但是他们并不确定哪些帖子是谣言,哪些不是。另一方面,Wu等人(2015)提出了一种会话级谣言检测方法。因此,就我们所知,在一个特定的话题和对话中发现谣言仍然是一个值得进一步研究的问题,因为在很多情况下,有必要确定哪些帖子是可靠的。在这方面,本文旨在填补这一空白,提出了一种针对特定话题的推特谣言检测系统,即健康相关话题。事实上,在所有的信息领域,这个领域是特别有价值的,主要有两个原因:第一,文献表明,谣言集中在某些特定主题),比如健康,第二,现在人们经常寻找健康知识和建议在线服务,但不是所有这些资源提供准确或可靠的信息。因此,直觉告诉我们,在最小粒度上发现谣言在这个领域有很大的价值。我们将探讨两个级别的特性,分别称为用户级和网络级。对于每个层次,我们研究了三种类型的特征,包括影响力潜力、个人兴趣和网络特征。特别是,除了广泛使用的特性,比如用户数据和情绪的推文,我们也研究了新特性包括一个微博转发的可能性和共享一个URL的可能性、会话大小、一部分用户的根的追随者、分数与URL的推文的谈话。使用与考虑的特定主题无关的一般特性将使我们能够发展出一种方法,这种方法将来可用于对不同具体领域的其他分析。我们还研究了不同分类器对不同特征的识别能力。
综上所述,我们的主要贡献是:(1)我们开发了一个新颖的推特健康相关谣言检测系统,使用了几个新功能;(2)我们的提案是单篇的,不是主题的;(3)利用不同的分类方法,探索不同类型特征的选择,用于谣言检测。(4)我们在真实的推特数据集上验证了该系统以及这些特性,能够正确检测到约90%的谣言。
- 数据集
本课题涉及到对健康领域相关的新闻进行谣言检测,据我们所知,这是一个尚未被研究的特定主题领域。由于这个原因,目前还没有公共数据集可用,因此我们使用关键词#寨卡病毒和#寨卡microcephaly查询推特,这是2016年的主要卫生趋势之一。事实上,世界卫生组织于2016年2月1日宣布寨卡病毒病为国际关注的突发公共卫生事件。我们在2016年4月的2天内检索了497个帖子,在2016年5月的三天内检索了1085个帖子,两个时间段之间有一个间隔。即使这样的时间间隔看起来很短,但这也确保了检索到的新闻结果在网络中的传播是用户对特定新闻的真实兴趣,而不是同质性的。此外,第一次和第二次的之间数量的差距确保数据集包含不同的谣言推特。如果我们只考虑在连续的几天内收集推特,那么收集的数据集可能包含许多重复相同的内容,某种行为倾向会在几天内重复的出现和消失。另外我们认为谣言的传染性没有提供有用的信息,因此抛弃了那些没有产生任何转发或回复的推文,以及那些传播图无法重建的推文。最后收集到的数据集包含709个样本,由两个人工注释器将它们手工标记为三类,即谣言(大约4%的样本)、非谣言(大约30%的样本)和未知类(16%的样本)。每条推文都被加了注解,可能出现的分歧也都通过讨论达成了共识。注释者们将这三个类定义如下:
- 谣言:如第1节所述,谣言是流通中未经证实且没有相关价值的相关信息声明。它表示没有引用的消息,所以无法验证。通常,它在网络中呈现出瞬间的巨大传播,换句话说,就像是一种传染性行为。
- 非谣言:这个类将所有有引用的新闻至少链接到一个官方的认证源,如报纸、医院、大学等。
- 未知:这个类收集所有不能确定为假的新闻例,例如链接到空页的新闻、可能为真但没有引用的新闻、与主题无关的新闻。
数据集分为训练集(90%的样本)和测试集(10%的样本)。假设分类测试描述为伯努利划分,这种划分确保在估计性能时95%置信区间的宽度等于0.1,这是一个合适的数值。
- 方法
图1 谣言检测过程的管道图
我们提出了一个谣言检测系统,其管道图如图1所示。上面的面板描述了训练阶段:首先系统从推特获取数据,然后识别出两个结构层次(以下称为用户层次和网络层次),这两个结构层次需要从推特中提取具有代表性的特征。基于特征评价和特征选择的不相交验证集允许建立学习模型,最后进行训练。为了对一组新的推文进行分类,图1的下面的面板显示了系统利用训练阶段定义的最佳特征集和学习模型来进行测试的流程。
在对下一小节进行推文的结构的初步解析之后,我们将介绍推文的特征提取和评估。
-
- 推特结构
图2 推特结构
图2显示推特结构的表示,该结构可以分为用户级和网络级。
前者识别用户及其状态的特征。这些特征被认为是独立的,在网络中没有另外的关联关系。例如,在这个级别中可以观察到一些属性是单个用户的关注者和关注者的数量,或者与特定帖子相关的感情特征。
后者识别网络中用户之间的交互以及转发和回复给出的相关属性。这两个操作可以用对话图表示,其中每个节点表示一个用户,节点之间的每个链接对应于转推或回复。图2给出两个例子:左边是一个星形的转推图,每个动作都将一个转推(红色节点)连接到它的原始推文(灰色星星)。右边是一个回复图,它的结构更加复杂,原来的帖子有多个中间点(蓝色节点)和多个终点(绿色节点)。会话图的特征可以用于分析信息在网络中的传播情况以及用户的影响属性。
-
- 特征提取
我们把现在功能的集合分成三个不同的组:个人趋势、个人兴趣和网络特征。每一个不同的组包含不同属性的推特,并且每组用户和对应的网络水平可以明显区分开来。感兴趣的读者可以参考补充资料以获得详细的特性定义。
-
-
- 影响潜在措施
-
这些措施描述了以间接或无形的方式产生的影响。
Castillo等人(2011)和Wu等人(2015)介绍了一些用户和网络级别的特性,其中作者建议考虑与他/她的推特帐户相关的所有属性来描述一个用户。因此,我们计算了该用户的关注者和关注者的数量,以及他/她是否是参与对话的另一个用户的关注者,以及他/她的账户的年龄,注册日期和当前日期之间的间隔。我们还考虑了与特定推文相关的特性(链接或问号等的存在)。不过,我们还引入了两个新的用户级特性Prt和Purl。Prt是一条推文被转发的概率,计算方式为该推文(如果是一条转推)除以数据集中的样本总数。Purl为共享URL的概率,它的计算方式为附加URL用作引用源的次数除以数据集中URL的总数。
-
-
- 个人利益衡量
-
从观点和相关情绪的角度理解人们对某一特定新闻的反应是识别谣言的基本步骤。事实上,如果人们相信或不相信某一特定新闻,他们就会传达对该新闻的真实看法。为了从检索到推文中提取这些信息,我们进行了基于词汇的情感分析,考虑到否定上下文的存在,提取出了感知网络的得分,包括一个否定检测阶段。例如,如果状态显示“我不喜欢这条推文”, 因为否定词“不”的存在,“喜欢”这个单词的得分就会从正数变为负数。考虑到所有的否定词都在符号上发生了变化,计算情绪得分时,将推文中每一个关键字的每一次匹配的得分与一个属于词典synset的单词相加。虽然情绪评分可以被直接用作用户级特征,但是考虑到每个会话中所有推文的评分,因此还需要计算网络级特征。
-
-
- 网络特征测度
-
这些特性用于描述使用转推和回复对话构建的传播图的特征。为了确定信息在网络中的传播方式,我们量化了用户的影响程度。为了达到这个目的,我们考虑了最初设想为图论核心地位和知名度的措施,如PageRank,一种网络中的节点,接近中心,一种独立或高效的节点,中间性中心:一种潜在的控制通信点。我们也介绍了其他三个结构性措施:(1)会话大小,即会话中节点的数量,(2)根的跟随者的比例,由对话中作为关注者的用户数量给出,计算方式为根用户除数以会话大小,(3)带有URL的推文部分,计算方式为会话中URL和会话大小的推文数量。
-
- 特征评价与选择
设计度量的评价是特征工程过程中的一个重要步骤,其目的是分析哪些特征信息最丰富,新引入的特征对分类是否有意义。
在不同的特征评价技术中(Huang,2015),我们使用了包装器方法,利用分类算法的性能来比较不同的候选变量集。我们通过评估ROC曲线下面积(AUC)从特征集中去除后的变化情况来分析每一个特征。我们使用AUC是因为它独立于决策阈值,并且不受先验类概率分布的影响。特征的判别能力通过下面的分数来测量:
S(f) = AUCcomplete set minus; AUCleave f out set
其中f是特征集中考虑的描述符,因此S(f)值越大,特征f的判别能力越强。
为了避免任何具体分类算法的偏差,我们使用多个分类器对这样一个属于不同的学习模式进行评估(第五节中列出)。在训练集上以10倍交叉验证进行特征评估,然后通过秩分析来总结结果,计算一个特征相对于其他特征的相对性能。首先,对于使用的每个分类器,我们分别对S(f)的值进行排序,然后根据它在其他变量中的位置为每个变量f分配一个秩。最高的排序是24(分配到最坏的情况对应于最小的判别特征),最低的是1(分配到最好的情况)。每个分类器最终对每个特征的秩求和,然后根据可能的最大值(即最高秩times;分类器个数)对其进行归一化。
特征选择步骤的目的是在所有计算的度量中找到最具代表性的度量。为此,我们首先对上述级别设置一个阈值,返回一组特性其次,在这样一个缩小的特征空间上,在训练集上训练一个分类器。第三,该分类器将样本标记为一个独立的验证集,我们从中可以测量出AUC。对于不同的阈值重复这样的三步过程,以便在最后的迭代中,特征集只由一个描述符组成。然后重复选择不同的学习范式,我们发现简化后的特征集为每个分类器提供了最大的平均AUC。
- 实验结果
我们考虑了属于不同学习范式的分类器,包括作为神经网络的多层感知器(MLP),作为统计分类器的最近邻(NN),作为内核机器的支持向量机(SVM),随机树( RT)作为决策树,多类Adaboost(MAda)作为多个专家系统和随机森林(RF)作为树的集合。我们将其参数设置为默认值。虽然我们承认他们的调整可以带来更好的结果,但我们更倾向于将基线配置作为比较它们的基础。实际上,如果进行更好的设置,那么在所有实验中平均获胜的分类器也将获胜是合理的。此外,在未调整分类器的框架中,获胜学习模型倾向于对应于最强健的学习模型,这也是期望的特征。
下一小节描述了特征评估阶段和特征选择阶段的实验结果,最后4.4小节报告了测试场景中实现的性能。
-
- 特征评估
图3 秩分析的堆积直方图
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
