

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
使用MapReduce进行大数据社交媒体网络社区结构挖掘
Songchang Jin1 · Wangqun Lin2 · Hong Yin1 · Shuqiang Yang1 · Aiping Li1 · Bo Deng2
收到:2014年3月14日/修订日期:2015年3月8日/接受:2015年4月6日/在线发布:2015年5月13日
copy; Springer Science Business Media New York 2015
摘要 社交媒体网络越来越多在人们日常生活中的突出作用。社区结构是社交媒体网络的突出特点之一适用于实际应用,如推荐系统和网络营销。随着快速扩张的社交媒体规模和庞大的信息量激增,如何在大数据场景中识别社区已经成为一个挑战。基于我们以前的工作和地图方程(社区信息论方程)开采),我们开发了一个新颖的分布式社区结构挖掘框架。在框架下,(1)我们提出一个新的链接信息更新方法,尽量避免数据写入相关操作,并尝试加速进程。(2)我们使用节点及其中的本地信息邻居,而不是pagerank,
来计算概率分布节点。 (3)我们排除网络分区过程从我们以前的工作,并尝试运
宋松昌
jsc04@126.com; jinsongchang87@gmail.com
王林群
linwangqun2005@gmail.com
洪贤
yinhonggfkd@aliyun.com
杨树强
sqyang9999@126.com
李爱平
apli1974@gmail.com
博登
bodeng@vip.tom.com
1国防大学计算机学院
技术,长沙410073,中国
2北京系统工程研究所,北京10010,中国
行MapReduce直接映射方程式。实际社会媒体网络和人造网络的实证结果表明新框架胜过以前的工作和一些众所周知的算法,如Radetal,FastGN,精度,速度和可扩展性。
关键词社交媒体·社区结构挖掘·MapReduce
1介绍
社会媒体网络(SMN)现在一直在蓬勃发展。双智能[6]最近报道,每月活跃用户(MAU)的FaceBook已经达到11.6亿台2013年,YouTube拥有大约10亿个MAU,而Qzone则是中国的巨型社交媒体网络正处于第三位在7.11亿用户。
在复杂网络的研究中,如果节点的话网络可以分组成节点在每个组件内部通过密集连接不同组件之间的链接或边缘和连接网络稀疏,据说有社区结构。每个组件中的节点以及其中的链接节点构成社区。学习社区结构具有重要的理论和实践价值[9,10]如信息传播研究,产品推荐,链接预测等。给定一个SMN,社区结构不明显,社区隐藏在复杂的结构中。如何识别所有社区是采矿社区结构的问题致力于解决问题,特别是在大数据场景中。
我们试图揭示大数据SMN的社区结构[13,14]。 在我们以前的工作中,我们(1)将网络划分成大量子网,每个子网的大小应小于块大小; (2)将子网上传到Hadoop分布上文件系统(HDFS)[2]; (3)运行基于MapReduce的信息独立处理子网的方法。 这个解决方案的局限在于图形分割过程。因为网络划分是NP完整的[1],而目前的图分割方法不能在线性时间内找到最优解。 通过图分割方法切断的链接可能远远超过最优的,并且可以将社区的节点分配成若干块,这将破坏社区结构。 在我们以前的工作中,我们的目标是使用MapReduce编程模型加速地图方程[30](如表达式(5)所示)。
在本文中,我们扩展了以前的工作:(1)网络以邻接列表格式表示和存储在HDFS上;(2)没有网络划分过程,网络完整性得到保留; (3)我们只从HDFS读取数据,在输出最终结果之前没有数据写入操作,如追加,修改和写入,这与HDFS的WORM访问模型相吻合,并显着减少了将数据写入磁盘的开销; (4)易于使用,具有很高的可扩展性,这使得MapReduce [7]集群的大数据SMN中的社区挖掘更加容易。
本文的其余部分安排如下。 第2节介绍术语,定义和问题制定,其次是分布式社区结构挖掘框架的细节。 在教会 4,我们进行了几个实验来评估框架的性能。 我们讨论一些相关的工作。 最后, 6提供了一些总结性的言论,并概述了未来的研究方向。
2问题制定
2.1术语,假设和定义
SMN可以数学上描述为G =(V,E),
其中V和Esube;Vtimes;V表示节点集和链路集,分别。 n = | V | 和m = | E | 是总数G.v(i)中的节点和链路表示节点i和e(i,j)isin;E表示v(i)和v(j)之间有连接。 nv(i)代表v(i)和d(i)= | nv(i)|的邻居节点集合表示v(i)的程度。
到目前为止,社区定义尚未统一科学世界。 最认可的一个是杨建议的[33]:
定义1 (社区)网络中的一个社区是
一组节点,其中连接节点的链路是密集的,但是它们之间是稀疏的。
定义2 在社区网络结构(帧内链路&间链接),相同的社区内连接节点的链路被称为帧内链路,并从不同的社区连接节点的链路是间链接。
图1社区结构中的链接和内部链接的一个例子 网络有3个社区被虚线包围界
从图。 1,我们可以看到社区内的节点通过不同的链路和节点密集连接社区通过互联互通。因此,对于社区结构化网络,可以合理查看它作为由一系列社区组成的集合互联数量。
为了方便下面的讨论,我们定义一些社区相关项目在表1中。在SMN数据集中,链路号远远超过节点号,即m? n。通常,我们可以将节点ID存储在内存中,但是我们不能将链接存储在内存中。假设有1亿平均等级为100的节点,每个节点需要4个字节每个链接需要至少8个字节来表示内存,然后将可以使用400 MB来记录所有的节点ID,但是内存消耗量将超过8 GB。因此,我们假设研究的SMN的节点ID本文可以驻留记忆。此外,为了简单起见,我们假设这里研究的网络是连接的。
2.2社区结构挖掘问题
社区结构的SMN可以看作是一个组合
的一系列社区和一些inter链接。 在数学上,我们代表了一系列社区作为集合C S = {C1,C2,...,CNC},其中Ci ={v(i1),v(i2),。 。 。 ,v(ini)}表示ni节点的社区而NC是SMN中社区的总数。社区结构采矿旨在解决问题如何识别大数据SMN中的所有社区尽可能快速准确。 网络在本文中研究是无向和未加权的。 更确切地说,我们的对象会找出社区集合C S = {C1,C2,...,CNC},其中Cicap;Cj=phi;对于i?= j。 但是,没有定量指标,我们将无法直观的把握的问题。 因此,在地图方程的帮助下,我们将社区结构挖掘问题转化为数学优化问题3。
表1 符号定义和描述
符号 说明
3支持理论与框架框架
3.1 MapReduce框架
MapReduce已成为重要的大数据处理
工具最近。 MapReduce有两个程序
程序:Map()和Reduce()。前者执行过滤并排序,Reduce()执行摘要
操作。 MapReduce平台中的服务器组织在一起主人/工人建筑。主人负责与用户交互。它接收节目并分割它们进入地图作品并减少作品,然后分配作品到分布式服务器(称为映射器和reducer)根据工作类型)。工人只能沟通与主人通过心跳协议。
Map()和Reduce()中处理的数据应该在lt;key, valuegt;键,值对。地图使用一对数据类型在一个数据域中,并返回一个不同的对列表
域:lt;key1,value1gt;→listlt;key2,value2gt;。地图与输入数据集中的每一对并行应用,并将为每个呼叫生成一对对的列表。然后,框架使用所有列表中相同的键收集所有对并将它们组合在一起,为每个密钥创建一个组。接下来,对每个组并行应用reduce turn在同一个域中生成一组值:lt;k2,list(v2)gt;→lt;k2,list(v3)gt;。
3.2信息编码理论
信息编码是电通信的一个概念领域。 本质上,编码理论可以分为两种方面根据目的:源代码和渠道代码。源编码尝试压缩来自源的数据为了更有效地发送它[23],这就是我们正在使用。 渠道代码,通过添加额外的数据位,旨在即使有些位使得数据的传输更加健壮丢失或篡改。
源代码包含两种代码模式:固定长度
代码和可变长度代码。 给定一个编码的消息,
最重要的是解码它得到原来的信息和信息应该是唯一的。 固定长度代码总是独一无二的。 但是,那可变长度代码的情况是完全不同的。所以,提出一些有用的规定,其中哪个前缀代码规则是重要的一个:
定义3(前缀码)一个代码叫做前缀(free)代码如果没有代码字是另一个的前缀。 例如,{a = 0,b = 110,c = 10,d = 111}是前缀码。
前缀免费代码是唯一可解译的代码。 既然没有codeord是我们可以随时找到的任何其他的前缀消息中的第一个码字,将其剥离,并继续解码。因此开发高效率前缀免费代码利益研究人员。 给定一个字母A = {a1,...,an}具有概率分布p(ai),每位的预期值编码n的消息所需的码字字符由二进制前缀码C表示:
其中c(ai)是用于编码ai的码字,并且l(c(ai))是码字c(ai)的长度。
明确地说,如何开发最小化B(C)的代码关键问题。 霍夫曼开发了最低成本(最佳)前缀码(霍夫曼码)与贪婪算法
[11]。熵是信息理论中的另一个重要概念
[12]。 它是一个随机的不确定性的量度
变量。 以上使用的A的熵为:
Kraft-McMillan定理令C是具有n个码字的码长度为l(1),l(2),。 。 。 ,l(n)。 如果C是唯一可解码的,然后
从(1),(2)和(3)可以推断出平均长度用于最佳无前缀码C的码字满足:
H(A)le;B(A)le;H(A) 1(4)
表达式(4)意味着每个字B(A)的平均位数在霍夫曼码中下面是H(A)。 通常,对于具有指定概率分布的指定网络,当用全局霍夫曼码编码时,B将是常数。接下来,我们将在网络上讨论两级霍夫曼码。
3.3随机游走和地图方程
在网络上的随机游走可以看作是痕迹
步行者在离散的时间点。假设的位置
在时刻t的步行者是s(t)= v(i),那么它将选择一个节点v(j)isin;nv(i)随机移动。随机游走可用作建模的标准工具传播社会媒体流程[28]和地图方程式将其用作实际流量的代理。 SMN产品社区结构的聚合效应造成由用户建立与他人的联系。开始时在社交媒体网络上随机散步,会模仿人心行为,并希望留在当地社区
进入时长。取图6中的v(6)。 2例如,
当步行者想要离开时,它会从中选择一个节点nv(6)= {v(5),v(7),v(8),v(9)}25%的概率。节点v(6),v(7),v(8),v(9)同一个社区,那么步行者停留的概率在当下社区下一步将达到80%。下一个,如果步行者选择v(9),概率将为75%,而所以。有了这个特点,我们将能够随机使用步行者作为代理人来揭示网络结构社区结构[29]。
从数据管理的角度来看,是多维的
数据管理模式比低维度更有效模型在一定程度上。其实就是多层次的数据组织结构比普通结构更为常见在现实世界中回顾行政区划现实生活中,我们用分层描述告诉我们的朋友我们在哪里或我们住的地方这样,低水平就可以了共享相同的描述。例如,我们可以使用层次结构描述模式“国名 州名 城市名称 街道名称 建筑号码“来指定一个特定的地址。居住在同一个城市的人们拥有同一个国家名称和状态名称,因此分层描述型号效率高。与SMN有关,如果给予所有的社区信息,我们可以使用类似的方式“社区ID 节点ID”(CID NID),一个二级描述模型,指定一个特定节点。节点的不同CID可以共享相同的NID和节点相同的CID共享相同的CID。使用随机时走出来揭示社区结构,我们可以生成一个码字序列由两级模型来描述步行者的踪迹.
社区检测的核心是基于地图Rosvall等提出的方程 al。 [30],使用两个级霍夫曼代码对网络进行编码。 第一级对CID进行编码,第二级编码NID。
图2 在9个节点的加权社交媒体网络上随机散步并使用不同的信息代码。 a显示随机游走过程从v(1)到v(9)有18个步骤。 b显示全局固定长度二进制数网络上的代码 c,d是两级霍夫曼码不同的社区结构部门。 “1010”和“0101”是码字C1和C2的相应出口码字为“0000”和“1111”。 在在情况(c)中,码字序列将为“1010 10 00 111 01 110 10”01 00 10 110 0000 0101 11 01 00 11 10 00 01 10“和51位完全需要。 如果社区结构分为(d),序列将为“1010 10 11 00 10 01 11 0000 0101 10 1111 1010 01 00 11 0000 0101 10 111 01 00 111 110 00 01 11“,69位
有了这个模型并给出了
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[26151],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
