对移动4G网络中移动社交网络服务模式的理解: WeChat时刻的案例研究外文翻译资料

 2022-12-02 19:48:09

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


对移动4G网络中移动社交网络服务模式的理解:

WeChat时刻的案例研究

Weijian Sun, Dandan Miao, Xiaowei Qin and Guo Wei

摘要:通过对蜂窝网络技术和移动设备的快速发展的带动下,移动社交网络(MSN)服务大大促进了个人和企业的通信,因此必然会消耗大量的网络资源,并可能影响网络的稳定性。尽管他们庞大的用户基础和知名度,但MSN服务的服务模式尚未完成。因此,鉴于MSN服务的许多工作侧重于其不同的各个方面,本文旨在深入了解不同级别的MSN业务服务模式。 为了得到可靠的结论,我们的研究是基于在全国4G蜂窝数据网络中收集的大规模数据集。 特别地,我们选择WeChat Moments(WM)作为案例研究,因为它是中国最受欢迎的MSN服务之一,每月有6亿活跃用户。

关键词:4G蜂窝网络·大数据·移动社交网络·服务模式

1 引言

随着蜂窝网络技术的飞速发展,强大的移动设备和社交接触的各种需求,移动社交网络(MSN)消费者的数量不断增加。 值得一提的是,大型流动数据分析的新兴技术和研究在构建及了解现场蜂窝网络中MSN服务的大规模服务模式方面,显然产生了巨大的潜力。然而,尽管受欢迎程度[1],[2],[3],[4],[5],[6],很少有研究侧重于其服务模式。 杨等 [7]主要关注MSN的社会行为,这可以提高我们对MSN服务性质的理解,但是很少的信息可以提供给网络运营商。 在本文中,我们先来看一下大规模商用4G网络中的WM流量。我们选择WeChat Moments(WM)作为案例研究的原因是它是中国最受欢迎的MSN服务之一,每月有6亿活跃用户。 我们的目标是从个人和综合层面了解WM的服务模式。 据我们所知,我们的研究是第一个调查WM在现场蜂窝网络中产生的流量特征的研究。 我们总结我们的主要贡献如下。

- 大规模测量:我们进行了第一次大规模测量研究的蜂窝WM流量。 我们从S1-MME,S1-U,S11和S6a接口收集的数据集,覆盖了中国西北省的大约10 000个eNodeB,面积在45万平方公里。

- WM流量和会话的准确识别:我们通过(主机,网址,用户代理)对HTTP获取/发布请求来识别WM的流量。 WeChat的293操作可以被识别,其中9个通过url的结构与WM相对应。 一个WM会话被定义为每次都属于一个用户的一个用途的连续HTTP获取/发布请求。 这9个WM动作被集成到4类中,每个类可以被视为每个WM会话的开始,因为它们都是在OTTCAP终端被重复测试和验证的[4]。

W.孙(B)·D.苗·X.秦·魏伟

中国合肥科技大学电子工程与信息科学系电子邮件:{sunwj,ddmiao} @ mail.ustc.edu.cn,

电子邮件:{qinxw,wei} @ ustc.edu.cn

copy;Springer International Publishing Switzerland 2016 451

信息技术新一代S. Latifi(编辑)智能系统和计算机的进展448,DOI:10.1007 / 978-3-319-32467-8_40

-独立模型(WM):从个人交通的角度来看,WM会议到达时间的双峰性质得到了确认。 获得会话长度的两种分布,我们发现由用户在每个会话中访问的社交内容来确定。 此外,我们将用户活动与相应模型的幂指数进行比较,发现它们之间的单调关系。 我们还比较不同终端类型生成的会话长度,并总结不同终端的区别。

- WM的总体模型:从聚合流量的角度,借助于小区的GPS信息分析代表用户偏好的WM流量的时空动态模式。 我们还研究了一个小区内的聚合流量到候选分布的拟合结果,并发现幂律模型也适用于表征WM的聚合流量。 此外,模型的参数可以适用于高斯分布,这意味着WM模型可以在细胞水平上公式化。

本文的其余部分组织如下。 在第二部分,我们描述我们的方法和数据集。 在第三节,我们提供详细的结果。 最后,我们在本文中总结和未来的研究方向在第四节。

2 背景

2.1数据集

在本文中,我们使用中国第一层4G蜂窝网络运营商的一个匿名数据集。 从S1-MME,S1-U,S11,S6a收集的用户平面和控制平面数据被组合在一起以产生所有用户的服务记录。 数据包含每个用户的HTTP获取/发布请求(记录)的以下信息:单元格ID,IMEI,开始时间,结束时间,数据包长度,主机,网址,用户名等。 匿名的所有用户标识符,以保护隐私,而不影响我们的分析的有用性。一般来说,我们的数据集在2015年四月份的一个西北省(十四个城市)的两个星期内,共有大约160万4G用户和超过80亿个HTTP请求。 此外,所有小区的GPS信息被证明可以用来显示交通的空间分布。 我们的数据量是6太字节(1TB = 1024GB),这意味着应该使用一些大数据分析工具,这将在下一个小节中介绍。

2.2 WM流量和会话的识别

为了将WM与其他系统分开,我们首先测试所有WeChat操作的URL,例如打开对话框,打开图片或访问我们的OTTCAP中的朋友的页面,并分析相应的URL信息。 我们发现WeChat url的一致性,例如weixin.qq.com / cgi-bin / micromsg-bin / XXXX是WeChat url的基本模式。 我们命名为XXXX动作,当行动以mmsns开始(也就是微信社交网络服务)时,对应网址属于WM。我们发现了273个WeChat动作,其中9个开始于mmsns。 此外,我们还需要区分一个WM会话的开始。 在我们的OTTCAP大量测试WM后,我们确定了这9个动作的4个组合,如图1所示。mmsnsuserage和mmsnstimeline是直观的,但是,当检测mmsnssync时,其他以下操作(如mmsns和video)应该组合在一起,以区分一个WM会话的开始。 会话长度和会话到达时间的定义是服务模型的关键参数,如图1所示。

图1 四种WeChat Moments活动的插图。

2.3分析程序

由于网络运营商不仅关心WM的用户行为,而且还关注小区级别的聚合行为,我们从两个级别(个人级别和聚合级别)分析WM的服务模型。 从S1-MME,S1-U,S11,S6a集成的原始记录存储在我们的HDFS中。 Map-reduce作业是为了解析大量的流量数据而编写的。 Service Parese Job用于将属于WM的记录传输到表格1所示的格式。

表1 WM服务后工作的会话格式

3 两个层面的WM服务模型

3.1 WM会议的独立模型

独立会议到达时间的分配。 我们首先分析个别会话到达之间的整体行为。 对突发和记忆的分析[8]有助于定量了解WM的个人模型。(用户定义为B =sigma;tau;-mtau;,其中mtau;和sigma;tau;是平均值和标准。)分别到达时间系列的恶化。根据定义,B是从-1到1的有界范围内的实数值,其中Bgt; 0表示该系列具有突发效应。存储器用于测量到达之间的时间相关性,即,短(长)到达之间的时间是否跟随短(长)一个。 到达时间的记忆系数m1(m2)和sigma;1(sigma;2)是tau;is和tau;i 1 s的采样平均值和样本标准偏差。 根据定义,M的范围从-1到1,明显的Masymp;0表示短(长)到达之间的时间倾斜后跟长(短)。突发和记忆的平均值为B = 0.5351,M = 0.0604。 也就是说,WM系统具有突发效应,但几乎没有记忆效应,这与许多研究深远的人体激活系统不同[8]。 在图2(a)中,我们根据所有用户的汇总数据报告了到达时间分布,具体来说是484938个WM用户的到达时间9497926。 分布如下所示,ts表示读取会话到达间(RSIT)。

1

ntau; minus;1 (tau;i minus;m1 )(tau;i 1

minus;m2 )

如图2(a)所示,我们发现会话到达时间的双峰分布自tsgt; 5.5小时后,分布可以很好地拟合,当tsle;5.5小时时,法,幂律指数通过R M S E = 7.916times;10-5的最大似然估计获得。 值得一提的是,除非另有说明,所有拟合分布均通过本方法获得,RMSE被用作测量拟合精度的统一标准。如[9]所分析的,双向行为可以通过个人之间的相互作用来解释,因为WM和其他社交媒体之间的区别是WM具有消息警报机制。

为了深入了解我们数据的到达时间分布,我们要用同样的用户行为即用户活动来解释这种分布。我们将用户活动定义为Ai = ni,其中Ai表示个人会话的频率。 ni是一天中用户i的总

Ti

会话数,Ti是第一个和最后一个会话之间的时间。 为了调查用户活动的角色,我们按照活动按降序对用户进行排序,并将其分成10组。每个组包含相同的用户数。我们报告在集团层面间的到达时间的4种典型的幂律分布,从图(b),我们发现他们有不同的指数值。注意,活性较低的组具有较小的幂律指数,会给出较长的平均会话到达时间。最后,我们把指数作为用户活跃度的函数,发现了指数的单调性和单调性随活跃度的增加,这种关系表明了主动性对会话到达时间幂律行为的重要作用。

图2(a)会话到达时间的幂律分布。 (b)每组用户活动的幂指数。

个别会话长度分布。当谈到个人会话长度分布,有两个需要回答的基本问题。首先,哪一个分布是会话长度的最优解,其次是用户活跃度对会话到达时间幂律指数的影响,该参数对会话长度分布有决定性影响。我们首先描述WM会话的统计特征。我们分析了182354个用户生成的1660498个会话,发现用户在阅读WM时不喜欢点击图片,因为只有29%的会话都有图片点击。 我们通过解析每张图片的URL来判断图片是否被点击。 用户只是喜欢阅读WM但不喜欢评论,因为只有8%的会话里面有用户评论。从WM的用户代理提取了九种终端,每个终端的统计特征如图3(c)和图3(d)所示。 在图3(c)中,我们从两个角度比较了每个终端组,即终端数和平均会话长度。从终端数量来看,我们发现大多数使用WM的用户是iPhone用户,部分反映了WM用户 是高收入群体。 从平均会话长度来看,我们发现,由于平均流量为190KB,而Coolpad用户的内容则为120KB,因此联想用户倾向于阅读每个会话中的更多内容。 一般来说,一张照片的大小是10KB,也就是说,联想用户往往会比coolpad用户多读7张图片。我们还比较了图3(d)中四个终端即冷却盘,华为,iphone和lenovo产生的会话长度的累积分布函数(CDF),并找到相同的结果。 由于联想终端产生的WM会话的20%大于350KB,而对于诸如coolpad终端的其他人来说,只有10%的会话大于350KB。

接下来,我们计算会话长度的概率密度函数(PDF)。 首先,我们不关心每个会话中的视频,图片或评论等内容类型,然后将它们与普通的大型发行版本,即权力法,

weibull和lognormal.AsshowninFig.3(a),会议长度有效期为pdf的峰值为454KB。 为了深化这个特点,我们分开分析不同类型内容的会话长度分布,因为直观地看到长度等于454KB的会话可能不仅包含图片。因此,我们将WM会议分为两类,即视频和无视频,并在图3(b)中绘制相应的pdf。我们很乐意发现结果与我们的猜想一致。 一方面,当会话不包含视频内容时,其分布可以通过幂指数等于-1.756的幂律很好地拟合。为了清楚地看到,我们在图的顶部示出了子图中的幂律结果 另一方面,当作为会话包含视频内容,这是最新版本的WeChat中的新功能时,会话长度的pdf可以很好地适应weibull分布,k = 2.138,lambda;= 1.196 times;10 6。最后,个人WM会话长度的整体分布是

其中flag = 0表示这些会话中没有视频内容,反之亦然。

图3(a)会话分配,不涉及会话大小。 (b)两种分配的会话长度。

(c)WM用户的终端类型及其对应的平均会话长度。

(d)会议长度的CDF由不同类型的终端产生。

3.2 WM会话聚合模型

WM流量的时空动态。 图4(a)中描绘了一个城市2015-04-03(工作日)的WM流量的时间特征。 整体交通趋势与人事时间表一致,因为白天的交通量高于中午。 我们发现有一天WM地区有3个地方高峰,分别是上午11点,16点和23点,分别代表午餐前,下班前和睡觉前。 也有3个地方最低点,分别是凌晨4点,上午12点和下午21点,分别代表睡眠时间,午餐时间和家庭时间。 WM的这个时间特征意味着它是休闲和娱乐。

WM流量的空间特征如图4(b)所示。 图4(b)中的绿星表示小区的cdf,红星表示eNodeB。 两条虚线意味着无论是小区还是eNodeB,从

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[25520],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版