

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
一个基于社交媒体的用户推荐方法
陈红,罗圣美,雷虎,王秀文
1.ZTE公司,南京 210012,中国;
2.全国计算机网络急求中心响应技术团队,北京 100029,中国
摘要:用户分析技术主要用于推荐朋友和信息。这篇文章讨论微博用户的数据特征和描述一个多维用户推荐算法,这个算法考虑了微博长度,用户和微博的相关性的和用户之间相似度。实验结果表现了多维算法比传统推荐算法更加精确。
关键字:社交媒体;用户推荐;信息推荐;相关性分析
- 简介
随着互联网的快速发展,信息交换的方式也在发生着改变。在Web1.0时代,信息是通过简单静态网页的方式传递;然而,在Web2.0时代,信息是通过用户关系链动态地发表、扩散和控制的。Web2.0就像一个虚拟社区,在这里每个用户都可以自由地分享信息,而且人们能够通过交互获得更多的关注。在这里,用户不仅仅指浏览器,还有信息产品。在Web1.0时代,网站主要集中在新闻门户网站(比如搜狐、新浪)和搜索引擎(比如谷歌、百度)。在Web2.0时代,网站主要指电子商务、在线应用、社交网站、博客、维基。
Web1.0和Web2.0时代最大的不同在于用户与用户关系的中心位置。就像在现实世界中,每个互联网用户可以通过观察他们的在线行为表现发现他们的兴趣,甚至一些用户形成了一个公共兴趣小组。
为了证实兴趣的关系和用户之间的行为(比如发表、促进、评论、建立关系),这篇文章讨论了当前新浪微博用户的特征。这能够帮助他们更好的建立自己的微博关系网络。
- 相关工作
分析微博用户包括分析他们的关系、谈论的主题、兴趣、网络意识。这种分析的结果最后会被利用来进行推荐,或者提供一些有用的信息。国内外都已经在社会网络技术上做过了大量研究。
总体上,主流推荐算法主要基于协同过滤、内容和图。
2.1协同过滤
基于协同过滤的推荐算法既可以是基于用户的也可以是基于物品的
基于用户的协同过滤算法的主要思想是用户的朋友喜欢的东西也是这位用户喜欢的东西。第一,该算法找出与目标用户具有相似兴趣的一个用户集,然后从这个选择中,找出能够推荐给目标用户的公共物品。这一步最重要的一点是计算任何两个用户之间的相似度。协同过滤算法主要关注两个用户之间的相似度。
基于物品的协同过滤算法在工业部门有很广阔的应用。亚马逊的推荐算法,奈飞,葫芦和YouTube都是基于物品的协同过滤算法。基于物品的协同过滤算法的主要思想是用户往往更喜欢相似的物品。因此,这类算法根据过去的用户偏好来为用户推荐物品。然而,基于物品的协同过滤无法使用物品的内容去计算相似度。这类算法主要是通过用户的行为去计算物品的相似度。这类算法计算物品之间的相似度然后产生一个基于相似度和用户历史行为的推荐列表。
基于用户的协同过滤推荐算法主要基于具有相似爱好的一小群人的热点信息。基于用户的协同过滤推荐根据用户的历史兴趣进行推荐。基于用户的协同过滤推荐更加的社会化而且反映出物品在给定的一小群组中的流行度。基于物品的协同过滤推荐更加的个性化,而且反映出一个用户自己的历史兴趣。
2.2基于内容的推荐
基于内容的推荐算法理论上起源于信息提取和信息过滤。这不需要用户去评价物品而是根据机器学习从内容的描述抽取出用户的兴趣。这类算法根据用户的反馈和用户感兴趣的模型提取出物品特征,计算出用户兴趣的相似度和推荐的物品。
基于内容的推荐算法利用用户的历史数据,而且与用户偏好一致的兴趣可能会变。这类算法的优点有:
- 没有冷启动问题或者稀疏矩阵问题。
- 能够为有特殊兴趣的用户做出推荐。
- 能够推荐新物品和冷门物品。
- 内容建模技术相对成熟。
基于内容推荐算法的缺点是要求物品内容能够在有意义的特征中被简单地分解出来;而且它要求内容能够轻易的结构化;必须根据物品内容特征表达用户兴趣。另外,它不能借鉴其他用户的评判。
2.3潜在因子模型
潜在因子模型常常被用到推荐系统和机器学习中。是为了得到分类和聚类计算语义距离的一个有效方法。潜在因子模型背后的主要思想是通过潜在因子把用户兴趣和物品连接起来。潜在因子技术产生了许多著名的模型和方法,包括pLSA,LDA,潜在类型模型,潜在主题模型和矩阵因式分解。这些模型都具有相同的本质,而且一些模型能够被个性化推荐系统采用。
- 用户推荐
用户推荐的主要目的是根据用户已经拥有的朋友和历史行为推荐新朋友给目标用户。这会增加社交网络的整体多样性和活力。
在社交网络中,用户推荐算法被称作链接预测。这里,我们介绍了一个基于社交网络图标和内容匹配的用户推荐算法。
基于内容匹配的算法背后的主要思想是朋友之间的偏好内容是和他们自己的个性属性相关的(比如公司、学校、标签、地址、IP)。
基于社交网络图的用户推荐已经被广泛应用,应用此算法,目标用户朋友的朋友可能被推荐给目标用户。微博之间的关系通常分类为关注、被关注和相互关注。因此,一个合适的策略是通过关注和相互关注进行推荐。这种方法被用在了新浪微博中。然而,当某个名人总是在排名第一时,通过关注关系的推荐方法就会显现缺陷。通过相互关注的推荐方法是表现更好的,因为相互跟踪的名人的用户群体是很小的。
这篇文章描述了一个在线用户推荐算法。我们经过预先讨论结合了两种方法为了减少计算复杂度和使该算法更适合在线用户。例如,一个用户关注了500个其他用户。为了形成一个好友推荐列表,选择候选人使非常重要的。
如果候选名单的人是微博网站上的所有用户,那么这个算法将会变得很复杂。按照往常方法,用户关注者和关注者的关注者是候选人。这样时间复杂度将会大大减少,但是数据库操作仍会花费大量时间。为了进一步减少时间复杂度,我们提议结合在算法1提到的方法。
算法1.一个结合的用户推荐算法
- 根据关注者的编号,对用户的关注者的关注者进行排序。假定排序后的用户序列为reu1,reu2,hellip;hellip;,reuN,N代表候选人的总数。
- 不管该用户是否被认证过,根据粉丝数量把候选人分组为名人组和费名人组。如果该用户被认证过而且有超过50万个关注者,该用户就被标识为名人。根据关注者的数量和名人流行程度按照递减顺序reu1,reu2,hellip;hellip;,reuN推荐个非名人。
- 通过以上两步,我们通过关系推荐了一些朋友,但是这还不够。从剩余的用户中,再选择个用户作为推荐候选人,而且lt;lt;。假定该用户是在一所称作的学校里,或者在称作的公司里。
- 提取出个候选人的学校和公司的名称,选择与目标用户在同一所公司或学校的用户,因为他们是同事或者校友。甚至,这四个推荐列表可以呈现给用户以选择自己需要的。
-
实验
- 数据描述,实验策略和评价方法
为了证实我们的推荐算法的效果,我们爬去了新浪社交网络和微博的103个用户。数据包括了社交网络和微博的30609个用户、807374个关系和2503458个微博信息。数据的获得时间是2013年5月1号,包括了数据训练集和数据评价集。
首先,我们从每个用户的关注者中选择并使用推荐算法产生一个推荐列表。然后和已经选择的关注者进行比较。
我们假定整个实验数据集的种子节点是,即实验用户集是,然后我们从三个用户集中产生推荐列表:专业的用户、普通的用户、所有用户。
我们从用户集中随机删除了一半用户。这些删除的用户包含了集,剩下的集合是训练集。
这些在集的每个用户的关注者的列表组成候选人列表。在做出推荐之前,我们删除已经在中的用户,即,我们把这个集合成为。
通过使用这个推荐算法,S(u)中的用户为了获得推荐列表以递减顺序排序,这个推荐列表称为。
我们把看做测试结果,看做标准答案。通过比较和的不同,我们能够评价该推荐算法的表现。中前N个用户的子集标识为。我们使用两个评价指标;精准率和反馈率。推荐反馈率的公式如下:
推荐精准率的公式如下:
对于一个综合评价Top-N推荐精确率和反馈率,不同的列表长度N是可选的,精确率和反馈率是可计算的而且精确和反馈曲线是可绘制的。在实验中,N分别采用5,10,15,20,25,30,35,40,45,50。
-
- 结果
我们实验的假设是多维推荐比一维推荐更好。在流行集或专家集的用户中如果有超过500,000的粉丝,那么就被认证了。在第二等级的用户是普通用户,在这个集合中是没有流行和专家用户的。第三等级的用户是流行和普通用户的混合。我们使用这三个集合进行推荐,并运用评价索引,对这些推荐进行评价。
4.2.1 流行或专家用户
我们从列表集合T(u)和S(u)中选出流行和专家用户,并且选出前N个质量较高的用户作为结果推荐列表。然后,我们根据评价公式来计算精确度和反馈率。结果正如表1所示。
从表1可以看出,当N=50时,精确度和反馈率分别为0.163和0.253。精确度和反馈率曲线图如图1所示。
4.2.2 普通用户
我们从集合T(u)和S(u)中选择质量较高的普通用户。前N个质量较高的用户也被包含在结果推荐列表中。然后,我们根据评价公式来计算精确度和反馈率,结果正如表2所示。
从表2可以看出,当N=50时,精确度和反馈率分别是0.359和0.072。精确度和反馈率曲线图如图2所示。
4.2.3 所有用户
在这里,推荐结果没有被分成不同的集合。我们将普通用户和流行用户混合起来,然后使用评价公式计算精确度和反馈率。结果如表1所示。
表1 流行用户的精确度和反馈率
图1 流行或专家用户的精确度和反馈率曲线
从表3可以看出,当N=50时,精确度和反馈率分别是0.329和0.058。精确度和反馈率曲线图如图3所示。
4.2.4 比较
三种前N个推荐策略的精确度和反馈率如图4所示。
表2.普通用户的精确度和反馈率
图2.普通用户的精确度和反馈率曲线
表3.所有用户的精确度和反馈率
从图4可以看出,推荐普通用户比推荐流行用户或者其它用户的精确度要高。推荐流行用户的精确率低于普通用户的主要原因在于,微博上的流行用户的比例非常小。总的用户量大约有500,000,000,但是流行用户数量少于3,000,000。除此之外,在使用微博之前,人们通常都知道这些流行用户。因此,它们可以通过其它渠道来搜索并且跟从这些流行用户。一个用户更有可能跟着有限数量的明星和专家,而不是其它流行用户,因此,当推荐流行用户时的精确度相对较低。当推荐其它用户比推荐普通用户的精确度要低的主要原因是,流行用户被包含在其它用户中。在图4(a)和(b)中,精确度越高,反馈率越低。这也在图5中显示得很清楚。
图3.所有用户的精确度和反馈率曲线
图4.三种Top-N推荐策略的(a)反馈率和(b)精确度
多维推荐的优点在于它避免了由于流行用户所造成的偏差,并且能够考虑到用户心理。
图5.三种推荐策略的精确到反馈的比例图
- 结论
数百万的人们使用社交网络,以这篇文章提到的新浪微博为代表。随着用户的发表内容、互相交流和评论,在他们之间正在产生大量的内容和关系。所有的社交媒体通过用户实体连接,他们的线下行为逐渐迁移到线上。
在第三部分的算法对推荐朋友给目标用户也是很有效的。该算法的时间复杂度和空间复杂度也满足了在线应用的要求。然而,仍需要进一步改进,比如增加算法的结果精确性。
- 参考文献
[1] F. Diaz,“Regularizing query-based retrieval scores,”Information Retrieval, vol.10, no. 6, pp. 531-562, 2007.
[2] S. Clemencon, G. Lugosi, and N. Vayatis,“Ranking and empirical minimizationof U-statistics,”The Annals of Statistic, vol. 36, no. 2, pp. 844-874, 2008.
[3] N. Belkin and B. Croft,“Information filtering and information retrieval,”Comm.ACM, vol. 35, no. 12, pp. 29-37, 1992.
[4] B. B. Ana, C. M. Enrique, C. B. Juan, R.L. Marta, A. M. F. Fernando and P. Ana,“A hybrid content-based and item-based collaborative filtering approach to recommend TV programs enhanced with singular
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[29126],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
