以凝聚力为基础的朋友推荐系统外文翻译资料

 2023-04-12 20:26:32

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


以凝聚力为基础的朋友推荐系统

Shamsu Shehu

Al-qalam大学,Katsina,尼日利亚

摘要:

在Web2.0的社会革命中,社交网站已经吸引了数百万用户。社会网络是由个人或组织的社区组成的,这些社区由共同的兴趣联系在一起。像Twitter, Facebook和Orkut这样的在线社交网站是互联网上访问量最大的网站之一。在社交网站中,用户可以将其他用户注册为好友,享受交流。然而,大量的在线用户和他们的多样化和动态的兴趣拥有巨大的挑战,支持在线社交网络的这种新特征权。本文在分析现有好友推荐方法的基础上,设计了一个基于内聚的通用好友推荐框架。该方法的主要思想包括以下几个阶段:测量网络中的链路强度,并找出该网络中尚未建立的可能的链路;利用模块性检测网络中的社区并推荐好友。考虑到社交网站对用户的显著吸引力,人们已经开展了大量的研究来利用这些网站上的用户信息。知识挖掘技术的发展是为了从用户的活动中提取有价值的信息片段。本文研究了一种基于现有关系生成用户行为社交图并预测用户未来社交活动的方法。该图表会根据所选社交网络的变化动态更新。预测的执行是基于一些预定义的规则应用在图上。

1.介绍

社交网站(SNS)是现代网络的主导实体,在线友谊现在对人们的吸引力与线下友谊相似,甚至更多。人们倾向于在虚拟世界中享受现实生活中的朋友的友谊。同时,他们对网上交友感兴趣。但是随着社交网络的快速发展,导致信息超载,人们在选择合适的朋友和正确的朋友的困境。社交网站的潜在朋友选择受许多内在和外在因素的影响。随着各种虚拟通信工具的发明,人们越来越难以预测谁会喜欢谁。这对于搜索引擎公司和社交网站来说更为重要,因为拥有相似想法的人的增加会加速购买相似产品的概率。因此,作为现代电子商务驱动力的产品广告变得更加容易。因此,最近推荐算法研究的激增并不令人惊讶。著名的电影推荐网站Netflix (www.netflix.com)甚至为了在电影推荐算法上改进10%,进行了100万美元大奖的竞争。历史上有两种主要的推荐算法:基于内容的推荐算法和基于协作的推荐算法。基于内容的算法,顾名思义,需要文本信息,推荐网站、报纸文章等内容。基于协作的算法向用户推荐它认为被类似用户看好的产品。这两种算法在推荐朋友方面的结果都不令人满意,因为它们缺乏判断理性存在的直觉。

在过去的几年里,社交网络的规模和服务都在不断扩大。社交网络服务,如Facebook, MySpace, Twitter, Flickr, YouTube和Orkut越来越受欢迎和重要性,在某种程度上,他们也有助于改变人类的社会行为。网上的社交朋友更有影响力,人们现在渴望以同样的心态交朋友。随着规模的扩大,很难找到好朋友,有时用户会得到负面的结果。所以这个社交网站的用户希望系统管理员通过朋友推荐系统来帮助他们。许多研究正从这一角度出发,以多种方式寻找推荐系统。我们还试图在友谊凝聚力的基础上完善推荐系统。

2.1社交网络

随着Web 2.0的出现,社会计算成为近年来的研究热点之一。它涉及到社会信号和信息的收集、提取、获取、处理、计算和可视化。社交网络是一种在线现象,它提供基于社交网络的服务,以支持轻松的消息发布,信息共享和朋友间的交流。SNA起源于社会科学和更广泛的网络分析和图论领域。网络分析关注的是具有网络结构的问题的形成和解决;这种结构通常用图来表示。图论为图的分析提供了一套抽象的概念和方法。

社交网络是一组人或一群人,他们之间有某种联系或互动模式。个人之间的友谊模式,公司之间的商业关系模式,以及家庭之间的通婚模式都是过去研究过的网络例子。社交网络被定义为基于web的服务,允许个人构建一个有界系统内公开或半公开的概要文件,表达的其他用户列表与他们共享一个连接,和视图和遍历列表内的连接和他人由系统杜马斯。社交网站(SNS)为用户提供了与线下朋友联系的机会,也为他们提供了结交潜在朋友的机会,否则他们可能永远不会认识他们。他们还以密切的关系补充他们的关系,并有助于维持社会资本。人们倾向于相信他们认识的朋友的意见,而不是陌生人的意见。

2.2社交网络的主要术语

随着facebook、twitter、谷歌plus等社交网站的日益流行,社交网络分析成为研究者的一个重要课题。在社交网络分析中有一些基本的术语。其中一些将在下面讨论。

顶点:网络的基本单位,也称为点(物理)、阳极(计算机科学)或行动者(社会学)。

边: 连接两个顶点的线。也被称为键(物理),链接(计算机科学),或者领带(社会学)

有向/无向边:如果一条边只沿一个方向运行(例如两点之间的单向道路),那么它就是有向的,如果它同时沿两个方向运行,那么它就是无向的。有向边,有时被称为弧,可以认为是运动箭头指示其方向。如果一个图的所有边都是有向的,那么它就是有向的。无向图可以用有向图表示,有向图在每对连通顶点之间有两条边,每个方向一条边。

度:连接到一个顶点的边数。注意,度并不一定等于一个顶点相邻的顶点数,因为任意两个顶点之间可能有不止一条边。在最近的几篇文章中,度被称为一个顶点的连通性,但是我们避免使用这种用法,因为连通性这个词在图论中已经有了另一个含义。有向图的每个顶点都有一个入度和一个出度,分别表示入边和出边的个数。

直径:网络的直径是任何两个顶点之间最长的测地线路径的长度(以边数表示)。一些作者也用这个术语来表示图中的平均测地线距离,尽管严格来说这两个量是完全不同的。

度中心性:一个节点的(入)或(出)度是指进入或离开该节点的链路数量。在无向图中,它们当然是相同的。通常用来衡量一个节点的连通性,因此也会影响和/或受欢迎程度

图1度中心性

它在评估哪些节点在传播信息和影响邻近的其他节点时很有用。

中间中心性:通过一个节点的最短路径数除以网络中所有最短路径数。它显示了哪些节点更可能处于其他节点之间的通信路径中。它在确定网络的分裂点时也很有用。

图2中间中心性

接近中心性:从一个节点到网络中所有其他节点的所有最短路径的平均长度。它是一种可达性的度量,即从一个给定的起始节点到达其他节点需要多长时间。

3.推荐系统

在过去的十年中,推荐系统已经成为工业界和学术界寻找新的推荐方法的一个重要研究领域。这一领域的兴趣仍然很高,因为有大量的实际应用程序可以帮助用户处理信息过载,并为他们提供个性化的推荐、内容和服务。推荐系统可以追溯到认知科学、近似理论、信息检索、预测理论中的广泛工作,也与管理科学和市场营销中的消费者选择模型有联系。推荐系统或推荐系统是信息过滤系统的一个子类,它试图预测用户对他们尚未考虑过的项目(如音乐、书籍或电影)或社交元素(如人或群体)的“评级”或“偏好”,根据物品的特征或用户的社会环境建立模型。推荐问题可以表示为:设C为所有用户的集合,设S为所有可能项的集合可以推荐,比如书籍、电影或朋友。设u是衡量物品s对用户c有用性的效用函数,即u: c times; s→R,

其中R是一个完全有序集(一定范围内的非负整数或实数)。那么对于每个用户cisin;c,我们想要选择这样的项目srsquo;isin;s,使用户的效用最大化。更正式地:

forall;cisin;c, s c = arg max u(c,s)

在推荐系统中,一个项目的效用通常由评级来表示,这表明一个特定的用户如何喜欢一个特定的项目超集。一般来说,推荐系统分为两类。

基于内容的推荐:向用户推荐的项目与用户过去喜欢的项目类似

协同推荐:向用户推荐过去有相似品味和喜好的人喜欢的商品

3.1基于内容的过滤方法是基于被推荐项目的信息和特征。换句话说,这些算法试图推荐与用户过去(或现在正在检查的)喜欢的项目相似的项目。特别是,将各种候选项目与用户先前评价的项目进行比较,并推荐最匹配的项目。该系统根据商品特征的加权向量创建一个基于内容的用户配置文件。权重表示每个特征对用户的重要性,可以使用各种技术从单独评级的内容向量中计算出来。简单的方法使用被评级的物品向量的平均值,而其他复杂的方法则使用机器学习技术,如贝叶斯分类器、聚类分析、决策树和人工神经网络,以估计用户会喜欢该物品的概率。基于内容的推荐方法起源于信息检索和信息过滤的研究。由于信息检索和过滤社区所取得的显著和早期的进步,以及一些基于文本的应用程序的重要性,目前许多基于内容的系统都专注于推荐包含文本信息的项目,如文档、Web站点(url)和Usenet新闻消息。信息发现者Abe和新闻除草者Cavalcanti是基于内容的模型的一些例子。基于内容的方法有以下一些限制:

有限的内容分析:内容必须是一种可以被计算机自动解析的形式(例如,文本),或者功能应该被手动分配给项目。有限内容分析的另一个问题是,如果两个不同的项目由同一组特征表示,它们是无法区分的。因此,由于基于文本的文档通常由其最重要的关键字表示,基于内容的系统无法区分写得好的文章和写得不好的文章,如果它们碰巧使用了相同的术语。

过度专门化:系统只能推荐那些在用户档案中得分较高的物品;用户被推荐的物品只能与那些已经被评价过的物品相似。

新用户问题:在基于内容的推荐系统能够真正理解用户的偏好并为用户提供可靠的推荐之前,用户必须对足够多的项目进行评分。因此,一个新用户,评分很少,将无法得到准确的推荐。

3.2协同过滤模型基于之前的交易以及相似用户的偏好推荐新商品。该方法收集和分析大量用户行为、活动或喜好的信息,并根据用户与其他用户的相似度来预测用户的喜好。基于用户的协同过滤试图模拟请求朋友推荐的社交过程。协同过滤方法的一个关键优势是,它不依赖于机器可分析的内容,因此它能够准确推荐复杂的项目,如电影,而不需要“理解”项目本身。协同过滤主要分为两类:基于内存的协同算法和基于模型的协同算法。基于内存的算法使用整个用户产品数据库进行预测,而基于模型的算法首先生成评级模型,然后进行预测。尽管这种方法已经在许多应用中证明了它的有效性,但它仍然有一些局限性,包括:

新用户问题:系统必须首先从用户的评级中了解用户的偏好。

新项目问题:新项目定期添加到推荐系统。协作系统仅仅依靠用户的偏好来进行推荐。因此,在大量用户对新商品进行评级之前,推荐系统将无法进行推荐。

稀疏性:与需要预测的评级数量相比,已经获得的评级数量通常非常少。从少量的例子中有效预测评级是很重要的。同时,协同推荐系统的成功也取决于大量用户的可用性。也有一些混合模型,其中基于内容的模型和基于协作的模型被统一起来,以弥补它们的缺点,他们使用预测评级的线性组合,各种投票方案,将一个成分作为另一个启发的一部分。例如H. Kashima 和 N. Abe在2006年使用混合推荐系统。

3.4好友推荐系统

随着社交网络的快速发展,社交网络用户很容易被过多的信息量所淹没。友情可以显著影响推荐的质量。因此,好友的推荐是社交网站找到真正有价值信息的必要因素。社交网站上有许多好友推荐系统。社会网络的拓扑特性已经得到了很好的研究,复杂系统的理论研究也有了发展。Silva将链接预测问题定义为给定时刻t的社交网络快照,预测在这一时间段内将被添加到网络中的边。

Silva引入了一种新的聚类指数和使用遗传算法的用户校准程序来推荐朋友。这种方法使用了这些复杂网络的结构和拓扑知识,并结合了数量性质,如大小、密度、平均路径长度或聚类系数。尽管这是一种基于拓扑的方法,但这种解决这个问题的创新方法无疑开启了一种新的可能性。Balfanz提出了SCAN方法来发现潜在的有凝聚力的子群,这些子群可以进一步用于朋友推荐。这种方法是在社会超文本背景下发明的。

此外,基于图的特征也被用于提出高效的好友推荐系统。L. Katz提出了WMR-一种基于图的好友推荐算法。它们显示了加权最小消息比(WMR),即根据网络成员之间真实的消息交互数量生成一个有限的、有序的、个性化的好友列表。Liben-Nowel在朋友的协作和结构化推荐中,使用了社交网络的链接结构和使用共同声明的兴趣的基于内容的推荐。他们研究了基于网络日志的社交网络中的链接推荐问题,并描述了这种网络的带注释的基于图的表示。它使用图特征分析来推荐(u, v)给定单个顶点的结构特征和候选链接的起点和终点的关节特征,如它们之间的距离。Kwon利用精神和社会语境提出了一种方法,测量友谊的强度,然后从列表中推荐朋友。该方法的主要思想包括以下三个阶段:(1)利用物理情境计算友谊核心;(2)利用社会情境计算友谊得分;(3)将所有的友谊得分和推荐朋友的得分值结合起来。

在前一章中,我们已经广泛地讨论了现有的好友推荐系统。我们试图找出该系统存在的问题,并获得了大量关于社交网络和朋友推荐的信息。在分析这些之后,我们还尝试建立一个新的系统来推荐社交网站上的朋友。在本节中,我们提出了基于内聚性的友谊算法

内聚性是一个抽象的术语,很容易被直觉抓住,但却难以严格定义。非正式的凝聚力是所有吸引人们加入或成为一个群体的因素的总和。内聚性是指模块中的元素在一起的程度。具有高内聚性的模块往往更可取,因为高内聚性与软件的几个可取特征相关,包括健壮性、可靠性、可重用性和可理解性,而低内聚性则与一些不可取的特征相关,如难以维护、难以测试、难以重用,甚至难以理解。在社交网络中,内聚性是在连通网络中定义的,认为连接度高的网络具有更强的内聚性。凝聚力是物理社区的一个组成部分,它被假定的凝聚力将对社会网络产生同样的影响。因此,在在线社交网络中,凝聚力的影响是不可忽视的,它是一个非常有效的术语,为社交网站上的一个人推荐朋友。从内聚力的定义可以看出,内聚力可以被认为是两个参数。一个是连通性,另一个是密度。每当出现这个参数时,术语模块化就适合解释内聚性。因为模块化是衡量网络或图的结构的一种方法。它的设计是为了衡量一个网络划分成模块(也称为组、集群或社区)的强度。模块化程度高的网络,模块内部的节点连接密集,而不同模块内部的节点连接稀疏。在强内聚性的网络中,采用模块化的方法来

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[589659],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。