

英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料
一种改进的协同过滤推荐系统
Li-Tung Weng Yue Xu Yuefeng Li Richi Nayak
昆士兰理工大学软件工程与数据通信学院, QLD 4001, Australia E-mail: soloman1124@hotmail.com, yue.xu@qut.edu.au, y2.li@qut.edu.au, r.nayak@qut.edu.au
第一节 介绍
推荐系统是基于可用信息资源向用户生成建议(例如产品和网页)的系统,并且它们通过提供个性化推荐来帮助用户处理信息过载。性能,可扩展性和推荐准确性是三个主要的研究重点。由于以下事实,性能和可伸缩性问题受到关注:计算数据量急剧增加,而预期的系统响应时间受到严格约束。另一方面,推荐准确性反映了用户对给定建议的满意程度。
推荐准确性是一个相当具有挑战性的研究问题,因为很难评估和衡量给定推荐对特定用户是否最佳。新颖程度是评估推荐准确性的主要问题之一。与群集中最相关的项目在群集中分组的群集不同,如果一组建议过于相似(低新颖性),则用户可能会认为这些建议相当单调。此外,如果建议与用户的期望(高新颖性)太不相同,那么他们可能会忽略推荐。协同过滤在研究和实践中都非常成功,因为它解决了早期基于内容的推荐者过于具体的问题。
协同过滤的基本任务是基于用户对产品的偏好数据库来预测活动用户对给定产品的偏好。有两种主要类型的协同过滤技术,即基于内存和基于模型。基于记忆的方法通常被认为比实践中基于模型的方法更实用和流行。目前存在几种基于存储器的协同过滤技术,例如相关性,矢量相似性,反向用户频率(IUF)和案例放大。
IUF是各种基于内存的协同过滤方法中最出色的基于内存的方法之一。在计算用户对项目的偏好时,IUF减少了普遍喜欢的项目的权重,因为这些项目通常被认为不能捕获用户相似性而不是不常见的项目。
在本文中,我们提出了一种改进的IUF方法。在标准IUF中,只有评级项目的人口被考虑进入权重计算,而我们建议项目评级的人口是计算用户之间项目重要性的更合适的度量。该方法背后的基本原理是,观察到在许多情况下评级项目的数量不能很好地反映用户之间的相关性,因为该方法强烈依赖于数据集的完整性和数据集的构建方式。随着项目评级的数量,观察到更加可扩展和准确,因为它对IUF的破坏性因素不太敏感。
其余论文的结构如下。在第2节中,全面描述和介绍了提出的方法及其背后的基本思想。其次是第3节中的实验和评估结果。然后在第4节中总结了本文。
第二节 途径
在这项研究中,我们提出了一种新的相似性测量方法,名为“统计属性距离”(SAD)。SAD将对象属性分布的统计信息与标准对象相似性测量方法(例如欧几里德距离)相结合,以允许推荐者生成更准确的结果。该方法可以应用于基于内容的和协同过滤推荐器。然而,本文的主要目的是讨论现有IUF方法的改进,因此本文仅包括SAD与协同过滤相关方面。在2.1和2.2 节中,给出了协同过滤和IUF的简短描述,以及2.3节,提出了提出的SAD方法。
2.1。基于内存的协同过滤
在基于存储器的协同过滤中,基于预测活动用户对项目的兴趣来生成推荐。该概念可以表示为以下公式:
在公式2.1中,表示活动用户a对项目j的预测投票,n表示投票项目j的用户数量,是用户 i对项目j的评分, 和 分别代表用户i和用户j的平均投票。 是a和i之间的相关性度量。 k是一个归一化因子,使得权重值和为一。基于该公式,可以得出结论,预测的准确性取决于a和i之间相关性的计算(也就是w(a,i) )。
相关系数和余弦相似性是计算w(a,i) 的两种基本方法。本文仅对相关系数法进行了讨论,以供说明。相关系数的公式如下。
从公式2.2可以看出,w(a,i)的值与a和i投票的接近度成正比。换言之,用户a和用户i标注的项目相似性越高,这两个用户的就越接近。
2.2 反向用户频率
在公式2.2中,所有项目的投票都被同等考虑。但是,如果对影响较大的项目进行更重要的处理,则可以进一步提高其准确性。IUF后的概念来源于众所周知的信息检索技术——文档反向频率(IDF)。在IDF中,如果一个词通常出现在所有文档中,那么它就不那么重要了。通过将这一思想引入到协同过滤中,IUF简单地表示,在捕获相似度方面,普遍投票的项目不如不常见的项目有用,而且它可以公式化为:
表示项目j在相似度计算中的重要性, n是数据库中的用户总数 ,nj是标注商品j的用户数量 。根据的定义,可以利用因子作为权重来表示不同项目的不同重要性,从而改进相关系数法。因此,标准IUF可以定义为:
IUF被认为是最好的基于存储器的协同过滤技术之一,并且它显着提高了相关系数方法的推荐精度。基于Breese的实验[1],IUF平均提高了相关系数的准确度约11%。
2.3 统计属性距离
SAD的基本思想是将属性值的影响纳入到对象相关测量中。本质上,当比较两个对象的一个属性时,如果它们在同一个属性中具有相似的值,并且该值在整个数据库中具有较高的总体性,则认为这部分相似性不那么重要。相反,如果匹配的属性值具有较低的总体,那么对于该属性,将认为两个对象更接近。通过将这个概念合并到基于内存的协作过滤中,SAD可以解释为以下内容:假设大多数人对一个项目i投了赞成票,那么对于任何两个用户,如果他们都投了反对票,他们被认为比他们都投了赞成票更接近。下图进一步解释了这个概念。
在图1中,x和 y表示两个项目的用户评级,每个点(例如点a)表示用户对两个项目的评级。组A和 B是根据可观察到的相似性分组的两组不同的用户。图1(i)显示,A组和用户a之间的距离与B组和用户a之间的距离几乎相同。用户A组和B组的区别在于,A组和用户A在投票项目y中相似,而B组和用户A在投票项目x中相似。如果考虑到投票项目x和y的重要性是同样的,对象a和用户组A和B之间的距离应该类似于图1(i)所示。然而,当考虑SAD的概念时,由于y项中正面评级的受欢迎程度高于x项中的受欢迎程度,因此B组用户应更类似于A组用户(如图1(ii)所示)。
图1 二维图形中的SAD概念
基于上述概念,我们在IUF中可以定义一个类似于的相似性度量。在SAD中,相似性度量可以定义为:
其中Sj,r表示r对项目j评分的重要性。在等式中,nj,r代表给项目j评分r的用户数量,而nj给项目j评分的用户数量。从Sj,r的定义来看,基于内存的SAD协同过滤可以公式化为公式2.4。
在公式2.4中,sva,I,j表示用户a和用户i对项目j评级的加权相关性。k表示用户a和用户i投票的项目数。常数beta; 用于表示w(a,i)中Sj,r的重要性或影响,并且其默认取值范围为 0 lt; beta;lt; 1。 rvij表示用户i对项目j的客观投票。基于rvij定义了两种类型的投票,正投票仅仅意味着 rvijgt;= 0,负投票意味着rvijlt; 0。这个比喻可以适用于Sj,r,在公式2.4中,Sj, 表示积极投票对项目j的重要性,Sj,-表示消极投票对项目j的重要性。
其中:
公式2.4中的SAD公式仅用于说明SAD的主要概念,在实践中可以进一步优化。
第3节 实验和评估
本文旨在比较IUF与SAD方法的预测精度。第3.1节讨论了评估方法。第3.2节描述了实验的测试和培训数据集。IUF和SAD的比较结果见第3.3节。
3.1 评估方法
在本文中,IUF和SAD的预测质量通过平均绝对误差[1],[4]来评估。该公式如下所示。
在公式3.1中,Pa是用户a的一组项目预测集,j 是用户的预测评级 一个 项目j,Pa,j是用户a对项目j的预测投票,va,j是用户a对项目j的实际投票。ma 是Pa中预测投票的数量。
在实验中,我们将用户数据集(及其评分)划分为训练集T和测试集U.T来训练预测算法。然后我们循环访问U中的用户,并将每个用户视为活动用户。活动用户的评级集分为两部分。我们将投票的第一部分u1视为活动用户的观察评分,第二部分u2用作我们试图预测的项目集。因此,对于U中的每个用户,我们可以应用公式3.1来计算用户的平均未命中预测。然后对U中每个用户的结果进行汇总,并计算出平均值,从而得到IUF和SAD的平均未命中预测。
3.2。实验数据集
本实验使用的数据集来自movielens项目http://www.movielens.org/。这些数据是在1997年至1998年的七个月期间通过电影网站收集的。数据已被清除,因此每个用户在数据集中至少有20个分级。数据集包含了来自1682部电影900个用户的100000个评级。
在这900个用户中,100个用户用作测试集,其余800个用户用作培训集。测试数据集中的每个用户都有超过20个评分;从这些投票中,随机选择10个作为要预测的投票。其余投票将用作观察到的用户投票。
3.3 评估结果
在实验中,我们比较了IUF和SAD的平均绝对误差。该实验是针对100,150,200,250,300,350,400,450,500,550,600,650,700,750和最终800个用户的训练集进行的。
我们的结果表明,所提出的SAD方法比IUF方法更准确和稳定。SAD比IUF准确率高6.47%。此外,观察到IUF方法的预测容易受到训练数据集的大小和评级分布的影响,而观察到SAD不易受这些因素的影响。在我们的结果中,我们发现IUF在不同训练集大小上的标准偏差为0.0167,SAD为0.0025。
第4节
结论
在本文中,我们提出了IUF和SAD之间的比较。尽管这两种方法在概念上具有一定程度的相似性,但我们认为SAD是一种更适用且更准确的基于记忆的协同过滤方法。
IUF依赖于以下假设:投票项目的用户百分比与用户的相关性具有隐含关系。因此,IUF要求训练数据集完整无缺,以便提供这样的统计意义。相比之下,SAD不需要在概念上完成训练数据集,即使只使用了一小部分训练集,预测精度仍然优于IUF
从SAD的发展来看,我们发现该概念也适用于基于内容的过滤领域。我们还感觉到,通过将SAD应用于基于内容的过滤,可以提取属性之间的隐式属性关系并将其反映在生成的推荐上。我们将进一步研究SAD在我们未来研究中的应用。
参考文献:
[1] J. S. Breese, D. Heckerman, and C. Kadie, 'Empirical Analysis of Predictive Algorithms for Collaborative Filtering,' presented at 14th Conference on Uncertainty in Artificial Intelligence, Madison, WI, 1998.
[2] J. B. Schafer, J. A. Konstan, and J. Riedl, 'E- Commerce Recommendation Applications,' Journal of Data Mining and Knowledge Discovery, vol. 5, pp. 115- 152, 2000.
[3] A. Tuzhilin and G. Adomavicius, 'Recommendation Technologies: Survey of Current Methods and Possible Extensions,' Stern School of Business, New York University, New York, Working paper 2003.
[4] C. Zeng, C.-X. Xing, and L.-Z. Zhou, 'Similarity Measure and Instance Selection for Collaborative Filtering,' presented at 12th international conference on World Wide Web, Budapest, Hungary, 2003.
[5] G.
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[19760],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
