协同导出邻域插值权重的可伸缩协同滤波外文翻译资料

 2022-10-29 22:05:08

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


协同导出邻域插值权重的可伸缩协同滤波

Robert M. Bell和Yehuda Koren

ATamp;T实验室-研究

180公园大道,弗洛勒姆帕克,NJ 07932

{ rbell,你们 @research.att.com Huda }

摘要

推荐系统基于协同过滤预测用户偏好的产品或服务,通过学习过去的用户项目关系。一个主要的方法来协作FI 滤波是基于邻域(“近邻”),其中一个用户的项目优先等级插补从类似的项目和/或用户评级。我们加强基础的方法学习社区 丁子预测精度大幅提高,没有一个有意义的增加运行时间。首先,我们删除某些所谓的“全球效应”从数据做出评级更多的比较 的产品,从而提高插值精度。其次,我们展示了如何同时德河插值权重最近的邻居,与以前的方法,每个重量计算 D国家环保总局非常好。通过在全球范围内解决一个合适的优化问题,同时插补占许多邻居之间的行动,从而提高精度。我们的方法是VE 在实践中快速的RY,在大约0.2毫秒产生一个预测。重要的是,它不需要训练的许多参数或冗长的预处理,使其大规模很实用 应用.最后,我们展示了如何运用这些方法的直观的慢得多的面向用户的方法。为此,我们提出了一种新的计划,低维嵌入的用户。我们E 对这些方法在Netflix的数据集,在那里他们提供比商业NE t-flix CineMatch推荐系统更好的结果。

1引言

推荐系统分析 在项目或产品的用户兴趣泽模式提供个性化的建议项目,将适合用户的口味,[ 1 ]。越,其出色的能力来描述和建议 最终项目在巨大的集合代表一个计算机化的影响人的建议。因为好的个性化的建议可以添加另一个层面的用户体验,像亚马逊和在线电影租赁公司Netflix的电子商务的领导者,已经录制ommender系统网站的一个突出部分。

一般来说,推荐系统 茎使用两种策略之一。基于内容的方法配置每个用户或产品,允许程序关联用户与匹配的产品。例如,一个电影简介可能会抄写 其体裁,参与的演员,其票房破p-ularity,等用户配置文件可能包括人口统计信息的信息或一个合适的问卷答案。当然,基于内容的策略 要求收集外部信息可能不可用或容易收集。

我们专注于一个替代性的策略,称为协同过滤(CF)[ 6 ],只依赖于过去 用户behavior-e.g.,他们以前的交易或产品的评级和不需要显式支持文件的创建。CF分析用户之间的关系interde下产品 为了识别新的用户项关联。除了避免需要广泛的数据收集有关项目或用户,CF不需要领域知识。此外,它提供了潜力 发现模式,这将是困难或不可能的配置内容为基础的技术。这导致了许多文件(例如,[ 8 ]),研究项目(例如,[ 9 ])和商业系统(E. 例如,[ 11 ])基于CF。

从更抽象的角度来看,CF可以被转换为缺失值估计。给定一个用户项目矩阵的分数与许多丢失的值,我们的目标是估计失踪 根据给定的值。所观察到的用户项目分数衡量各用户和项目之间的兴趣量。我们称这些用户项目得分的评级,他们构成的输入 我们的算法。

CF最常见的形式是基于邻域的方法(也被称为“近邻”或KNN,简称)。KNN方法确定的项目,往往是大鼠对 ED同样或相似的用户具有相似的历史评级或采购,以预测未观察到的用户项目对大鼠表现。

三主要成分表征KNN AP主动 (1)数据规范化(2)邻居选择(3)插值权重的确定。我们的经验表明,邻居选择策略之间的差别不大,(例如,基于距离和基于相关的)。然而,其他两组 NTS,即数据的规范化和插值系数,证明了该方案的成功至关重要。因此,我们重新审视这两部分,提出一种新的方法能够显著提高 E KNN方法精度不会影响运行时间。我们的三个主要贡献是:

1、这是习惯规范数据之前激活了KNN方法。这带来了 不同的评级,以更接近的水平,它允许更好地混合。这通常是通过调整不同的是,在大鼠的用户和/或项目。在第3节我们提供了更多的C 综合考虑影响正常附加在几乎所有的收视率数据是可用的。这允许我们解释和消除大部分的干扰性 从数据和工作的残差,更适合于相互插值。

2、过去的KNN方法涉及的物品(或用户)的相关系数的各种启发式的变种,这 允许直接插值从邻居的成绩。我们在4节提供了一个严格的替代这些插值权重基于全局优化的成本函数,属于我们 权利的同时。这导致在另一个改进的估计质量与运行时间略有增加。

3、KNN方法可以利用两种不同类型的信息:项目— 项目,主题用户如何评价类似项目;用户用户,主题项目如何评价由志同道合的用户。因为那里的典型特点是用户在系统的项目越多,用户定位 ED的方法被称为慢和不准确。在5节中我们讨论的好处,同时再利用一个面向用户的方法,我们为了缓解内在的计算提供了一种新的方法 困难的面向用户的方法。

一种激励性评价对Netflix用户电影集[ 3 ]的结果是在6节的规定。

2相关工作

我们给予评级 关于M和N的用户项目,安排在一个Mtimes;n矩阵R = {rui} 16u6m,16i6n。我们保留区分用户项目特殊索引字母:用户U,V,和物品I,J,K。

2.1于社区的协作fil-tering

原来的邻居为基础的方法,这是几乎所有的早期CF系统共享,是面向用户的;见[ 8 ]为良好的分析。为了估计未知评级瑞,我们采取一套用户N(u;i),往往率类似于U(“邻居”),和实际额定项目(即,RVI 众所周知,每个Visin;N(u;i))。

将预测值作为邻居评级的加权平均值:

类似的替代 o面向用户的方法是面向项目的方法[ 11,15 ]。在这些方法中,估计未知的芮,我们确定了一组相邻的项目N(I,U),其他用户倾向于类似率 所有的项目在n(I,U)必须已由美国评级,然后,在平行于(1),估计的值被视为加权平均相邻项目的评级:

相似的SUV或Sij-记中发挥核心作用,因为它们是用来选择邻居和加权平均以上 锿.常见的选择是皮尔森相关系数和密切相关的余弦相似性。方法也各不相同,如何正常化或中心数据插值规则(激活之前 1)或(2)。例如,针对用户特定的方法进行校正可以提高预测质量。我们提出了一个更全面的处理3节数据的规范化。萨瓦尔等。[ 15 ]发现 项目导向的方法提供更好的质量估计比面向用户的方法,允许更高效的计算。更大的效率发生,因为通常,它的数量 EMS是显著低于用户数量,可以预先计算所有项目的相似性检索的需要。

邻里为基础的方法变得非常受欢迎,因为他们 直观和相对简单的实现。特别是,他们不需要调整许多参数或广泛的训练阶段。他们还提供了一个简洁和直观的理由 计算预测。他能够向用户展示他或她先前评价过的类似项目的列表,以此作为估计的基础。这样,用户就可以理解 E推理背后的推荐,让他/她去评估其相关性较好(例如,下调评级的估计,如果它是基于一个项目,他或她不再喜欢),甚至鼓励改变用户过时的评级。

然而,标准的邻居为基础的方法提出了一些关注:

1、相似性函数(SUV或SIJ),直接去罚款插值系数, 是任意的。不同的CF算法使用不同的相似性措施,试图量化用户的难以捉摸的概念或项目相似性。假设一个特定的项目是预测完全由邻居的一个子集。在这种情况下,我们希望预测的子集来接收所有的重量,但那是不可能的 E有相似的成绩和皮尔森相关系数。

2、以前邻居为基础的方法不考虑邻居之间的相互作用。每一个相似的项目 和邻居Jisin;N(I;u)是计算机独立的N含量(I;u)和其他相似之处:植Kisin;N(I;u){,}。例如,假设我们的产品是电影,和邻居 集包含三个电影是高度相关与对方(例如,续集,如《指环王1–3》)。一种算法,忽略了三部电影的相似性,当确定其插值权重,最终可能是三计数群体提供的信息。

3、根据定义,插值权值和为一,这可能会导致过度拟合。假设 该项目没有任何有用的邻居由特定的用户评级。在这种情况下,最好是忽略邻域信息,与当前的数据归一化呆。然而,这 配方使用标准社区为uninforma性邻居额定值的加权平均。

4、邻域方法如果不在邻居variabil性不同的工作。 在最近的工作[ 2 ],我们克服了这些缺点,但产生的算法比以前的邻域方法慢几个数量级,从而限制了其实际的一个 pplicability。在这项工作中,我们解决上述问题的邻域为基础的方法,而不会影响运行时间效率。

3归一化去除全局效应

虽然 社区和基于分解的CF都是强大的预测方法,有之前无论是技术模型简单,估计我们所称的“全球影响的几个原因。”网络 首先,有可能是大量的用户和项目effects-i.e.,一些用户给比其他用户更高的收视率和一些项目获得较高的评级系统的倾向。基本分类 插值方法详细的方程(1)-(2)要求评级,用户和项目的影响已被以,例如,避免预测低额定项目发生太高 许多高平均收视率的邻居,反之亦然。

其次,一个可以访问的信息要么项目或用户能够受益的模式。虽然分解了 潜在的通过潜变量估计检测这样的结构,直接引入变量如电影类型和用户的人口统计可能是更有效的,不需要训练的因子分析模型。虽然这样的内容为基础的分析超出了本文的范围,我们考虑两种类型的易得变量:t一个项目或一个用户的收视率和一个项目或用户的平均评级。让我们像这些变量,例如,区分用户谁喜欢最常见的B级电影 最喜欢那些更专业的票价(控制后的电影和用户的影响)。

第三,可能有特定评级的特征,如评级日期,即平原分数的变异。例如,一个特定的用户的评级可能会缓慢,或突然上升,随着时间的推移,以上任何变化所解释的固有质量的项目—ING评级。同样,一些电影的收视率可能会随着时间的推移后,他们的初始发布日期,而另一些经得起时间的测试相当不错。既不分解也不KNN可以预期像这样检测模式。

3.1研究方法

我们的策略是估计一“效应”在一个时间,在序列(即项目,主要影响用户,主要影响用户交互,等等)。在每一步中,我们使用前一步的残差作为当前步骤的因变量。因此,在第一步之后,rui,而不是原始评级。

对于 上述影响,我们的目标是一个参数的每一个项目或一个参数为每个用户估计。为本款的其余部分,我们描述我们的方法估计 用户特定的参数;项目的方法是完全类似的。

我们用XUI利息对应用户和项目对用户的影响主要解释变量,XUI的 是相同1。其他的全球影响,我们中心为每个用户减去XUI XUI意味着用户。在每一种情况下,我们的模型是:

具有足够的额定值 对于用户u,我们可以使用无偏估计:

其中每一个总和超过所有项目由美国评级—曾经,稀疏数据,一些theta;U值可以是基于D的。

很少观察,导致不可靠的估计。为了避免过度拟合,我们缩小theta;你个人价值观朝着一个共同的价值。收缩的动机可以从贝叶斯角度 VE。假设真的theta;U为相互独立的随机变量的正态分布绘制,

已知的micro;和tau;2,而

已知的sigma;U2。我们估计theta;u的后验均值:

的实证估计theta;U和普通的意思micro;线性组合。参数sigma;U2 可以从一个加权平均方差的公式估算,而micro;可以通过theta;U的平均估计(可选加权奴)。经验贝叶斯[ 4 ]表明,最大的类似 2的tau;似然估计可以发现为解决:

在实践中,我们使用了一个稍微简单估计的theta;U 该micro;= 0和sigma;U2是1 /女比例,产量:

其中v是由用户和alpha;评级的数目是一个常数。通过交叉验证确定alpha;。

3.2举例

我们我 说明在Netflix的数据[ 3 ]连续的全球效应估计的影响。该数据集是基于超过1亿额定值由该公司Netflix的客户进行电影是D 在段6的细节描述。在这里,我们报告的结果对探针集,这是一个测试集包含大约140万的评级由Netflix。预测的准确性是由他们的 均方根误差(RMSE)。

表1显示了如何为探针的RMSE设定下降与每个连续的全球影响的夹杂物。不惊人地,迄今为止RMSE最大的改进 有伴的两套电影的主要影响和用户。他们降低了均方根误差从1.1296基于训练数据的平均评级,下调至0.9841。

更感兴趣 各种相互作用。第一个动作术语,用户times;时间(用户)1 / 2,允许每个用户的评级线性变化的平方根的天数,因为用户的第一次评级。探讨 实验室分析表明,这一转型提高拟合相对T O天转化数。从技术上讲,我们每XUI在(3)对经过的天数的平方根 由于第一个评级由用户u直到时间u额定项目i然后,对于每个固定用户U,我们中心所有计算值的计算theta;XUI,U为预测基于XUI瑞。这种相互作用 生产中,可减少0.0032的RMSE。

同样,用户*时间(电影)1 / 2,允许每个用户的RAT线性变化的平方根的天数,因为电影的第一次评级由任何人。 有些令人惊讶的是,后者的互动贡献几乎

表1。RMSE Netflix调查数据后对模型添加一系列的全球影响

多达第一。两个额外的时间相互作用,注重互补的电影观。也就是说,每部电影,他们模拟其收视率随时间的变化。再次,时间变量是从电影的第一次评级,或平方根的天数,因为第一次评级用户的平方根。

TH 接下来的两个相互作用的用户与电影特性。我们衡量电影的流行有两种不同的方式:(1)它的平均收视率;(2)它的支持,这是收视率的数量与电影有关。这些影响用户times;电影平均用户times;电影支持措施用户如何改变基于电影的流行受到它们的评级。我们试图在这里估计如何密切 用户遵循民意,或者相反,用户是如何逆势。最有效的互动是用户和电影平均,表明用户在如何变化 他们一致同意。lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[137390],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版