一种基于流派关联的电影分类和推荐算法外文翻译资料

 2022-11-28 15:49:16

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


一种基于流派关联的电影分类和推荐算法

摘要 协同过滤(CF)是应用于推荐系统的一种经典算法,用于预测和推荐用户可能喜欢的项目(信息,产品或服务)。协同过滤的著名应用有亚马逊推荐系统,movielens等。推荐系统在商业和研究领域很受欢迎,并应用于各种网络平台,如电影,音乐,书籍,社交网络。实际应用中,电影推荐系统主要功能是电影制作个性化推荐。电影推荐系统中采用的现有CF算法仅使用看过电影的志趣相投的用户的评级(即偏好)来预测给定用户对电影的未知评级。在这些方法中,提高推荐系统的准确性存在一定的限制。本文提出了一种电影推荐算法,利用电影的流派来提高评分预测的准确性。本算法使用电影评级信息在数字上测量电影流派之间的相关性; 使用流派相关性对电影进行分类,并利用分类的电影为目标用户生成推荐电影的列表; 最后使用传统的CF算法预测列表中的电影的评级。实验结果表明,本算法在电影评级预测中比现有电影推荐算法具有更高的准确性。

关键词 协同过滤;流派关性;电影分类;电影推荐

1引言

随着互联网的发展,电子商务网站的数量以及在线客户和产品的数量都大幅增长。网络市场变得更具竞争力,在线商店需要针对性的营销工具,以增加销售额、利润和客户满意度。推荐系统通过根据顾客的历史行为,购买记录和兴趣向顾客提供个性化的推荐,为电子商务网站的这些商业目标提供服务。近年来,智能设备和社交网络的广泛使用帮助电子商务网站收集了关于用户行为、活动或偏好的大量信息。与此同时,需要发展在推荐系统中有效分析和使用这些数据的新技术。推荐技术正日益与其他专业领域相关联,以提高推荐系统的性能,覆盖范围和准确性[9]。

协同过滤(CF)是推荐系统的常用技术,用于预测和推荐用户可能喜欢的项目(信息,产品或服务)。Amazon.com的推荐系统是CF最著名的例子之一。推荐系统在商业和研究领域都很流行,并且在电影,音乐,书籍,社交等各种领域都有应用。其中,电影推荐系统是为电影制作个性化推荐。

基于CF的电影推荐使用大量来自用户的评分(偏好分数)来预测相似度分数或给定用户的前N个推荐电影的列表。由于它们只使用用户明确给出的可用评分,因此预测准确性会面临一定的限制[1,3,7]。由此采用其他项目属性的作品以获得更精确的建议被提出[4,6,11-13]。本文提出一种电影推荐系统的算法,利用电影的流派以及电影的评级,来提高评分预测的准确性。

每部电影都有不同的属性,如名称,流派,主演,导演,主题,情绪,设置等。电影流派(动作,喜剧,浪漫等)可以以几种方式分类,但通常是专家为电影分配流派。总的来说,人们可以在同一流派的电影中找到某些相似之处,但是对于流派分类和分配没有具体和量化的标准[4]。另外,电影可以具有多于一种流派,因此当没有明确给出该信息时,没有办法计算地为电影确定具体单个流派。

考虑与电影相关的流派组合比单独考虑它们中的每一个流派更加全面。一些流派组合比其他流派更明智的事实表明,电影流派是互相关联的 [4,13]。观众经常可以根据其流派猜测电影的故事,情绪和设置,因此电影的流派会影响观众对电影的兴趣,并最终决定是否观看。大多数人至少有一个他们喜欢的电影流派。据推测,喜欢动作电影的用户可能会更满意系统推荐的动作影片,而倾向于其他喜欢的流派 [4]。

现有的电影推荐系统的CF算法使用用户给定的电影评级进行推荐,而不考虑其流派或流派相关性[2,5,8,10]。本文提出的算法计算评分电影得分的流派之间的相关性,并根据计算出的流派相关性对目标用户进行电影分类和推荐电影列表预测。

2相关工作

在本文中,改进的电影推荐算法的预测精度与以前的工作相结合:[2]中的基于用户的协同过滤和[10]中的基于项目的协同过滤。

2.1基于用户的协同过滤

基于用户的CF根据用户评分计算用户的相似度,找出一组用户,称为邻居,他们的观点历史上与目标用户相似。然后,它将邻居的评分结合起来,以预测目标用户的评分或前N推荐。使用Pearson相关系数测量用户相似度,并使用以下所示的偏好预测公式执行评分预测。和分别是由用户u和v评价的项目的集合,因此cap;是用户u和v.ru的共同评价的集合,i表示用户对用户评价的评价 u,是用户u评分的项目评分的平均值。集合Nu包含用户u的k个最近邻居。

2.1.1用户相似度计算

2.1.2偏好预测

2.2基于项目的协同过滤

基于项目的CF使用用户给定的评分计算项目之间的相似度。通过查找与用户喜欢的其他项目相似的项目来计算用户的建议。一旦找到最相似的项目,通过对这些相似项目的目标用户的评级进行加权平均来计算评级预测。项目相似性使用Pearson相关系数计算,评级预测使用下面的加权和方程[9,10]进行。

Ui 和Uj分别是对项目i和j进行评分的用例集合,因此Ui cap; Uj是对项目i和j进行评分的用户集合。Iu是由用户u评价的项目集合,ri是用户给予项目i的评分的平均值。

2.2.1项目相似度计算

2.2.2偏好预测

3改进算法

提出的算法具有预处理过程,首先用评分分数来测量电影流派之间的相关性,并使用所测量的相关性将电影分类为单个流派集群。当推荐事件发生时(即,用户请求电影推荐),算法计算目标用户偏好的流派,筛选出属于目标用户的优选流派及其类似流派的电影(即目标用户的首选流派),并创建推荐电影组成的推荐列表。最后预测列表中电影的评级并将其推荐给目标用户。

3.1流派相关性测量

电影的流派通常由专家的主观判断来分配,并且很难量化流派分配的标准。所提出的算法使用电影的评分来计算电影流派之间的相关性。用genre_corr(a,b)表示流派a和b之间的相关性,使用下面的公式计算。

注意在(5)中,由genre_prob(a,b)表示的流派概率和由流派权重(a,b)表示的流派权重对genre_corr(a,b)同样有贡献。genre_corr是电影流派之间的关联。由于genre_corr(a,b)和genre_corr(b,a)可能不同,相关矩阵是不对称的。它使用genre_weight和genre_prob进行计算。genre_weight是使用Pearson相关系数计算的,所以权重矩阵是对称的。genre_prob是电影流派的共现概率。概率矩阵是不对称的。在等式(5)中,以相同的比率(omega;= 0.5)反映genre_weight和genre_prob的每个特征。可以看出,相关矩阵是不对称的(图1和2)。

3.1.1所属流派概率

动作电影爱好者对冒险电影的兴趣不一定等同于冒险电影爱好者对动作电影的兴趣。因此,流派之间的相关性需要不对称计算[4,5]。在所提出的算法中,使用条件概率来计算流派概率。

其中Ia是属于流派a的电影集合,并且Ia cap; b 是属于流派a和b的电影集合。

3.1.2 流派权重

流派权重方程(皮尔逊相关系数的变体)计算属于流派a和b的电影的评分相关性。在下面的等式中,pnti(a, b) 表示电影i的惩罚,i, s*,i 表示评级电影i的用户给出的评级集合,并且sa 属于流派的电影的评级的平均值。

如前所述,与单个电影相关联的流派可以有多个。与电影相关的流派数量越少,相关流派之间的相关性越高。因此,根据电影所属的流派的数量,pnti是不同的。流派权重方程有两种目标流派(流派a和b),所以pnti公式的分子为2个,分母是电影i所属的流派的数量。Gi是i所属电影的一组风格。

图1 UBGC预测每个omega;值的MAE预测精度

图2 UBGC预测每个omega;值RMSE的准确度

su,i 表示电影i的偏见删除评级。它是通过从用户u给出的电影i的评级中减去用户偏差,电影偏差和所有评级的平均值而计算出来的[1,8]。su,i 是计算电影流派之间关系的公式中的一个元素。

用sg 表示的流派a的平均评级,通过减去流派a(b*)中评价电影的用户的平均偏好,流派a(ba) 中的电影的平均偏好以及来自其中的所有评级(mu;)的平均值流派a(ra)中电影的平均评分。sg对应于皮尔森相关系数中的平均评分的要素,基于用户的CF中的用户的平均评分和基于项目的CF中的项目的平均评分[5,10]。流派之间的相关性使用sa 和su,i计算。b*是评价电影流派a的用户的平均偏好。流派a的平均偏差用ba 表示。这是通过从流派a (b(Ua)) 中的电影的平均评分中减去评价流派a (b(Ia)))中的电影的用户的平均偏差和流派a (r(Ia)) 中的电影的平均偏差得到。

3.2电影分类

电影的分类使用相关的电影流派和流派相关性来执行[4]。在MovieLens 100k数据集中,确定了18种流派,从而创建了18times;18矩阵。请注意,数据集中包含“未知”流派的电影已被排除。将每部电影的流派相关联以将电影分类成具有最高相关性分数的矩阵中的单个对应类。

在MovieLens 10 M数据集中,所提出的算法计算了7种流派的相关性,如下面的矩阵所示。假设三部电影i1,i2和i3使用这些流派相关性进行分类。矩阵行表示电影的流派,列表示用户的首选电影流派(表1)。

表1 计算出的几种流派相关性的例子

为了对电影i1 进行分类,识别属于动作,冒险和犯罪的案件的数量,并且比较所识别的流派对的相关值。电影i1被分类为具有最高相关值的一对流派(矩阵中的流派)。请注意,当电影属于多个流派时,不考虑两个相同流派的关联(表2)。

这七个电影流派分别由g1(Action),g2(Adventure),g3(Animation),g4(Children),g5(Comedy),g6(Crime)和g7(Documentary)表示。

如上表所示,电影i1属于三种不同的流派。一旦排除了相同流派的配对,就有6种可能的情况。在这6例中,g1,g2的相关值最高。因此,电影i1被分类为g1,g2类。类似地,电影i2被分类为具有最高相关性分数的g4,g3类。电影i3属于单一流派,因此它被分类为g7,g7类。

3.3电影推荐

在经过3.1节和3.2节中描述的预处理过程之后,所提出的算法执行电影推荐过程,该过程产生推荐电影的列表并预测列表中的电影的评级。

如果目标用户喜欢流派g1,则按照g1,g2,g6,g5,g4和g3的顺序选择要推荐的流派,并且属于所选流派的电影包括在推荐中名单。例如,如果选择目标用户的一个喜欢的流派(g1)和两个相似的流派(g1,g2),则将这些动作分类为cg1,g1和cg1,g2 推荐给目标用户。

3.3.1创建推荐电影列表

使用目标用户给出的评级,计算18种流派的评级频率,并且选择前N个频繁评级的流派作为目标用户的首选流派。这里,N等于下面等式中的UPGC。在目标用户的电影推荐列表中包括与目标用户的偏好流派类似流派中的电影。类似流派的数量由SGC表示。使用基于项目的CF算法和基于用户的CF算法预测推荐列表中电影的评分[5,10]。

表2 使用流派相关性的电影分类示例

3.3.2电影评级的预测

推荐列表中的电影的评级使用经典的基于用户的和基于项目的CF算法来预测。在基于用户的CF中,偏好预测方程用于预测目标用户将给推荐电影的评级(偏好分数)。在基于项目的CF中,加权和方程用于电影评级预测。

4实验评估

4.1数据集描述

MovieLens中可用的电影数据集用于评估所提出算法的预测精度。MovieLens 10M数据集用于计算电影流派相关性,MovieLens 100 k数据集用于制作电影推荐(表3)。

在MovieLens 100k数据集中,80%的数据是训练集,20%是测试集(使用5倍交叉验证)。使用该数据集中的数据,评估了改进算法和常规算法预测的电影评级的准确性。对五组训练集和测试集进行实验以评估评估预测的准确性,并比较这五个实验的平均结果。

表3 MovieLens数据集描述

4.2评估指标

4.2.1 MAE

4.2.2 RMSE

在(13)和(14)中,pi 是电影i在测试集中的真实评分,而qi 是电影i在测试集中的预测评分,N是测试集中进行评风预测的电影集合。

4.3评估

单独为基于用户和基于项目的CF方法进行实验。在每种方法中,经典的CF算法和使用流派相关的算法进行了实验,并比较了它们的预测精度。

4.3.1基于用户的CF(UBCF)

图3和图4显示了由UBCF算法产生的电影评级预测的准确性。k表示k-最近邻算法的参数。通过k从10到942来计算预测精度,精度值为MAE和RMSE。在MAE和RMSE中,当k = 450时,获得最佳结果(最准确的预测)。

4.3.2使用流派相关的基于用户的CF(UBGC)

改进算法中使用的参数k表示最近邻居的数量,由UPGC表示目标用户的优选流派的数量,以及与由SGC表示目标用户的优选流派相似的流派的数量。为了找到最佳性能,通过改变参数的值来检查所提出算法的准确度变化。对于参数k,数值从10增加到900(图5和6)。

图3 UBCF对每个k值的MAE预测准确度

图4 UBCF预测每个k值的RMSE准确度

对于单个k值,通过从1到9改变UPGC和SGC产生了81个结果,并且确定了结果的中值和最大值。在进行的实验中,当UPGC和SGC较小时推荐电影的数量较少,因此在MAE和RMSE度量中使用中值而不是最小值。另外,在MAE和RMSE测量中使用最大值来发现具有小

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[22012],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版