移动环境下用户可选择的交互式推荐系统
摘要:移动设备需要在一个小屏幕和有限信息检索功能的计算环境中提供更准确和个性化的信息。本文提出了一个用户可选择的推荐系统,该系统通过使用协同过滤技术在移动环境中提供有用的信息来反映用户的兴趣群体。我们通过同时考虑用户的信息偏好和人口统计特征来组成相似的小组。然后,我们根据相似的人群所选择的搜索结果建立最终的推荐列表。这是一个可选的搜索结果过滤器。这意味着我们提供了一个灵活的交互式推荐列表,可以更积极地考虑用户的意图,而不是单方面的。我们给出了平均绝对误差的结果来评估这个建议,并在最后给出了一个基于iPhone和Android手机环境的原型的实现。
关键词:推荐系统、协同过滤、互动推荐、智能手机、MAE
- 引言
当人们使用公共交通工具时,如地铁或公共汽车,使用移动设备享受某种类型的娱乐已成为一个非常熟悉的场景。最初,智能手机并不吸引普通民众。但是现在智能手机占据了很大的市场份额,并且在苹果公司的iPhone发布后,开始在用户中广泛传播,尤其是在韩国。此外,移动环境技术,如无线网络正在不断发展,这也增加了智能手机的吸引力。
Web2.0的出现明确表明,用户的新角色是内容创建者。举个例子,YouTube宣布每分钟有24小时的视频上传到他们的网站上。这意味着更多的用户可以随时随地轻松地上传和下载视频。因此,视频的消费量增加了。
随着智能手机的普及和网络环境的发展,用户对各种内容有了更多的要求。尽管有这些趋势,但仍然存在一些问题。其中的两个主要问题是屏幕太小,不能按照通常的方式使用,而且信息检索受到硬件的限制。由于这些限制,用户发现很难从每天产生的数百个项目中识别出他们感兴趣的内容。它导致了移动设备对信息的需求,即需要为用户提供更加个性化的服务和相关的信息。因此,为了克服这一点,研究出使用信息过滤技术的推荐系统就显得非常重要。
自20世纪90年代中期以来,在线电子商务网站一直使用推荐系统以提供满足特定用户偏好的新内容或项目,向客户推荐产品。从用户偏好的反映来看,这区别于信息检索系统和搜索引擎,因此可以得到个性化、有趣的,有用的结果。
在Web2.0时代,内容推荐方法必须直接和明确地向用户提供选项,以及基于用户行为模式收集隐含信息。
因此,在本文中,我们描述了一个可选择的交互式推荐系统,以实现一个灵活的个性化内容列表并提高推荐性能。首先,我们提出一种基于人口统计特征和偏好信息同时将用户分配到组的方法。然后,我们检查这组用户进行类似选择的情况。并且,我们使用平均绝对误差(MAE)方法对所提出的推荐结果进行性能评估。最后,我们根据选定的案例构建推荐列表,并在iPhone和Android平台环境中展示原型。
我们的推荐系统与其他系统的最大区别在于,每个用户都可以灵活并且多样地选择推荐元素。其他推荐系统提供了基于固定元素的推荐列表,不考虑用户的选择。通过这个系统,用户可以随时选择对他们来说更有趣、更重要的相似组。
- 相关工作
2.1推荐系统
为了提高推荐系统的性能,推荐必须反映用户的个人资料。当我们使用过滤方法时,用户的个人资料是在显示形式 (例如评级、从最喜欢到最不喜欢的内容集合)和隐式形式(例如购买历史、用户听过的内容或者用户看过的内容)之间建立的。
图1.协同过滤过程
推荐系统一般分为三类——基于内容的推荐、协同过滤推荐和混合推荐,最早也是最成功的推荐系统之一便是协同过滤推荐系统。在基于内容的推荐中,感兴趣的内容由相关特征或元数据定义。在分析了内容特征之后,系统根据项目之间的相似性、内容和用户过去的偏好来推荐其他项目。与基于内容的推荐不同,协同过滤推荐会产生新的内容或服务推荐,这些内容或服务推荐被指望能获得目标用户的高度评价,这基于用户间的比较,即其他用户的主观评价。使用协同过滤推荐内容的过程包括三个步骤。首先,构建事先评估矩阵的输入数据。第二,配置与用户相关的信息和邻居数据。第三,根据最近的邻居来决定推荐列表,这也被称为Top-N推荐。图1显示了这个过程的示意图。协作方法根据集体情报或倾向于与目标客户相似的其他消费者的评价,推荐目标消费者最可能喜欢的商品。这种方法对于像书籍和电影这样的项目很有效,因为这些项目很难仅使用显式信息进行分析。
混合方法结合了基于内容的推荐和协同过滤推荐。虽然所有已知的推荐方法都有优点和缺点,但是协同过滤已经显示了一些局限性,比如稀疏性和可伸缩性。稀疏性问题发生在评级信息稀疏且不足以识别邻居时。这类似于冷启动的概念,冷启动也是由于缺乏用户偏好的数据造成的。可伸缩性问题意味着计算复杂度随着最近邻居数量、用户和内容项目的累积数量的增加而线性增加。
图2.推荐流程概述
图3.整体系统流程图
2.2表现评估
许多早期的评估工作都特别关注协同过滤算法在预测保留评级方面的准确性。准确性指推荐系统的预测评级与真实用户评级的接近程度。从这个意义上说,一个成功的推荐系统应该与用户满意度相关。MAE,平均绝对误差(MAPE)和根均方差(RMSE)是衡量推荐系统预测性能最常用的指标。其中,平均模型性能误差的尺寸估计和相互比较应该基于最广泛使用的指标MAE。
表1.服务场景
在统计学中,平均绝对误差是用来衡量预测或预测与最终结果的接近程度的一个量。MAE是根据公式1来计算的:
在MAE方法中,更小的值意味着更高的推荐系统预测性能的准确性。
- 拟议的用户可选择的推荐系统
3.1整体架构
本文提出的用户可选择的推荐系统为用户提供了选择相似组(SGs)的选项,这些组来自于协同过滤过程的步骤2中派生的SGs,并将参与到推荐配置中。图2显示了该流程的概述。正如您所看到的,在用户获得推荐列表之前,用户可以自己选择感兴趣的组。
这种方法有两个好处。首先,它扩展了向用户推荐列表的交互性。即它可以根据用户的选择的结果灵活地提供推荐。其次,它反映了社交网络和用户情境的特点。无论何时,只要用户想要更改SG选项的权重,他们就可以这样做。除了桌面体验之外,这种方法还会在用户的社交环境中产生SGs的动态组件。
整个体系结构的用户可选择的推荐系统如图3所示。
基于偏好类型(①,PG)而不是内容来配置用户组矩阵是应用降维技术来补充稀疏性问题的结果。。
它由四个SG组(②)组成,每个组基于用户信息与同一个PG共享。
这些组包括:
- SG1.具有相同的年龄组和相同的PG。
- SG2.具有相同的性别范围和相同的PG。
- SG3.具有相同的位置范围和相同的PG。
- SG4.具有相同的职业范围和相同的PG。
然后,组合用户决策选择的SGs(③),配置最后一步的最近邻(④),并向用户提供推荐(⑤)。当然用户可以选择多个SGs。
表2.原始电影数据样本
表3.原始用户数据样本
表4.修改后的用户数据样本
表5.用户类型百分比分析
3.2用户可选择的服务场景
如上所述,我们的服务场景旨在根据用户对哪些SGs更感兴趣来得到一个推荐内容列表。我们在场景中使用电影作为多媒体内容。表1给出了详细的场景。
PGs是通过分析用户已经观看的内容和事先给出的评级(详细场景2)得出的。SGs是基于用户的个人信息(如年龄、地点、性别和职业)对PGs和组进行交叉分析得出的。基于这些PGs和SGs,提供了用户可选择的推荐列表(详细场景5)。此场景的前提条件是用户的年龄、位置、性别和职业信息提前存储在推荐服务器中。
- 系统设计和实验
4.1数据集
在我们的系统中,我们使用了MovieLens数据集,这是明尼苏达大学的一项GroupLens研究。Movielens是一个推荐系统和虚拟社区网站,推荐电影给用户观看。截至1997年9月,该网站拥有超过50000名用户,他们对超过30000部不同的电影发表了意见,这个数据集给我们提供了943名用户对1682部不同电影的评级。表2和表3说明了样本数据。用户数据包括id(1lt;=id=lt;943)、年龄(7lt;=age=lt;73)、性别(男性或女性)、职业(N=21:管理员、艺术家、医生、教育家、工程师、娱乐业、行政人员、医疗保健人员、家庭主妇、律师、图书管理员、市场营销人员、程序员、退休人员、推销员、科学家、学生、技术员、作家、无其他人)和邮政编码(N=778)。电影数据由id、片名、上映日期、类型(N=19: 未知,动作,冒险,动画,儿童,喜剧,犯罪,纪录片,戏剧,幻想,黑色电影,恐怖,音乐,神秘,浪漫,科幻,惊悚片,战争,西部)和用户得分组成
图4.基于用户选择的SGs案例
表6.案例9的皮尔逊相关性
如表2和表3所示,原始数据不适合用于分析用户的PG,因为数据是按用户和项目划分的。因此,作为预处理步骤,通过向用户数据中添加PG来修改数据集。除了根据推荐启用位置之外,还应该对邮政编码进行分组。因此,邮政编码字段经历了一个从0到9的转换过程,使用的是数字的规律性。修改后的用户数据见表4。
应用程序实现的环境(包括服务器、客户机和生成器)构造如下
bull;服务器:Apache Tomcat 5.5,JSP XML
bull;客户端:iPhone SDK(Xcode,Interface Builder)3.2.1,iPhone Simulator V3.1,Android SDK(Android 2.1,Platform 2.1,API Level 7),Android DDMS
表7.案例9的推荐列表
表8. 15个案例的推荐列表
表8(接上)
4.2用户相似组设计
根据数据集,每个用户看到的电影数量最少为20部,最多为737部。我们选择一个人作为目标用户(Ua)。Ua是围绕平均值(m=64)选择的。
设计一组与目标用户类似的用户是一个两步的过程。
首先,我们提取出所有用户的PG。表5给出了10个用户的分析结果。例如,用户1看了211部电影,其中49%属于同一类型,31%属于另一类型。电影有多种类型。在这个结果中,我们可以观察到占比25%以上的类型的个数的平均值为2.7。所以,我们为每个用户选择了前3种类型作为PG。目标用户(Ua)的pg是戏剧、动作和喜剧。
其次,为了减少用户的SGs,我们同时使用PG和用户的个人信息。正如前面所描述的,SGs是对PG和用户信息类型(如年龄、性别、地点和职业)进行交叉分析得到的。根据用户的选择,可以将每个SG重新配置为一个集成组。因此,如图4所示,有15种派生SGs。
案例1为PG和年龄组,案例2为PG和性别组,案例3为PG和位置组,案例4为PG和职业组(4P1=4)。案例5-10是当每个用户选择2个SGs时的结果(4P2=6)。案例11-14是选择3个SGs(4P3=4)的结果。最后一种情况,案例15是从所有SGs(4P4=1)中选择的结果。随着步骤的进行,需要比较的用户组数量会减少。在案例15中,SG降低到到99.5%。这意味着SG结果可能更加准确地针对用户的选择。
表9. 案例1-4的MAE值
表10. 案例5-10的MAE值
-
- SG相似度计算
一旦目标用户(Ua)选择了SGs,我们就可以使用标准的协同过滤算法(比如皮尔逊相关系数)将这些选择与用户进行比较。用户之间的相关性可以通过公式2给出:
皮尔逊相关系数越接近1,相似度越高,相似度越接近-1,偏好差异越大。当它接近于0时,首选项之间的关系是无效的。表6列出了SG1中案例9的皮尔逊相关系数值。该值的置信度为95%,有效值以粗体标记。此值基于Top-N最近邻创建。
4.4根据案例推导推荐列表
接下来,它通过使用最接近的相似组中的相似度及其评分来预测目标用户未评估的项目的评分。然后,以每个用户的等级平均值和相似度作为权重,得到目标用户项目(a)的评价预测值(Pa,i)。Pa,i是目标用户a对项目i的预测; Pa,i是用户a和u之间的相似度;n是邻近的用户数。预测等级将由公式3给出:
表11.案例11-15的MAE值
图5.所有例子的MAE值
表7列出了Ua的推荐列表。推荐系统整理出最接近的邻居,并结合使用评级和权重值构造最终的推荐列表。
通过这个过程,表8列出了15个案例的推荐列表。
4.5性能评估
我们使用MAE方法来衡量提出的给予用户主动选择的推荐系统的性能,这与以往的研究只给出一种结果推荐是不同的。表9显示了案例1-4的MAE值。在这些情况下,用户只能在年龄、性别、位置和职业组中选择一个SG。即使用户平
剩余内容已隐藏,支付完成后下载完整资料


英语原文共 19 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[273393],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
