文献综述(或调研报告):
对推荐系统的的需求源自人们的生活。然而对比传统的推荐系统,智能标签系统增加了标签这个新的度量。国内外也有不少面向标签的推荐系统研究。如何处理标签的一些问题也成了国内外研究者的新的课题。
俞崇伟[1]在解决推荐标签质量不高,稀疏冷启动和模型实用性的问题[2]时,提出了一种新型的融合内容分析与标签拓展的推荐方法TECA(Tag Expansion and Content Analysis) 。为了给新资源推荐标签和用户,他对资源分类训练形成分类器,对每一类别的资源单独建模,这就避免了统一模型的适用性问题。在对用户建模时,通过邻居用户的标签来拓展用户标签矩阵,缓解了数据稀疏性的问题。通过结合历史标签集和资源自身的内容分析,保障了推荐的标签质量。通过从内容上挖掘资源的潜在主题,避免了新资源缺少历史信息的冷启动问题。其中作者基于CiteULike的真实数据进行了相关实验,验证了在模型适用性和数据稀疏性方面有所提升。但是在分析历史标签集和自身主题词时,并没有将语义层面考虑进去,结合中国博大精深的汉字来说,这是一个不小的挑战。作者针对问题提出改善方法,单独建模的思路本人十分赞同。
肖博文[3]则是在结合了基于内容和基于协同过滤的两种推荐算法的原理和优缺点,提出了基于标签的协同过滤算法,并在此基础上进行了优化和改进以提升推荐的精确度。他分别对音乐-标签和用户-标签进行了特征建模,构造出两种有向特征图。将用户特征有向图与适配度最高的聚类簇中的音乐进行匹配。但是该算法过于依赖用户数据和音乐数据。一旦存在数据稀疏性问题,那么推荐结果很难达到预期效果。对标签内容意义的解析也没有做到。
董跃华等[4]面对推荐系统的准确率问题时,提出了一种改进用户属性评分的协同过滤算法(IUAS-CF)。他们针对用户相似度计算精度低和缺乏个性化等问题,设计了了一种计算个性化用户相似度的距离度量公式,不仅如此,针对用户自身存在影响用户抉择的用户属性,他们将用户属性评分量化,作为参数引入相似度计算公式中,提高了推荐系统的推荐精度。
王培培[5]分析了用户的标签特征[6]和用户个体的重要性,提出了一种基于多标签聚类[7]和核心用户的推荐算法,有效的发掘用户间和标签间的潜在关系。他在用户位置权重上的定义是我非常赞同的。不仅在推荐效率上有所提升,推荐的准确性和多样性也有明显提高。
孔祥迎[8]在协同过滤算法的基础上,基于社会化标签结构[9],提出了一种全新的协同过滤算法,得到商品-标签联合推荐结果。一种方法是利用用户和商品的购买关系得到商品的推荐、利用用户和标签的使用关系得到标签的推荐,分析商品和标签的关系,进而得到商品-标签联合推荐结果。 这种算法考虑了用户-商品二元关系和用户-标签二元关系。另外一种方法是将用户用商品-标签矩阵表示出来,然后利用传统的协同过滤算法给每个用户推荐商品标签矩阵。这种算法只是考虑了用户-商品-标签三元关系。作者将这两种算法产生的商品-标签联合推荐产生的结果线性组合起来,就组成了最终的商品-标签联合推荐结果。最后将联合推荐结果映射到商品空间,形成商品推荐。我对作者将算法组合形成更准确的推荐结果十分赞同,但是每个标签对不同商品和不同用户有不同的作用,应该设置不同的权重。
王志慧[10]也将社会化标签融入到协同过滤算法中,利用社会化标签去实现对用户的个性化推荐。针对传统的协同过滤推荐技术中的数据稀疏性问题,提出一种改良的基于标签系统的协同过滤推荐技术。将具有表征资源特征与用户兴趣的标签引入到协同过滤推荐技术中,对传统的算法进行改进,从而提出一种基于标签聚类的推荐模型,选择合适的评估指标,实验数据表明改进后的模型推荐效果更好。作者在解决稀疏性问题时,引入不同的标签进行聚类,从根源解决问题,从而提高精确度,这点我十分赞成。但是作者在进行标签聚类时,没有对标签间的共现次数纳入考虑范围内,对标签语义的识别就会模糊。
孔欣欣等[11]学者针对推荐系统的冷启动,复杂兴趣推荐困难,解释性差等问题,提出了一种基于标签权重评分的推荐系统模型。通过对每个标签配上相应的评分,来描述用户或物品在该标签上的权重,并且在最大程度降低客观因素对用户评分的影响。本人对为标签划分权重的想法十分赞同,但是用户的反馈的准确度难以确定,这对再次推荐的准确度有所影响。
张子柯等[12]教授在《Tag-Aware Recommender Systems: A State-of-the-Art Survey》一文中总结了标签感知系统的研究进展,介绍了三种方法:基于网络,基于张量,基于主题。基于网络和基于张量的方法虽然克服了大规模数据的稀疏性问题,但是没有考虑标签之间的关系。基于主题的方法将标签分成不同的主题,相比之下更有意义。此外,张教授还提出了新的方向:不分解任何信息的情况下充分解决标签网络的完整性,预测联合节点对,基于概率的模型,多层网络,动态系统等等。
