1. 研究目的与意义、国内外研究现状(文献综述)
课题意义
随着互联网的发展,互联网信息数据量呈指数型爆炸增长,研究表明,网络信息数据量急剧增长,年增长速率高达50%[1]。虽然互联网信息的增多能让用户有机会接触到更多的信息,但互联网上的信息越来越多,就会导致索求信息的人看到庞大的信息数据,质量也是良莠不齐,无法精确地得到需要的信息,他们必须要花费很大的时间成本去甄别这些信息,找到符合自己的信息。这就是所谓的信息过载问题[2]。
随着互联网信息的增加,电影信息资源也急剧增加,虽然极大地扩充了电影的资源池,为用户提供了丰富的电影资源,但是其在便利、快捷的带来众多信息的同时也使得繁冗的电影资源让用户眼花缭乱,致使用户需要花费大量时间去筛选其感兴趣的电影。推荐算法通过计算从而定位用户兴趣,实现了将用户真正感兴趣的内容快速的导向用户,从而实现了为用户提供个性化、优质服务的目标,为解决上述问题提供了技术方案。
2. 研究的基本内容和问题
本研究实现的是基于协同过滤的电影推荐系统,需要有良好的推荐的效果,优秀的用户体验。
研究的主要内容如下:
本研究要完成的是一个以协同过滤推荐算法为核心的电影推荐系统。该系统可分为五个模块,分别为用户管理模块,后台管理模块,电影查询浏览模块,电影推荐模块以及电影评分评论模块。其中,电影推荐模块是核心模块。本研究的主要目的是通过解决协同过滤算法中存在的一些问题来提高电影推荐的精准度。针对协同过滤的冷启动问题,本研究一方面考虑在新用户注册的时候让其选择感兴趣的电影类别,而为其第一次的推荐便是该类别的热门电影;另一方面考虑结合基于人口统计学推荐,即在第一次推荐时利用用户给出的身份信息找到近似用户并给出推荐。针对评分矩阵的稀疏性,本研究考虑采用基于信息熵的预填充方法,从而避免因为物品的评价人数过低而使得用户间的相似度提升的问题。针对用户量和物品量过大使得计算效率下降的问题,本研究考虑采用k-means聚类的方法在计算相似度之前,先根据评分矩阵对用户进行以此聚类,以此缩小用户范围,降低计算用户相似度的计算量,节约计算时间。针对活跃用户对基于物品的协同推荐算法中推荐精度的影响,本研究使用iuf(inverse user frequence)参数来修正物品相似度。
3. 研究的方法与方案
本研究的数据集来自movielens,movielens是一个关于电影评分的数据集,里面包含了多个用户对多部的评级数据,也包含了电影元数据信息和用户属性信息。该用户观影数据集包含943名用户以及1682部电影,记录了用户对电影的10000条评分及评分时间,该评分采用5分制,用户评分区间[1,5]。
协同过滤的推荐过程一般可以概括如下:
(1)收集每个用户的历史行为,即用户偏好数据,构建评分矩阵。
4. 研究创新点
特色或创新之处
(1)针对协同过滤的冷启动问题,本研究一方面考虑在新用户注册的时候让其选择感兴趣的电影类别,而为其第一次的推荐便是该类别的热门电影;另一方面考虑结合基于人口统计学推荐,即在第一次推荐时利用用户给出的身份信息找到近似用户并给出推荐。
(2)针对评分矩阵的稀疏性,本研究考虑采用基于信息熵的预填充方法,从而避免因为物品的评价人数过低而使得用户间的相似度提升的问题。
5. 研究计划与进展
研究计划及预期进展
0-10天 下载数据集、开发工具,划分后台模块间关系,总结后台应该提供的api
10-30天 结合数据集确定推荐算法,编写电影推荐模块。
