1. 研究目的与意义、国内外研究现状(文献综述)
选题背景及意义
计算机技术与互联网技术近年来飞速发展,互联网上的数据也处于飞速增长状态,人们可以通过互联网了解到各式各样的信息。然而在巨大的数据量之下,用户无法对所有的数据进行访问,往往耗费大量的时间却找不到感兴趣的信息。信息的飞速增长使得信息的利用率反而降低,这种现象被称为“信息过载”[1]。搜索引擎作为传统的解决办法,通过用户输入的关键词给出相关度最高的查询结果,但对于不同的用户返回的是相同的结果,无法满足用户多元化、个性化的需求。
推荐系统的出现很好地缓解了“信息过载”问题。web2.0的发展使得服务器可以记录用户的历史行为,例如浏览记录、购买记录、评价记录等,借助用户的历史行为和合适的推荐算法,可以发掘用户的访问习惯和访问兴趣,从而达到个性化推荐的目的。个性化推荐的应用,不仅能快速为用户推荐所需的数据,节省用户的筛选时间,也能帮助信息提供商提高系统的用户粘性,获取更高的收益。
近些年来,电影信息资源同样爆炸性增长,用户往往需要花费大量的时间寻找自己感兴趣的电影。通过对用户观影历史及影评情况的分析,可以挖掘出用户的潜在需求,从而实现电影的个性化推荐。不少影视企业已将推荐系统运用于各自的网站,推荐准确度有好有坏。推荐系统的核心是推荐算法的采用,经典的推荐算法有基于协同过滤的推荐算法、基于内容的推荐算法等,这些经典算法已被广泛运用,然而却各有缺点,例如存在冷启动问题、推荐精准度低、实时性差等缺点。
2. 研究的基本内容和问题
研究目标:运用spark计算框架实现电影的各类推荐,并对经典推荐算法进行优化。
研究内容
旨在设计一个电影推荐系统。系统包含三种角色:游客用户、普通用户和系统管理员。游客用户可以通过注册登录成为普通用户。游客用户可以搜索电影资讯、查看电影详情信息、查看热门电影榜单等。普通用户在登录后还可以进行电影的观看、获取离线推荐、获取实时推荐、给电影评分等。系统管理员主要进行用户的管理和电影信息的管理。
3. 研究的方法与方案
研究方法
1)学习spark技术及其相关知识。
2)通过相关书籍和经典论文学习各类推荐算法的实现、推荐系统的评价标准以及用户兴趣模型的建立。
4. 研究创新点
特色或创新之处
1)将推荐系统与spark技术相结合,提高了推荐系统在大数据环境下的性能。
2)使用als算法实现基于电影标签内容的推荐。
5. 研究计划与进展
研究计划及预期进展:
第一阶段:2020年1月7日到1月26日,进行相关理论知识的学习。
第二阶段:2020年1月27日到2月9日,电影资讯的爬取以及数据的预处理。
