基于hadoop生态圈的热点新闻推送功能的实现开题报告

 2022-01-14 11:01

全文总字数:3745字

1. 研究目的与意义、国内外研究现状(文献综述)

课题的意义:

在网络发展的新时代,越来越多的信息在网上发布,作为信息的一个重要主题的新闻也不例外。但是每天都有大量的新闻发布在网上,人们面对这海量的信息的时候就会难以找到自己所需要的东西,这就产生了信息过载问题。

在意识到信息过载问题之后,有许多人已经在探索解决方案了,并做出了很多尝试,使用分类和搜索功能就是两个具有代表性的解决方案,而这两中方法也确实在这个问题的解决上起了很大的作用。分类目录方便人们根据信息的分门别类,从而顺着网站给出的路径去找到自己的想要的信息。而搜索则根据内容的匹配以及权重把内容搜索出来。搜索比分类更能解决的人们对信息的需求,它省去了对自己想要找的信息的分类的过程,而搜索可以更加智能的帮用户处理这些事情。但是搜索也有自己缺陷,搜索引擎需要用户主动提供准确的关键词来寻找信息,因此不能解决用户的很多其他需求,另外搜索虽然能对信息和关键词进行匹配,但一次搜索往往呈现给用户的是许多结果,而信息排名的因素是多种多样的,不一定能够满足用户的需求。而推送功能能够有效地解决信息过载问题未来发展方向,根据海量的信息通过算法和规则来为用户推荐有用的信息,并给用户提供个性化的服务,能够有效的帮助用户找到自己想要的信息。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

研究的目标:

用户可以通过在网站上登录后获得当天的热点新闻推送,系统选择的推送的新闻类型与用户选择的偏好类型相同,推送的新闻为该类型当天点击量最高的新闻。如果该用户未选择偏好类型,系统会推送所有新闻中点击量最多的新闻。

研究的内容:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

研究方法:

用eclipse软件搭建网页,将网页上产生的日志数据作为数据流在hadoop生态圈中传输。使用推送算法得到的结果会先存入hdfs作为备份,再将放入mysql中的结果通过jdbc在网页上显示。

技术路线:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

特色:

1.充分利用专业学习过的数据库与java方面的编程知识,与专业密切相关。

2.采用了hadoop平台处理分析大量数据的优势,能够有效的对新闻数据进行处理。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 研究计划与进展

研究计划及预期进展:

2019.2.23-2019.3.6:开题报告和ppt的撰写,做好开题答辩的准备。

2019.3.7-2019.3.17:查阅资料文献,深入学习hadoop生态圈中工具的使用,重点学习mr和hive的编写方法,为推送算法的编写做好知识储备。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。