中英涉华网络新闻热点分析系统开题报告

 2022-05-02 22:17:04

1. 研究目的与意义

随着网络的快速发展,网络已经成为了新闻发布的最好平台也是人们获取信息的主要来源,每天网站都有大量的各种新闻信息涌现,对于同一个话题,同一个网站每天对它关注热点度不同,不同的国家对话题的关注点也不同。如今互联网上的信息爆炸式的增长,除了有新的热点话题出现,旧的热点话题会因为各种原因被不断的覆盖和删除,大大的增加了人们寻找信息的难道,搜索引擎的出现给人们查找和获取所需要的信息带来了很大的方便,但是初期的引擎其所能覆盖的范围很小,在web日益膨胀的实现状况下越来越难以满足人们的需求,这个就给新的引擎们发展的契机,将网页信息进行抓取和分析,以此作为依据为用户提供搜索服务,成为了新一代搜索的标志。在目前世界大环境下,中外媒体对国内外涉华事件的关注焦点、关注度也有所不同。因此,对中外涉华事件的关注焦点进行筛选,为不同人群提供有价值的参考信息的软件系统也成了人们的需要!

在人们的日常工作与生活中,新闻是不可缺少的娱乐与学习素材,互联网的发明更使得新闻的新的特性日益突出,但是突发热点的不断更新使得许多热点很快失去了关注,如果想关注它的热点趋势,传统的方法确实很难实现,这样和互联网相关的新闻信息提取与分析的研究不断的出现,成为了信息提取与挖掘领域的一个重要的分支。本课题的研究目的是利用新闻信息提取与分析方法将中英网站上的中国突发热点信息进行抓取和分析,取出关于中国突发热点信息的内容,进行热点跟踪与分析。

本课题研究的意义是通过分析提取出新闻热点、新闻话题,关注话题发展变化,挖掘中国突发事件,对比中外媒体对中国国内事件的关注焦点以及关注程度,为人们提供有价值的参考信息。通过这个课题的研究和实践,能够完整的接触到实现中一个商品化软件的各个环节,深刻的体会到多层次的软件体系结构,从而锻炼了软件开发的能力,同时也拓展软件设计的新思路。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

一、研究的内容:

本课题主要研究的内容是通过研究信息提取与分析的方法,使用网络爬虫等相关功能爬取网站新闻模块的相关内容,主要是抓取中国国内的突发热点,分别从中国网站和外国网站抓取,抓取的时候是将文章的全部内容抓取放入数据库中,包括标题、时间、作者以及正文的全部内容,然后根据文章分析出关键字,将关键字进行统计比较出关键字比较高的热点进行排序,将前十名的热点关键字显示出来,并且对一个热点事件进行跟踪关注它一周内的变化情况。

本课题研究主要分为两个功能模块,第一个模块是抓取数据放入数据库,第二个模块是将抓取的数据库进行分析显示。显示包括四个部分,分别是显示中文网站每天热点前十排名以及同一话题每周的变化趋势和外国网站关于中国国内热点每天的前十排名以及同一话题每周的变化趋势。功能如下:

抓取:抓取今天所有的中文网站和外国网站上关于中国国内热点突出事件的标题、作者、时间、正文。

中文网站top10排名:将从中文网站上的新闻模块抓取的关于中国国内热点突发事件的热点进行分析,然后将热点度前十的排序出来。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

本课题拟采用的java和数据库来实现整个系统的实现,在开始做之前要研究以下内容:

(1)通过查阅相关资料资料,掌握从网页抓取新闻的方法,主要是上网阅读相关信息抓取与分析的论文,学习抓取的方法,本课题主要学习和使用的是网络爬虫,网络爬虫是根据提供的网页地址,将网页上的信息爬取下拉,但并不是要把所有的信息都爬取下来,那样对数据库的存取不利,所以要学习怎么过滤有用的并且符合主题的链接。

(2)研究网站的结构,不同网站它的页面设计不同,所以抓取数据不一样,首先要分析弄清楚每个网站的相同点和不用点,才能进行数据抓取编写爬虫代码,其次,抓取。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1] http://www.bbc.com.2015-1-5.

[2] 赵玉勇. 基于web搜索和网页结构分析的it相关主题新闻抓取研究.中国海洋大学.2010.11[学位论文]

[3] 丁军艳.网站结构对搜索引擎抓取的影响.[学位论文]2011.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 计划与进度安排

(1) 2022年1月5日 2022年3月15日

接受毕业设计任务,查阅资料并完成开题报告;

(2) 2022年3月15日 2022年3月22日

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版