基于网络新闻分类系统的定制化新闻网站开题报告

 2021-08-08 05:08

1. 研究目的与意义

在Web迅猛发展的同时,我们不能忽视信息爆炸的问题,即信息极大丰富而知识相对匮乏.据估计,Web已经发展成为拥有3亿页面的分布式信息空间,而且这个数字仍以每4至6个月翻一倍的速度增加。在这些大量、异质的Web信息资源中,蕴含着具有巨大潜在价值的知识.人们迫切需要能够从Web上快速、有效地发现资源和知识的工具。Web上的搜索引擎部分地解决了资源发现问题,但由于精确度不高等原因,其效果远不能使人满意。此外,搜索引擎的目的在于发现Web上的资源,就Web上的知识发现而言,即使检索精度再高,搜索引擎也不能够胜任。为此,我们需要开发比信息检索层次更高的新技术。为了从大量数据的集合中发现有效、新颖、有用、可理解的模式,数据库领域采用了数据挖掘技术。

2. 国内外研究现状分析

Web文本挖掘是一项综合技术,设计web,数据挖掘,计算机语言学,信息学等多个领域。确切的讲web文本挖掘就是指从大量的web文档的集合中发现隐含的模式。Web文本挖掘从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相似。Web文本分类技术是web文本挖掘中的一个重要研究分支。根据文本内容自动确定文本类别的过程。20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,既由专业人员手工进行分类。人工分类耗时效率低。90年代以来,众多的统计方法和及其学习方法应用于自动文本分类。文本分类技术的研究引起了研究人员的极大兴趣。目前英文自动分类已经取得了丰硕的成果,提出了多种成熟的分类方法,如最近邻分法,贝叶斯分类,决策树方法以及基于支持向量机,向量空间模型,回归模型和神经网络等方法,但对于中文文本的低总分类技术研究尚不尽人意。目前国内中文文本分类研究主要集中在KNN,朴素贝叶斯,向量空间模型和支持向量机等技术上。

3. 研究的基本内容与计划

本文研究目的引入web文本挖掘技术来实现信息的快速分类,以及实现具有人性化特征的网站。通过研究与分析用户信息挖掘相关技术,利用现成的工具和技术对一系列的新闻门户网站新闻进行按需抓取,然后再以个人偏好的方式在自己的网站上进行重新分类与展现。

具体时间安排:

信息的筛选和抽取,工具的选择(1~2周),分类的模板和大纲(3~4周),网页整体大致布局安排(第5周),信息的导入和分类,细节个性化网站(6~7周),论文大纲和草稿的撰写(第8周),论文初稿的撰写完成(9~10周),论文初稿的修改与完善(第11周),完成论文的提交、审核和答辩(第12周)。

4. 研究创新点

利用网络爬虫抓取信息,提高抽取效率,扩大抽取范围。

定制个性化网站,满足一般用户需求和审美。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。