基于网络新闻分类系统的定制化新闻网站开题报告-开题报告网

1. 研究目的与意义

在Web迅猛发展的同时，我们不能忽视信息爆炸的问题，即信息极大丰富而知识相对匮乏.据估计，Web已经发展成为拥有3亿页面的分布式信息空间，而且这个数字仍以每4至6个月翻一倍的速度增加。在这些大量、异质的Web信息资源中，蕴含着具有巨大潜在价值的知识.人们迫切需要能够从Web上快速、有效地发现资源和知识的工具。Web上的搜索引擎部分地解决了资源发现问题，但由于精确度不高等原因，其效果远不能使人满意。此外，搜索引擎的目的在于发现Web上的资源，就Web上的知识发现而言，即使检索精度再高，搜索引擎也不能够胜任。为此，我们需要开发比信息检索层次更高的新技术。为了从大量数据的集合中发现有效、新颖、有用、可理解的模式，数据库领域采用了数据挖掘技术。

2. 国内外研究现状分析

Web文本挖掘是一项综合技术，设计web，数据挖掘，计算机语言学，信息学等多个领域。确切的讲web文本挖掘就是指从大量的web文档的集合中发现隐含的模式。Web文本挖掘从数据挖掘发展而来，因此其定义与我们熟知的数据挖掘定义相似。Web文本分类技术是web文本挖掘中的一个重要研究分支。根据文本内容自动确定文本类别的过程。20世纪90年代以前，占主导地位的文本分类方法一直是基于知识工程的分类方法，既由专业人员手工进行分类。人工分类耗时效率低。90年代以来，众多的统计方法和及其学习方法应用于自动文本分类。文本分类技术的研究引起了研究人员的极大兴趣。目前英文自动分类已经取得了丰硕的成果，提出了多种成熟的分类方法，如最近邻分法，贝叶斯分类，决策树方法以及基于支持向量机，向量空间模型，回归模型和神经网络等方法，但对于中文文本的低总分类技术研究尚不尽人意。目前国内中文文本分类研究主要集中在KNN，朴素贝叶斯，向量空间模型和支持向量机等技术上。

3. 研究的基本内容与计划

本文研究目的引入web文本挖掘技术来实现信息的快速分类，以及实现具有人性化特征的网站。通过研究与分析用户信息挖掘相关技术，利用现成的工具和技术对一系列的新闻门户网站新闻进行按需抓取，然后再以个人偏好的方式在自己的网站上进行重新分类与展现。

具体时间安排：

信息的筛选和抽取，工具的选择（1~2周），分类的模板和大纲（3~4周），网页整体大致布局安排（第5周），信息的导入和分类，细节个性化网站（6~7周），论文大纲和草稿的撰写（第8周），论文初稿的撰写完成（9~10周），论文初稿的修改与完善（第11周），完成论文的提交、审核和答辩（第12周）。

4. 研究创新点

利用网络爬虫抓取信息，提高抽取效率，扩大抽取范围。

定制个性化网站，满足一般用户需求和审美。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于网络新闻分类系统的定制化新闻网站开题报告

1. 研究目的与意义

2. 国内外研究现状分析

3. 研究的基本内容与计划

4. 研究创新点

您可能感兴趣的文章

最新文档

联系我们

登录

注册

找回密码

1. 研究目的与意义

2. 国内外研究现状分析

3. 研究的基本内容与计划

4. 研究创新点

您可能感兴趣的文章

最新文档

联系我们