1. 研究目的与意义(文献综述)
1. 研究目的及意义
随着科技的发展,互联网业呈现出飞速发展的趋势,而搜索引擎作为用户使用互联网的重要应用之一,已经成为用户进行信息查询所必不可少的重要组成部分。中国互联网络信息中心发布的报告指出,2017年6月,中国的互联网用户数量已经增加至7.15亿而搜索引擎作为互联网的必不可少的组成部分是当前使用率较高的互联网应用之一,也逐渐成为用户获取和访问互联网资源的重要渠道。
2. 研究的基本内容与方案
2.1预期实现的目标
基于B/S模型,采用JAVA语言设计并实现包括用户登录、样本库、系统训练和系统检测四个模块在内的垃圾网页智能检测系统,通过对系统进行一系列的测试,验证本系统用于实际垃圾网页检测的可行性
2.2总体设计思路
a)分析当前垃圾网页作弊技术,并结合当前垃圾网页和正常网页的特征差异,提出合理的垃圾网页判别指标体系。并在此基础上,构建下相应的样本数据集。 b)针对构建的样本特征集的维度高、冗余度大的特点,为提高后期垃圾网页检测模型的性能,利用SDAE算法对样本特征集进行降维处理,并对该方法用于垃圾网页样本约简的可行性和高效性进行验证。 c)将约简后所得到的样本用于DBN分类器的训练和测试,根据分类的结果判定所检测的网页是否为垃圾网页。 d)使用JAVA语言开发和实现一个垃圾网页智能检测系统,并对系统的架构及部分功能页面进行展示。
2.3系统的功能结构
垃圾网页智能检测系统主要有如下4个功能模块:
(1)用户登录模块:
用户登录模块的主要功能是根据用户输入的账号和密码,判断该用户是否有权限进入并使用本系统,通过该功能实现对用户访问权限的控制。
(2)样本库模块:
样本库模块的主要功能是存储所有待使用的样本数据,其中包括正常网页和垃圾网页的相关特征信息,并进行不定时的更新操作。
(3)系统训练模块:
系统训练模块的主要功能是将样本库中的样本用于对DBN分类器进行训练,使其具备对未知网页的分类能力。
(4)系统检测模块:
3. 研究计划与安排
1、第1至4周,进行资料收集与课题调研,完成开题报告。
2、第5至8周,完成总体方案设计与论证。
3、第9至13周,完成系统各模块的具体设计,完成仿真与实物制作,实现软硬件联调。
4. 参考文献(12篇以上)
[1] gyngyi, zoltán,garcia-molina, et al. web spamtaxonomy[j]. first
international workshop on adversarialinformation retrieval on the web, 2005
[2] spirin n, han j. survey on web spamdetection[j]. acm sigkdd explorations newsletter, 2012, 13(2)
