1. 研究目的与意义、国内外研究现状(文献综述)
1、本课题的意义随着html5标准的正式推出和语义网络时代的到来,网页和网页信息提取技术也呈现出新的特点,提出了新的要求,如何在前人研究的基础上不断跟上时代的步伐,满足当前信息提取需求已经越来越。
良好的网络信息组织可以将大量分散杂乱的信息进行整理和优化,为用户提供检索和获得信息的便利,从而在一定程度上帮助人们从信息爆炸的困境中解脱出来。
目前国内对网页信息提取技术的研究比较成熟,发布了很多有价值的研究成果,涉及了个人信息管理的众多领域,因此本文对国外个人信息组织的研究进行梳理,以期为国内相关研究提供借鉴 。
2. 研究的基本内容和问题
1、研究目标本课题将在开源java爬虫的基础上进行二次开发,并与javaweb开发结合实现一个面向多站点对用户评论信息进行采集、存储和展示的系统,以期为用户分析的相关工作提供帮助。
2、研究内容主要为开源爬虫的二次开发、与web服务的结合,在此基础上提供用户评论信息的采集、储存、展示功能并为后期的数据分析提供数据来源。
(1)开源爬虫的二次开发对开源java爬虫webmagic进行深入地学习,掌握核心组件下载器(downloader)、链接管理器(schedular)、内容提取器(processor)、结果处理器(pipeline)、调度器(spider)、的代码实现过程,根据本课题的需要,对部分组件实现方式进行修改和调整,使其能与web服务相结合并最终实现课题目标。
3. 研究的方法与方案
1、研究方法(1)文字资料学习对国内外有关网络信息采集的相关研究进行调查整理,借鉴其中优秀的信息采集方式,为本课题目标的实现奠定基础。
(2)项目实例学习阅读相关项目的源码,学习其中良好的代码编写规范和系统设计模式。
2、技术路线(1)通过文献阅读,综述国内外关于网络信息采集实现方式的研究现状。
4. 研究创新点
1、以web应用的形式将单一的爬虫功能与信息管理系统结合起来。
2、对html5中的新特性websocket进行了实践。
3、提供了信息后期处理和挖掘的接口。
5. 研究计划与进展
1、第一阶段,对国内外的相关研究成果进行文献调研。
2、第二阶段,对已有的开源爬虫进行二次开发。
3、第三阶段,分析特定站点、构建数据库、编写服务端代码、前端与后端数据交互代码。
