1. 研究目的与意义、国内外研究现状(文献综述)
本课题的意义:
搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。
国内外研究概况:
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容和问题
研究目标:
可以通过一个给定的主题来搜索到与之相关的信息。
研究内容:
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 研究的方法与方案
研究方法:
对url进行分析,去重。网络爬虫使用多线程技术让爬虫具备更强大的抓取能力。网络爬虫还要完成信息提取任务,对于抓取回来的网页提取出来信息。对网络爬虫的链接网络设置连接及读取时间,避免无限制的等待。研究网络爬虫的原理并实现爬虫的相关功能。
技术路线:
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
4. 研究创新点
特色或创新之处
个性化的主题搜索引擎只搜索特定主题的相关网络资源,能更好的为用户提供快速、准确的个性化检索服务。主题网络爬虫只对某一特定主题的网络资源感兴趣,它在爬取的过程中使用预先设定的网页相关度计算方法对网页和链接进行主题相关性的计算和预测,只提取与主题相关的网页。
5. 研究计划与进展
研究计划及预期进展
2015年1月1日至2015年1月7日 确定题目并撰写开题报告
2015年1月7日至2015年2月25日 完善网络爬虫的设计
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
