1. 研究目的与意义
网络检索功能起于互联网内容爆炸性发展所带来的对内容检索的需求。
搜索引擎不断的发展,人们的需求也在不断的提高。
最初的检索功能通过索引站的方式实现,而有了网络机器人。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 课题关键问题和重难点
互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景。
搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。
但是,这些通用性搜索引擎也存在着一定的局限性。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 国内外研究现状(文献综述)
对于网络爬虫的研究从上世纪九十年代就开始了,目前爬虫技术已经趋见成熟,网络爬虫是搜索引擎的重要组成部分。
利用对url进行分析,去重,网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。
网络爬虫的连接网络设置连接及读取时间,避免无限制的等待。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
4. 研究方案
参考网上开源的网络爬虫和各种网络爬虫相关的书籍、视频等信息,学习了解网络爬虫运行机制,基本原理,根据所爬取的目标网站设计自己的爬虫,学习python,request框架的搭建,bootstrap框架学习、编写、调试。
并与老师的多次面谈和邮件交流,解决一些理论的疑点和实践上的难点,分析爬虫的设计和利弊分析。
设计和学习完基础知识后,搭建了繁琐的环境,在windows下进行了爬虫的开发、调试,最终实现信息的爬取与提取,将爬去下来的数据,利用网页技术可视化显示。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
5. 工作计划
207.12.252022.01.08 查阅资料完成任务书 ,完成开题报告。
2022.01.092022.2.14 开题报告会,学习网络爬虫基本机制,学习使用数据库,学习python,搭建环境。
2022.03.152022.03.28 查阅资料,进行论文基本章节的写作,与导师探讨设计缺陷,并提出解决方案,完成初稿,并完成基础代码编写。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
