基于网页内容的搜索系统设计与实现开题报告

 2022-01-28 21:42:48

1. 研究目的与意义、国内外研究现状(文献综述)

1、课题的意义随着信息时代的发展,网络已经成为了人们发布和获取信息的重要渠道。

网络上信息资源的数量呈现出了爆炸式的增长,网络信息在社会生活中的价值也越来越重要。

受信息需求驱动而出现的搜索引擎也已经成为我们获取信息的重要手段。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

1、实现目标本次设计的系统将实现以下功能:一、在界面中输入想要搜索的内容(关键词),系统自动获取热门网站的初始url组进行所有的子网页的网页抓取,然后提取网页正文,将正文内容和关键词进行匹配,将满足关键词的页面排除相同内容的链接后显示在界面上。

二、如果想搜索的是专业信息(比如自己打开国家气象局网站)就在打开的主网页上搜索信息,然后将匹配关键词的的子网页全部显示。

2、关键问题本次设计的系统需要注意的关键问题有:1、网页去噪。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

见附件技术方法路线图

4. 研究创新点

特色:编写网页去噪算法和网页去重算法实现搜索功能

5. 研究计划与进展

1月5日1月7日 :了解并熟悉程序中页面正文提取和网页去重算法的原理、关键技术,确定实现方案,明确本次设计预达到的目标 1月8日1月10日:搭建平台,了解并熟悉JAVA的各项功能 1月11日1月18日:深刻理解程序实现原理,重点搞懂如何实现对网页去重算法,并且结合网页正文提取算法分析;完善数据过滤和处理数据库过程 1月19日1月31日:代码编写,完成核心程序2月2日3月28日: 代码编写,完成其他各项功能,并构建简单友好的操作界面 4月1日4月10日毕业设计中期检查 4月11日4月15日:根据中期检查结果,同导师沟通,完善系统,改进不足,对系统进行测试 4月16日4月25日:完成毕业论文 5月6日5月20日:根据学院的安排,进行毕业答辩等工作

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付