基于Java的专题搜索引擎设计开题报告

 2022-01-13 20:41:09

全文总字数:3309字

1. 研究目的与意义(文献综述)

21世纪就是数字化,网络化,信息化,以网络为核心的时代,随着互联网技术的飞速发展,网络上的数据信息呈几何式增长,网络成为人们获取和传递信息的重要途径,截至2018年12月,我国搜索引擎用户规模达6.81亿,使用率为82.2%,用户规模较2017年底增加4176万,增长率为6.5%。手机搜索用户规模达6.54亿,使用率为80.0%,用户规模较2017年底增加2998万,增长率为4.8%。其中大部分网民是通用搜索引擎的使用者,如此庞大的市场为搜索引擎的发展带来了巨大的机遇,搜索引擎行业发展相当迅猛。

通用搜索引擎信息大而不精,难以达到特定领域、特殊用户对精准化搜索服务的预期,这些用户对某个领域的信息搜索需求强劲,希望查询到只属于这个特定领域或是与这个领域密切相关的信息,正是因为这样的需求使得通用搜索引擎必须进行细化,所以就出现了针对某一个领域的垂直搜索引擎。垂直搜索引擎是专注于特定搜索领域和搜索需求,提供对某个领域进行信息检索的搜索引擎服务,是在通用搜索引擎基础上发展而来的,是对通用搜索引擎的细化,弥补了通用搜索引擎的不足之处。

目前,垂直搜索引擎运用于诸多领域,如科学学术、论坛、博客、旅游、汽车、行业服务等领域,由于中文分词技术相比英文分词更为复杂,并且国外对垂直搜索引擎的研究更早,因此在技术上比国内更为先进,下面介绍几个比较典型的国内外的垂直搜索引擎:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

本系统旨在构建一个面向某一个方面的垂直搜索引擎,先采用Heritrix爬取房屋销售网站上发布的相关房屋信息。选择Heritrix的原因有两点:1.Heritrix是由Java语言编写,而本系统的其他部分也都采用了Java语言编写,因此采用Heritrix方便功能的实现2.Heritrix是一款开源的爬虫,并且扩展性很好,可以方便的修改源代码以适应我们的需求。爬取解析有用的信息后使用Htmlparser对Html进行解析得到需要的信息内容,去除冗余信息。我们得到包含:名称、摘要、类型、内容、图片URL、网页URL、更新时间这些需要的信息。数据处理部分主要应用Lucene开源工具,由它来建立数据字典和索引,Lucene有在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够 针对新的文件建立小文件索引,提升索引速度。然后通过与原有索 引的合并,达到优化的目的,它已经默认实现了一套强大的查询引擎,用户无需自己编写代码即使系统可获得强大的查询能力,Lucene的查询实现中默认实现了布尔 操作、模糊查询(Fuzzy Search)、分组查询等。前端框架的构建选用Vue和Element,用于快速构建网站前端。为用户提供一个搜索的接口。

3. 研究计划与安排

2020/2/28—2020/3/13:系统原型设计;

2020/3/14—2020/3/31:系统架构、程序设计与开发;

2020/4/1—2020/4/30:系统测试与完善;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]垂直搜索引擎中信息过滤技术的研究[j]. 王春艳,李玉福.情报科学. 2014(03)

[2]基于heritrix的面向特定主题的聚焦爬虫研究[j]. 朱敏,罗省贤.计算机技术与发展. 2012(02)

[3]lucene的全文检索的研究与应用[j]. 李永春,丁华福.计算机技术与发展. 2010(02)

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版