基于ElasticSearch的网络搜索引擎的设计与实现开题报告

 2021-12-05 17:32:34

1. 研究目的与意义(文献综述)

在高速发展的互联网时代,信息数据呈级数式增长,这些繁杂的网络信息在给我们带来便利的同时也产生了极大的问题,比如如何在这海量的信息里面找到自己所需要的内容。信息检索功能成为遨游网络世界的必要手段,搜索引擎应运而生。所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出相关信息反馈给用户的一门检索技术,利用关键词、高级语法等检索方式就可以快速捕捉到文本、图片、视频、音频等信息,为信息检索用户提供快速、高相关性的信息服务,帮助用户及时获取有效的信息。

目前,搜索引擎已经成为我们检索信息的必备工具,也有非常多的学者对其进行了研究。从功能和原理上搜索引擎大致分为全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎等四大类。目录搜索引擎以人工方式构造目录,有很多较大的缺点,国内外对此块的探讨较少。全文搜索引擎的典型代表有google、bing以及百度等搜索引擎。基于这些搜索引擎,唐国维[1]等提出了依托百度搜索引擎的舆情信息搜索系统;gossen[2]为认知能力与成年人不同的儿童设计了针对儿童的特殊搜索引擎;刘智勇[3]设计了基于java技术的搜索引擎。元搜索引擎是一种特殊的搜索引擎,它并不拥有数据库,而是将查询自动提交给多个常规搜索引擎并获得结果。vijaya[4]和siji[5]等分别提出了各自对元搜索引擎结果的优化算法。垂直搜索引擎是针对某一个行业的专业搜索引擎, 在国内外也是研究的热点之一。张月[6]和张建飞[7]分别设计制作了视频领域和音乐领域的垂直搜索引擎;丁月[8]提出了一种基于jensen-shannon散度特征加权的朴素贝叶斯分类算法,并基于此设计了一个面向人工智能领域的垂直搜索引擎;khaleghi[9]等设计了一种供在粒子物理领域的科学家使用的垂直搜索引擎。为致力于改善搜索引擎细节技术,刘建友[10]通过把实际搜索引擎结果页面构建成一个神经网络框架,尝试找出一种能把异质化和二维模块化结合在一起的信息展现模型;ruoyuan[11]探索了几种公平排名策略,阐释了搜索引擎中公平性、多样性、新颖性和相关性之间的关系;arroyuelo[12]等探讨了是否应该索引位置数据以及如何索引的问题,并提出了几种用于代码段生成的有效压缩文本表示形式;魏涛[13]等基于多个方面比较了开源搜索引擎elasticsearch和solr的性能;farouk[14]等提出了一种搜索引擎,用于搜索以unl(通用网络语言)表示的web数据;pavani[15]等提出了一种通过组合等级和语义相似度信息来检索隐藏页面和相关页面的新颖方法。而对于搜索引擎的发展方向,韩文科[16]梳理了搜索引擎的发展趋势以及探索搜索引擎的发展方向;孙雨生[17]等阐述了国内可视化搜索引擎核心内容研究进展及方向。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

本课题设计并制作一个基于elasticsearch的分布式网络搜索引擎,针对搜索个人博客内容,实现在搜索结果中合并显示转载于各站点的相同文章。系统主要由搜索器、索引器、检索器和用户接口四个部分组成,如下图1所示。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

·第1-3周:查阅相关文献资料,明确研究内容,了解本课题所需使用到的技术。确定方案,完成开题报告和外文文献翻译。

·第4-5周:完成基于elasticsearch的网络搜索引擎的设计与环境搭建。

·第6-10周:实现基于elasticsearch的网络搜索引擎。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]唐国维,赵璨,李井辉,张岩.依托百度搜索引擎的舆情信息搜索系统研究[j].计算机与数字工程,2019,47(11):2785-2790.

[2] gossen t , kotzybam , nürnberger, andreas. search engine for children: user-centered design[j].datenbank-spektrum, 2017, 17(1):61-67.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。