全文总字数:3116字
1. 研究目的与意义(文献综述)
随着当今互联网的高速发展,网络信息资源数量正在高速增长。大量数据带给人们丰富知识的同时,也产生了如何高效有效获取数据的难题。面对浩如烟海的信息资源,用户不可能使用常规的信息目录的方式查找所需信息。在学术研究领域,随着专业论文多年累计,同时越来越多研究人员不断发表新的研究成果,科技论文数量已经十分庞大,并且正处于激增阶段。在这种形势下,如何从互联网中高效、准确地获取所需信息,是一个非常重要的课题。
搜索引擎作为用户从互联网中高效获取信息的工具,已有三十年左右的历史,从最早的gopher、archie到目录搜索系统yahoo,元搜索引擎,再到如今国际搜索巨头google,国内搜索引擎百度。当今业界搜索引擎可以分为通用搜索引擎和垂直搜索引擎两大类,其中垂直搜索引擎是一种新型搜索引擎运行模式,旨在解决通用搜索引擎存在的信息总量大,检索精度较低,检索方式单一等问题,垂直搜索引擎面向一类领域、人群或需求,提供粒度更为精细的检索服务,是通用搜索引擎在广度上降低,深度上提高的衍生产物。
通过构建针对专业学术领域深度内容的垂直搜索引擎,我相信可以解决现有通用搜索引擎查询结果不够精确、信息重复率高等问题,可以进一步提高用户检索精确度,降低检索时间成本。除此之外,该平台还将使用到apache软件基金会的一个开源的全文检索引擎工具包—lucene。lucene是业界应用广泛的全文检索引擎架构,提供了完善的查询引擎和索引引擎,包含部分文本分析引擎(如:英语)
2. 研究的基本内容与方案
构建专业文献检索平台的主要目标是优化整合各类型文献资源,开发出一个专业文献共享平台,支持用户按照导航、关键词和关键句的方式搜索和访问平台上的文档;同时对word 、excel、pdf、html等格式的文档信息构建索引,对全文检索提供支持,提高检索专业文献的效率,从而支持专业同行交流和共享专业技术信息。
全文检索是计算机程序通过扫描非结构化数据文件中的所有词汇,并为这些数据文件的每个词建立索引,索引中包含该词在文件中出现的次数和位置。当用户查询该词时,平台将在事先建立的索引库中进行查找,最终将查找到的符合输入的字符串表达式的文件反馈给用户的检索方式。另外,全文检索技术可以匹配到文档多个甚至所有的字段内容,并且一般可以进行精准匹配,十分符合文献查平台查询功能的基本要求。
专业文献共享平台是基于全文检索技术建立起来的提供各类专业文献共享及检索服务的软件系统。通常,文献共享平台核心功能有建立索引,提供查询,处理查询结果,增加索引,优化索引数据结构,权重优化等等,另外还需要有合适的用户接口,面向互联网的开发接口,维护接口。结构上,该平台核心至少具备文本分析引擎,索引引擎,查询引擎等,加上一些外部应用的接口共同构成了文献共享平台。
3. 研究计划与安排
第1-2周:查阅论题相关文献资料,明确课题研究目标,了解研究所需,确定方案与计划,进行外文翻译,完成开题报告。
第3-10周:确定系统架构,完成系统原型的设计与实现。
第11-12周:完成系统的测试与完善。
4. 参考文献(12篇以上)
[1]michael mccandless, erik hatcher,otis gospodnetic. lucene in action(second edition)[m]. manning publications co,2010.
[2]张锡川.基于lucene的云平台学术搜索引擎.北京工业大学硕士论文,2015.
[3]张华.基于lucene的手机全文检索功能的设计与实现.电子科技大学硕士论文,2009.
