面向百度的实用工具设计开题报告

 2022-12-04 10:22:28

1. 研究目的与意义

全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。全文检索是将存储于数据库中整本书、整篇文章中的任意内容信息查找出来的检索。它可以根据需要获得全文中有关章、节、段、句、词等信息,也就是说类似于给整本书的每个字词添加一个标签,也可以进行各种统计和分析。

全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词有很大分别。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文等东方文字则需要切分字词,以达到按词索引的目的,关于这方面的问题,是当前全文检索技术尤其是中文全文检索技术中的难点,在此不做详述。

自动翻译根据对要翻译的句子进行分析程度的不同,可分为 5个层次。第一层是按字母转译。它只要求更换原词中的字母。如日文中汉字和假名同时存在,可用文字处理机把汉字自动变成假名或拉丁字母。第二层是词对词翻译。它只要求使用一部词典。对于一些比较接近的语种,如印欧语系的一些语言,只要改变词序,就可做到一一对应。第三层是语法翻译。通过对语法结构的鉴别来翻译句子。第四层是语义翻译。它不但分析句子的语法结构,还要分析它的语义内容,即要注意词的语义和词的搭配的语义关系。这种语义方法的基础是格语法理论。第五层是语境翻译。要求分析时尽量考虑语境。当一个孤立的句子有许多译法时,只有把上下文中所有的句子连贯起来看,才能作出抉择。要解决歧义问题,除语言外计算机还要具备外部世界的知识,要有推理能力。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容与预期目标

基于百度官方的sdk,实现一个客户端软件,该软件能够以提供百度搜索功能为核心,同时提供一些辅助性的搜索工具。

(1)提供对本地文档的全文搜索

用户首先确认目标文件夹或目标文件,然后输入欲查找的关键词,点击“全文搜索”,系统将与该关键词相关的所有目标文档列出,并在文档下部列出与该关键词相关的语句片段。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究方法与步骤

(1).“全文搜索集成”按文档类型划分为:pdf,word,excel,txt,ppt。全文搜索接口api(即sphinx客户端)和sphinx全文搜索引擎(即searchd server端);按搜索关键词的形式,支持多关键词搜索。

倒排技术是目前常用的一种现有搜索技术。倒排索引,也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。

本课题将首先实现对多种类型文档的读处理接口,然后,设计高层通用的多关键词搜索算法。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1]张学治..net 框架程序开发指南[m],北京: 清华大学出版社, 2002.

[2]albahari b. c#精髓, 北京:清华大学出版社[m], 2001.

[3]alex homer dave sussman. asp.net 分布式应用程序高级编程[m], 北京:清华大学出社, 2001.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 工作计划

1、2022.1 ---- 2022.3 查阅资料,了解课题背景, 撰写开题报告

2、2022.3 ---- 2022.4根据课题要求,进行需求分析,熟悉开发工具

3、2022.4 ---- 2022.4 根据分析结果,进行概要设计

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。