基于tf-idf模型的搜索引擎开题报告

 2022-03-22 08:03

1. 研究目的与意义

1.1研究背景

互联网信息量庞大,靠人工手动查询有用信息的工作量很大,且效率很低,搜索引擎可以方便信息的搜索和提取。tf-idf是对搜索关键词的重要性的度量,从理论上讲,它有很强的理论根据。图论的遍历算法,距离编辑算法,单例模式等理论在搜索引擎中都有很具体的应用。

1.2研究目的

编写一个搜索引擎,下载所需要的网站内容,根据关键词查询到想要的内容。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

2.1主要研究内容

建立一个搜索引擎大致需要:下载网页,建立快速有效的索引,根据相关性对网页进行公平准确的排序。研究的主要内容就是完成这三个功能的实现:爬虫下载网页,线程池处理多线程,cache缓存处理,索引的建立,文本纠错,处理汉字的编辑距离等。

2.2预期目标

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

3.1研究方法

一、查资料法

二、相关项目模仿法

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1] 吴军.数学之美[M].北京:人民邮电出版社,2012.

[2] W.Richard Stevens、Stephen A.Rago. UNIX环境高级编程(第三版) [M].北京:人民邮电出版社,2014.

[3] Stanley B.Lippman、Jose LaJoie,Barbara E.Moo. C primer(第三版) [M]. 北京:人民邮电出版社,2006.

[4] Neil Matthew、Richard Stones. Linux程序设计(第四版)[M].北京:人民邮电出版社,2010.

[5] W.Richard Stevens、Bill Fenner、Andrew M. Rudoff. UNIX网络编程 卷1:套接字联网API(第3版)[M]. 北京:人民邮电出版社,2010.

[6] W.Richard Stevens. UNIX网络编程 卷2:进程间通信(第3版)[M]. 北京:人民邮电出版社,2009.

5. 计划与进度安排

1. 2022年3月2日 - 3月13日,下达毕业论文任务书,布置论文工作要求;

2.3月9日 - 3月20日,学生完成开题报告,指导教师修改和审定学生论文开题报告;

3. 3月23日 - 3月29日,论文写作阶段。定时向指导老师汇报、交流一次论文进展情况;

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。