1. 研究目的与意义
1.1研究背景
互联网信息量庞大,靠人工手动查询有用信息的工作量很大,且效率很低,搜索引擎可以方便信息的搜索和提取。tf-idf是对搜索关键词的重要性的度量,从理论上讲,它有很强的理论根据。图论的遍历算法,距离编辑算法,单例模式等理论在搜索引擎中都有很具体的应用。
1.2研究目的
编写一个搜索引擎,下载所需要的网站内容,根据关键词查询到想要的内容。
2. 研究内容和预期目标
2.1主要研究内容
建立一个搜索引擎大致需要:下载网页,建立快速有效的索引,根据相关性对网页进行公平准确的排序。研究的主要内容就是完成这三个功能的实现:爬虫下载网页,线程池处理多线程,cache缓存处理,索引的建立,文本纠错,处理汉字的编辑距离等。
2.2预期目标
3. 研究的方法与步骤
3.1研究方法
一、查资料法
二、相关项目模仿法
4. 参考文献
[1] 吴军.数学之美[M].北京:人民邮电出版社,2012.
[2] W.Richard Stevens、Stephen A.Rago. UNIX环境高级编程(第三版) [M].北京:人民邮电出版社,2014.
[3] Stanley B.Lippman、Jose LaJoie,Barbara E.Moo. C primer(第三版) [M]. 北京:人民邮电出版社,2006.
[4] Neil Matthew、Richard Stones. Linux程序设计(第四版)[M].北京:人民邮电出版社,2010.
[5] W.Richard Stevens、Bill Fenner、Andrew M. Rudoff. UNIX网络编程 卷1:套接字联网API(第3版)[M]. 北京:人民邮电出版社,2010.
[6] W.Richard Stevens. UNIX网络编程 卷2:进程间通信(第3版)[M]. 北京:人民邮电出版社,2009.
5. 计划与进度安排
1. 2022年3月2日 - 3月13日,下达毕业论文任务书,布置论文工作要求;
2.3月9日 - 3月20日,学生完成开题报告,指导教师修改和审定学生论文开题报告;
3. 3月23日 - 3月29日,论文写作阶段。定时向指导老师汇报、交流一次论文进展情况;
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。