网络文章摘要的自动生成任务书

 2022-12-17 14:07:20

1. 毕业设计(论文)的内容和要求

本程序利用anaconda(含python数学包)进行编写,主要目标是抓取网络文章(包括但不限于新闻,论文)并能对获得其关键字以及摘要。

要求系统风格简洁,模块清晰,易于使用,性能稳定,能在pc机上运行。

2. 实验内容和要求

爬虫:爬虫是本项目的辅助功能,因此我们只需要了解一些反反爬技巧能爬取正常的网页内容了。

先爬取文章,然后利用pyquery对文章进行处理,获取我们需要知道内容。

自然语言处理:主要任务是学习hmm(隐含马尔可夫模型)中的viterbi算法对其进行分词处理处理,然后通过crf(条件随机场算法)进行词性的标注。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 参考文献

参考文献

吴军.数学之美[M].北京:人民邮电出版社,2012:16-18

郑捷.NLP汉语自然语言处理原理与实践[M].北京:电子工业出版社,2017:

2-3

涂铭,刘祥,刘树春.Python自然语言处理与实战[M].北京.机械工业出版社,2018:5-7

冯志伟.机器翻译今夕谈[M].北京语文出版社,2007:57-59

涂铭.python自然语言处理实战[M].北京机械工业出版社,2018:1-106

崔庆才.网络爬虫开发实战[M].北京人民邮电出版社,2018:1-199

宗成庆.统计自然语言处理[M].北京清华大学出版社,2011:158-174

William B.gevarter.Artifical Intelligence .ExpertSystems.Computer vision And Naturnal

Langguage Processing [M].NoyesPublications.1984.111-125

4. 毕业设计(论文)计划

1、资料搜集:2022年12月21日--2022年2月25日;

2、写作初稿:2022年2月26日--2022年4月10日;

3、修改提高:2022年4月11日--2022年5月4日;

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付