基于图神经网络的中文短文本实体链指系统研究与实现开题报告

 2022-04-13 19:57:47

1. 研究目的与意义

1.1研究的背景

近年来,图神经网络(Graph Neural Networks, GNN)在社交网络计算、知识图谱、推荐系统甚至生命科学等各个领域得到了越来越广泛的应用。GNN在对图节点之间依赖关系进行建模的强大功能,使得与图分析相关的研究领域取得了突破。

随着国际互联网的迅猛发展,网上文本信息资源以指数级的速度增长。如何快速有效地将文本按其内容进行分门别类的整理,以便于利用这些海量文本,变得越来越重要和困难因此,研究文本自动分类技术具有很重要的现实意义。

基于深层神经网络的实体识别技术

1.2研究的目的及意义

面向中文短文本的实体链指,简称EL(Entity Linking)。即对于给定的一个中文短文本(如搜索Query、微博、对话内容、文章/视频/图片的标题等),EL将其中的实体与给定知识库中对应的实体进行关联。针对中文短文本的实体链指存在很大的挑战,主要原因如下:(1)口语化严重,导致实体歧义消解困难;(2)短文本上下文语境不丰富,须对上下文语境进行精准理解;(3)相比英文,中文由于语言自身的特点,在短文本的链指问题上更有挑战。

文本分类现在已经被应用在众多领域,包括以下各方面:Internet 上的应用。通过Internet查找诸如书刊、论文、科研资料、会议记录等时,要想在网上找到自己所需的资料并非易事。即使借助于专门的搜索引擎(目前大部分搜索引擎是按关键词搜索),精度和速度往往不能令人满意,其检索结果经常包含许多无关的资料,采用文本分类技术则可以大大提高查全率和查准率

电子邮件分拣中的应用。随着科技的发展,人们之间的交流和沟通进一步得到加强,

2018短文本分类腾讯ai

其中电子邮件是现代人类沟通的最重要的手段之一。电子邮件数量增多,其中又可能包含着大量的垃圾邮件,采用文本分类技术对电子邮件进行整理和过滤,将能给邮件用户提供方便R1。

电子图书馆的应用。随着图书馆文本资料管理电子化的逐步普及,也要求对电子图书进行分类处理。

网络安全中的应用。文本分类在防火墙技术中也有着广泛的用途,利用文本分类技术可以有效地过滤掉不健康之类的信息。

电视电话会议中的应用。随着网络技术和语音技术的发展,在不同地点同步进行的电话会议越来越普遍。对会议文档的整理也离不开文本分类技术。

2. 研究内容和预期目标

2.1研究内容

本课题计划采用图神经网络技术,分析中文短文本数据集,识别其中实体与给定知识库中对应实体的关联关系,即给定中文短文本以及该短文本中的实体集合,输出文本此中文短文本的实体链指结果。每个结果包含:实体mention、在中文短文本中的位置偏移、其在给定知识库中的id,如果为nil情况,需要再给出实体的上位概念类型。在此基础上,设计并实现一个中文短文本实体链指原型系统。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

3.研究方法

3.1命名实体识别

有监督的学习方法:这一类方法需要利用大规模的已标注语料对模型进行参数训练。目前常用的模型或方法包括隐马尔可夫模型、语言模型、最大熵模型、支持向量机、决策树和条件随机场等。值得一提的是,基于条件随机场的方法是命名实体识别中最成功的方法。

半监督的学习方法:这一类方法利用标注的小数据集(种子数据)自举学习。

无监督的学习方法:这一类方法利用词汇资源(如 wordnet)等进行上下文聚类。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1] 陈勤,自然语言处理基本理论和方法[M],哈尔滨工业大学出版社,2013.08.[2] Chris Manning/Hinrich Schütze 著,苑春法/李伟/李庆中 译,统计自然语言处理基础[M],电子工业出版社, 2005.12[3] 米歇尔(Mitchell T.M.) (作者),曾华军(译者),等(译者),机器学习[M],机械工业出版社, 2008.03[4] 迪达 等 著;李宏东 等 译,模式分类[M],机械工业出版社, 2003.09[5] Steven Bird, Ewan Klein, Edward Lopper著,陈涛译,Python自然语言处理[M],人民邮电出版社,2014.07.[6]Vikas Yadav, Steven Bethard.A Survey on Recent Advances in Named Entity Recognition from Deep Learning models.[2020-03-16][7]李航. 统计学习方法. 北京. 清华大学出版社. 2012.[8]朴素贝叶斯算法的改进与应用中国知网 [引用日期2019-06-09][9]基于朴素贝叶斯的中文文本分类及Python实现中国知网 [引用日期2019-06-09][10]朴素贝叶斯方法在中文文本分类中的应用

[ 1 1] Ruderman A, Rabinowitz N C, Morcos A S, et al. Pooling is neither necessary nor sufficient for appropriate deformation stability in CNNs[J]. arXiv preprint arXiv:1804.04438, 2018.[ 12 ] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.[ 13 ] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//European conference on computer vision. Springer, Cham, 2014: 818-833.[1 4 ] Lin M, Chen Q, Yan S. Network in network[J]. arXiv preprint arXiv:1312.4400, 2013.[ 15 ] Zeiler M D, Krishnan D, Taylor G W, et al. Deconvolutional networks[C]//2010 IEEE Computer Society Conference on computer vision and pattern recognition. IEEE, 2010: 2528-2535.[1 6 ] Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions[J]. arXiv preprint arXiv:1511.07122, 2015.[ 17 ] Chollet F. Xception: Deep learning with depthwise separable convolutions, arXiv preprint (2016)[J]. arXiv preprint arXiv:1610.02357, 2016.[1 8 ] Howard A G, Zhu M, Chen B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint arXiv:1704.04861, 2017.[ 19 ] Zhang X, Zhou X, Lin M, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6848-6856.[20] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014

5. 计划与进度安排

(1)1月11日至2月15日分析课题,查找资料。

(2)2月16日至2月28日完成需求分析。

(3)3月01日至3月16日完成开题报告。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。