- 文献综述(或调研报告):
命名实体消歧技术主要分成三类:
1. 基于聚类的实体消歧方法:通过将含有同一个真实实体的文档进行聚类,其主要的消歧步骤如下:
(1)对每一篇文档及指称项,抽取该文档的特征或者通过某一种方法对其进行扩展。
(2)通过特征计算文档之间的相似性。
(3)采用聚类的方法对文档进行聚类(每一个类别对应到真实世界的一个实体)
其中基于聚类的实体消歧方法又可以分为三类:
(1)基于实体指称项文档的表层特征:这种方法比较出名的就是词袋子模型,他将一片文档切割成词或者对相似性计算有帮助的基本单位(可以统称为term)的向量,通过计算词向量的相似性来计算比较两篇文档。
(2)基于实体指称项文档特征扩展的相似度计算:上述第一种方法的缺点是过于停留在文档的表面,而第二种方法通过增加一些额外信息(比如一个实体是人名,我们通过增加一些额外信息比如这个人的生日,性别等)来增加对这个实体描述的准确性。
(3)基于社会网络的实体指称项文档相似性计算:基于社会化网络的实体指称项相似度计算通常采用基于图模型的方法,通过构建一个基于社会化网络的图模型,考虑社会化关系的传递性,使得实体指称项文档之间相似度计算更加的准确。
2.文档的维基化处理:首先是将文档中的重要概念识别出来,并对这些重要概念与维基百科中的文章相关联,这样能够使得读者能够更好的理解这些文章的内容。其主要的实现步骤如下:
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。