基于先秦古籍的语言网络节点相似度计算研究开题报告

 2022-01-21 21:27:37

1. 研究目的与意义、国内外研究现状(文献综述)

语言词汇间的相似度计算研究是当前汉语相似词挖掘与获取前的必要工作之一,也是古文信息处理工作中的基础技术。

在词典编纂、信息检索系统的构成、基于语词本身的基本操作(如词语切分、词性标注、专名标注等)、文言文与白话文间的机器翻译、语义分析及摘要自动标引等诸多研究中都少不了词汇相似度计算这一过程。

以语料资源的属性为划分依据,当下的词汇相似度计算研究大体可分为两类,分别是基于已成词典的相关研究和基于大规模语料库的相关研究。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

在构建语言网络的过程中,本文以传统方法为指导,在对先秦典籍语料作必要的分词、词性标注、剔除无意义词汇等预处理操作后,利用pajek 3.08软件将转化后的先秦典籍.net数据文件分别绘制成pun(无向网络)图和pdn(有向网络)图。

在相似度算法的选择上,由于本研究中的语言网络属于典型的大规模网络,而利用基于全局结构特征的语言网络节点相似度计算的方法来处理大规复杂网络,普遍会存在效率低、计算机运算能力无法负荷等问题。

相较而言,基于共同邻居节点信息的语言网络节点相似度计算的方法耗时较少、计算机在运算过程中的复杂度较低,对于处理大规模复杂网络相关问题的优势更明显,但正如本文在研究综述这一版块中的阐述,基于共同邻居节点信息的方法也有利有弊。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

在前期文献查阅阶段,本文在对现存的相似度计算方法有了一定了解之后发现,目前,在领域中以语言网络的内外部结构为切入点的词汇节点相似度研究尚未成熟。

因此,本实验的创新点在于:(1)本文是基于先秦典籍这一大型语料库展开的应用探究实验;(2)本文将深入以复杂网络内部结构为求解节点相似度的依据,充分发挥基于网络求解相似度问题这一方法相较于传统算法求解的优点,不仅能节省大规模先秦语料库的存储空间,还能够做到高效展示词汇节点间关联及其程度关系;(3)针对于不同类型的网络,有不同的最优相似度计算方法,本文将会揭示采用共现语言网络的方法进行词汇相似度的不同算法的表现;(4)不同于西方语用,中文的词汇的词性变换更多样,因此,本文在实验处理过程中将中文词性对于词汇节点相似度的影响纳入考量;(5)本文将基于先秦典籍的语言网络中节点间的权重也纳入了考量。

5. 研究计划与进展

1、第一阶段,对国内外的相关研究成果,进行文献调研。

2、第二阶段,数据处理,与专业学者一同制定top line并设计结果评价系统。

3、第三阶段,对搜集数据进行整理、量化、统计及分析。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版