基于词典的先秦词汇汉英对照义项自动抽取研究开题报告

 2022-01-21 21:27:29

1. 研究目的与意义、国内外研究现状(文献综述)

一、课题意义语词的消岐处理是自然语言处理中的一项基本工作,其中包括词汇义项自动抽取,是词义消岐的一种应用,指对词汇进行识别,并将其不同的义项进行抽取和标注,从而达到消除词汇语义兼类的目地。

但在古汉语领域文本的处理中还存在空白。

且在缺少大量人工标注的条件下,对文本知识的组织和挖掘变得更加困难。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

(一)研究目标: 在缺少大量人工标注的条件下,对文本知识的组织和挖掘变得更加困难。

本研究将从这一特点进行了基于词典和汉英对照语料库的相关实验,以弥补缺少人工标注的缺陷,以期望得到相应的抽取规范填补这一空白。

(二)研究内容: 1.先秦古汉语的古汉语词汇抽取与汉英匹配词典的构建; 2.先秦古汉语汉英对照语料库的构建; 3.基于词典的汉英对照义项自动抽取。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

(一)数据来源及研究方法:在词典的选用上,目前较为实用的、能够服务于古汉语文献词义标注的词典是《汉语大词典》。

该词典收词目30余万条,给出了词语的古汉语义项和最早用例,质量较高。

选用《汉语大词典》构造出分词词典,并抽取其中的例句作为平行处理前的观察样例,总结抽取模板,以此提高后续抽取结果的正确率[1]。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

1.在缺少人工标注的情况下,提出选择基于词典的方法。

2.在构建汉英匹配词典时,提出选择基于网络爬虫的方法,快速高效精准的获取对齐词典内容。

3.使用汉英对照语料进行抽取实验,能提高实验的准确率。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 研究计划与进展

(一)前期准备工作: 先秦语料的准备,先秦古汉语段落级语料的获取,相关对齐算法的了解等。

(二)开展工作: (1)2017年12月1日-2018年3月10日进行前期准备工作,获取相关语料文本词典等文本内容,对收集的语料文本进行分析,对相关算法进行原理解释,并制定相关的处理规划,完成开题报告。

(2)2018年3月10日-4月18日 按照制定的规划完成论文内容。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版