基于字的汉语组块深度学习识别模型构建研究开题报告

 2022-01-31 09:01

1. 研究目的与意义、国内外研究现状(文献综述)

课题意义:

该课题属于浅层句法分析,又称为词汇之间的依存关系分析,通过实现学术文本摘要的语块自动识别,为学术文本的完整句法分析奠定基础。学术文本句法信息是挖掘文本语义内涵的基础,而语义分析是自然语言处理目前的难点。针对学术文本的语法结构识别有利于学术资源的准确检索,不同语种之间学术文本的翻译,提取作者的观点取向等等,在统计的基础上结合语法结构的规则约束筛选出更加精准的结果,进而有效的选择学术文本。因此,该课题针对学术文本摘要的浅层句法分析,为学术资源的先进管理提供帮助,从而给研究人员提供科研帮助。

国内外研究进展:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

研究目标:

建立自动识别模型,建立应用平台,实现给定未标注语句,自动识别定中短语。

研究内容:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

研究方法:

实证研究法,依据现代汉语语法理论和已有研究,把定中复合名词短语作为目标,以“n1 (的) n2”为汉语组块,根据研究对象调整模型方法,展开对比实验,通过数据整理与分析,构建最优自动识别模型。模型主要利用双向长短时记忆模型(lstm)以及bert(bidirectional encoderrepresentation from transformers)模型,后续根据实验情况可能会进行调整。下面对两种模型进行简单介绍。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

在清华树库的基础之上进行句法结构的简化调整,针对定中复合名词短语,利用新深度学习模型进行自动识别,在识别方法和对象都有一定的创新性。通过在学术摘要的迁移识别,并搭建平台,方便后续研究者的利用,具有开放的特色。

5. 研究计划与进展

2020年01月:阅读相关学术文献,确定研究思路

2020年02月:针对清华树库tct的标注语料进行结构调整,对语料情况进行统计;设置实验思路

2020年03月:语料预处理,开展各项对比实验,记录数据,模型迁移,建立应用平台

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。