基于深度学习的典籍白话文介宾结构自动识别研究开题报告

 2022-01-16 19:22:43

全文总字数:5204字

1. 研究目的与意义、国内外研究现状(文献综述)

1. 课题的意义

介宾结构又称介宾短语,它是由介词加上后面的名词、代词或名词短语组成,常用来修饰或补充说明动词。例如在‘随着科学技术的发展’这句话中,‘随着科学技术’就是一个介宾结构。介宾结构在白话文中十分普遍,在统计了清华汉语树库接近三万个句子中,我们发现几乎每3个句子中,就有2个含有介宾结构,每7到8个句子中,就会出现1个嵌套介宾结构,因此正确识别介宾结构对中文自然语言处理有着重大的意义和价值。在中文句法中,介词属于虚词,介宾结构主要用在谓语前面作状语,或是用在谓语后面作补语。正确的识别介宾结构对中文句法分析也有着不可忽视的作用,可以为自然语言处理中机器翻译分支提供思路以及便利。

2.国内外研究进展

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

1.研究目标

介宾结构是白话文中一种常见的句法结构,正确的识别介宾结构在自然语言处理中有着不可忽视的作用。本文针对时政新闻语料,以清华汉语树库作为语料获取源,将语料按照多个特征进行处理、分类,并将处理好的语料用crf条件随机场模型、lstm模型和lstm-crf模型分别进行训练,之后通过计算p值、r值和f值来比较各个模型的优劣,本研究对白话文介宾结构识别有指导作用,为自然语言处理中白话文介宾结构识别提供了参考价值,也同时为实体抽取、机器翻译等提供了思想理论上的帮助。

2.研究内容

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

1.研究方法

1.crf条件随机场模型(以下简称crf模型)

条件随机域(场)(conditional random fields,简称 crf,或crfs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 条件随机场是条件概率分布模型 p(y|x) ,表示的是给定一组输入随机变量 x 的条件下另一组输出随机变量 y 的马尔可夫随机场,也就是说 crf 的特点是假设输出随机变量构成马尔可夫随机场。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

特色或创新之处

介宾结构又称介宾短语,它是由介词加上后面的名词、代词或名词短语组成,常用来修饰或补充说明动词。例如在‘随着科学技术的发展’这句话中,‘随着科学技术’就是一个介宾结构。介宾结构在白话文中十分普遍,在统计了清华汉语树库接近三万个句子中,我们发现几乎每3个句子中,就有2个含有介宾结构,每7到8个句子中,就会出现1个嵌套介宾结构,因此正确识别介宾结构对中文自然语言处理有着重大的意义和价值。在中文句法中,介词属于虚词,介宾结构主要用在谓语前面作状语,或是用在谓语后面作补语。正确的识别介宾结构对中文句法分析也有着不可忽视的作用,可以为自然语言处理中机器翻译分支提供思路以及便利。

5. 研究计划与进展

研究计划及预期进展

本项目预计为期半年,分为五个阶段:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版