全文总字数:5204字
1. 研究目的与意义、国内外研究现状(文献综述)
1. 课题的意义
介宾结构又称介宾短语,它是由介词加上后面的名词、代词或名词短语组成,常用来修饰或补充说明动词。例如在‘随着科学技术的发展’这句话中,‘随着科学技术’就是一个介宾结构。介宾结构在白话文中十分普遍,在统计了清华汉语树库接近三万个句子中,我们发现几乎每3个句子中,就有2个含有介宾结构,每7到8个句子中,就会出现1个嵌套介宾结构,因此正确识别介宾结构对中文自然语言处理有着重大的意义和价值。在中文句法中,介词属于虚词,介宾结构主要用在谓语前面作状语,或是用在谓语后面作补语。正确的识别介宾结构对中文句法分析也有着不可忽视的作用,可以为自然语言处理中机器翻译分支提供思路以及便利。
2.国内外研究进展
2. 研究的基本内容和问题
1.研究目标
介宾结构是白话文中一种常见的句法结构,正确的识别介宾结构在自然语言处理中有着不可忽视的作用。本文针对时政新闻语料,以清华汉语树库作为语料获取源,将语料按照多个特征进行处理、分类,并将处理好的语料用crf条件随机场模型、lstm模型和lstm-crf模型分别进行训练,之后通过计算p值、r值和f值来比较各个模型的优劣,本研究对白话文介宾结构识别有指导作用,为自然语言处理中白话文介宾结构识别提供了参考价值,也同时为实体抽取、机器翻译等提供了思想理论上的帮助。
2.研究内容
3. 研究的方法与方案
1.研究方法
1.crf条件随机场模型(以下简称crf模型)
条件随机域(场)(conditional random fields,简称 crf,或crfs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 条件随机场是条件概率分布模型 p(y|x) ,表示的是给定一组输入随机变量 x 的条件下另一组输出随机变量 y 的马尔可夫随机场,也就是说 crf 的特点是假设输出随机变量构成马尔可夫随机场。
4. 研究创新点
特色或创新之处
介宾结构又称介宾短语,它是由介词加上后面的名词、代词或名词短语组成,常用来修饰或补充说明动词。例如在‘随着科学技术的发展’这句话中,‘随着科学技术’就是一个介宾结构。介宾结构在白话文中十分普遍,在统计了清华汉语树库接近三万个句子中,我们发现几乎每3个句子中,就有2个含有介宾结构,每7到8个句子中,就会出现1个嵌套介宾结构,因此正确识别介宾结构对中文自然语言处理有着重大的意义和价值。在中文句法中,介词属于虚词,介宾结构主要用在谓语前面作状语,或是用在谓语后面作补语。正确的识别介宾结构对中文句法分析也有着不可忽视的作用,可以为自然语言处理中机器翻译分支提供思路以及便利。
5. 研究计划与进展
研究计划及预期进展
本项目预计为期半年,分为五个阶段:
