自然语言生成中的词汇化:一项调查显示外文翻译资料

 2022-11-10 15:01:36

英语原文共 28 页,剩余内容已隐藏,支付完成后下载完整资料


自然语言生成中的词汇化:一项调查显示

弗雷德·斯蒂德

摘要:在自然语言生成中,某种意义的表示是连续地转换成句子或文本。自然地,这个问题的中心子任务是词汇的选择,或者说是词汇化。在本文中,我们提出了确定生成器如何处理词汇化的四点建议,并调查研究人员对它们的贡献。确定了未解决的问题,并且为今后的研究提供了一个可能的方向。

关键词:自然语言生成,词汇选择

1. 介绍

在自然语言生成(NLG)的通用方法中,任务分为战略和战术两部分,前者决定说什么,而后者决定怎么说。战略组件选择内容并将其按适当的顺序排列,表示为文本计划。然后战术组件负责将文本表达组织成句子的顺序并实现它们。在本文中,我们将重点放在第二个方面任务,将语义表达转换为语言,并检查词汇化在其中发挥的作用:独立的单词是怎样成为句子的?

对于这个问题,我们对开放词类和封闭词类的选择做了一个普遍的语言学上的区分。前者包括动词、副词、名词和形容词(也称为实义词),它们都是被认为是词汇选择中“有趣的”部分,通常由于一些特殊的机制而被选出。另一方面,连词、介词等的使用,通常由语法决定所支配,因此不受特定的“选择”过程的限制。虽然这一区别并非完全没有问题,但我们在这里采用了它,并只看开放词类。

早在卡明(1986)所作的一项调查中,他在当时几个应用的生成系统中研究了词汇的作用。本论文考虑到在此期间已执行的工作,并根据更具理论性的NLG体系作出了还没有应用的生成器的贡献。本文对词汇化观点的研究现状进行了总结,不仅适合对生成语法感兴趣的读者,也适用于自然语言处理的其他领域的研究者,在这些领域,词汇与其他信息的关联问题也以类似的方式出现。我们把词汇化的任务看作是围绕四个问题展开的,我们将对此进行讨论。

什么是词汇项?一个NLP系统词典中的基本单位通常是一个单词,但很有理由去超越这种限制并解释短语表达(如习语)。

词汇项如何与知识库中的概念相关联的?生成器的输入是一种语义表示,其含义经常派从基础知识中派生。为了产生语言,概念必须是与词汇项相关联,可以通过多种方式实现。

选择特定词汇项的标准是什么?一些带头研究者曾哀叹,词汇选择的问题没有得到足够的重视,例如,大多数语言生成器都假设对于输入中的每个概念只有一个相关的单词。然而,当词汇化确实是从选择的角度看,需要找到决定词汇项之间差异的因素,并考虑到至少其中可以大大增强生成器的表现力一些。

什么时候访问字典?在什么时候整个生成阶段过程中的单词实际上是从字典中选择的?

2. 词汇项的性质

字典里有什么?我想到的“标准”答案是:单词。这也是自然语言处理的主流观点,语法子句和句子的句法结构的良好性具有某种基于词性标注的特征。词典的工作是提供能在言语中扮演特定角色的单词。由于理论语言学提供了合适的语法,并且计算机科学广泛地研究了处理这种语法的机制,因此这种观察语言的方式是司空见惯的。然而,它忽略了普遍出现的惯用语和其他短语表达,这往往违反了组合分析或表现出特殊的句法行为,并因此没有被在语法和字典之间严格分工的系统所采用。在本节中,我们将研究已在NLG开发的短语表达的方法,即,字典里的单词之外的语言生产的模型。

最早提出这类操纵更复杂的词汇模型的是贝克尔(1975),他生动地阐述了项目而非词汇习语渗透到语言中的程度,并建议将其分成六组,反映它们在造句中的作用和它们的变异性程度。而希里(1968)的分类尽管还太粗略,但他发现不少于超过21个从简单词组到复杂句子不等的基于句法功能的惯用范畴。一些例子:复合名词(station wagon),形容词(spick and span),介词(in spite of),副词(by and large),及物动词(point out that),非时态从句(rain cats and dogs),句子(I should think so)。这个短列表还显示了在习惯用语中可以发现的非组合性的范围:有些语法结构良好但具有非组合意义(I should think so),有些违违背语义选择限制(rain cats and dogs),还有些是语法畸形的(by and large)。

贝克尔提出“短语词典”后,库奇(1983)首先用NLG进行了回应。他设计了股票市场语言化的ANA系统报告。在OPS-5语言中作为生产系统实现,ANA 示意图输入在此期间的不同时间内的表示道琼斯指数值的数据,首先是基本的“信息”,然后是英语短语。后者在数据中寻找特定的时间点/值模式(如信息所述),并选择同样特定的语言表达,如“after rising steadily through most of the morning or meander upwards towards the end ofthe day”来总结指数行为。因此,词典中的短语篇幅长,信息量丰富;从某种意义上说,ANA承载着短语词典废除了复合性,达到了极致几乎完全。剩下的造句任务由组合语法完成,组合语法将短语粘合在一起,在适当的情况下为主语插入回指代词,并注意词形和语言符号。虽然这种贫乏的语法编码了一些关于短语组合行为的概念,由于输入数据中的因素和英语短语组合之间的直接联系,系统总体上是为其特定的领域做好准备的。在后来的研究中,库奇(1987)描述了联结主义网络的初步实验,这些实验与ANA对语义事实和由此产生的句子的配对一起被考察,并将它们一定程度上能够复制它们。

处理短语项的第二种方法体现在PHRED——Unix顾问问答系统的生成模块(雅各布斯 1985)中。UC项目的核心设计目标是使用相同的语言知识进行分析与生成,以及核心仪器的实现,就是模式-概念配对。与ANA的知识库神似,PC配对将语义实体直接链接到语言对象,但重点是用于抓住它们之间的泛化。语言模式代表由词根形式、冻结词或是语义或语法对象的占位符。一个例子(雅各布斯1985年p. 221):

lt;agentgt; lt;root = removegt; lt;physobgt; lt;lt;word = fromgt;lt;containergt;gt;

模式由约束语言特征的方程(例如,时态)以及对象之间的共指关系所补充,以保证生成句型扩展时的语法句子。这是一个递归过程,当一个模式只包含表面词汇时,它就会“触底”生产。习语在这个方案中可以很灵活地表示:完全冻结短语对应于一系列的“单词”项,例如,一个可屈折的动词短语可以是单词和词根形式的组合(p.222):lt;词性=动词词根=kickgt;lt;单词= thegt;lt;单词= bucketgt;。这种编码还意味着动词短语不能被钝化。一般来说,模式并不完全规定词序,这可能是由于应用了顺序模式(例如,将动词短语转换成被动的不定式顺序)。通过这种方式,可以解释具有不同语法行为的大量短语项,同时保留了从单个单词生成句子的能力。具体来说,与ANA相比,PHRED模式中的语义对象通常是高级类别(PHYSOB等),因此模式的适用性并不局限于特定的领域。

与PHRED语法概念相似,霍维对PAULINE系统的研究也是出于对短语模式的探索。霍维(1988a)指出,fctthe词典应该是构成语言的模式的唯一存储库——有的非常具体,有的非常普遍。因此,词汇不仅包括与概念直接相关的特殊表达形式,还包括作为模式编码的语法的一般形成规则。协调分配给词汇项的信息的实现装置是一组句法专家,他们负责从语义表征中产生某种语言成分。专家们不仅可以构建名词短语、句子和其他短语结构实体,还可以完成一些更特殊的任务,比如表示时间或颜色。像PHRED一样,短语模板对特定的语言行为进行编码,但它们与专家具有相同的地位:它们只是一个特例,一个微不足道的过程。因此,句法专家的集合——过程和模板——构成了系统的词汇和语法知识,而生成过程相当于递归地调用更专业的过程(或应用模式),从表示句子的高级专家开始。当某些约束适用于两个或两个以上的专家时(例如,主谓一致),称为从属约束的支配句法专家负责实施这些约束。

总之,本节描述了将生成任务的负担从语法转移到词汇的生成系统。ANA仍然保留了一个独立于词汇条目的组合语法,PHRED和PAULINE的目标是将这两个知识源完全混合到一组通用模式中。因此,这三个系统都强调短语词汇项的重要作用,但只有后两个系统还涉及短语的内部句法结构,当人们想要解释短语的可修饰性差异或“固定性等级”时,这是必要的。然而,对短语项的特点(名词化、被动化、添加额外成分、改变词序等)的综合、系统的处理尚未在NLG中完成。这在很大程度上是由于理论语言学在很大程度上忽略了这一问题,所以几乎没有任何结果可以作为出发点。从惯用短语的同步策略行为和它们与语法的关系来看,没有现成的惯用短语分类——可能是因为习语本身质疑传统语法的作用;它们是语言“肮脏的一面”的一部分,(至少到目前为止)这种“肮脏的一面”抗拒正式的描述。

3.将概念链接到词汇项

当文本生成从一个内部的语义表示转换为自然语言输出时,表示的元素需要以某种方式与语言的词汇项相关联。意义表示通常被标记为概念表示,尽管对概念的确切含义没有达成一致意见,但我们将使用这个术语来指代系统语义表示的基本单元。

3.1 甄别网

首个文字-概念链接的发明是20世纪70年代由高盛提出的“甄别网”,它对后来的作品有很大的影响力。BABEL生成器(高盛1975)是一个集合的一部分NLG项目基于概念的依赖(CD)理论(尚克1975)。在这些系统中,语义表示由语义原语组成,它们的规则控制的组合应该能够捕获自然语言句子的内容,并且系统与它们一起执行一些推理活动(例如,文本总结或翻译)。例如,行为被分解成一组基本行为(它们的数量大约在一打到二十打之间,这取决于理论的标准版本)。

BABEL在将CD表示形式翻译成英语时,必须确定哪个单词最适合表达某种语义原语。由于是非常抽象的,自然会产生一个实质的选择任务,由甄别网或d-net来管理。对于每一个原语,都设计了这样一个网络,它相当于一个决策树,叶子上有文字,节点上有路径选择程序。这些过程是任意的Lisp函数,它们首先通过检查CD公式中考虑的原语的上下文来做出决策。例如,主动行为摄取的d-net表示有生命的生物将某种物质输入身体的活动,并根据对所摄取物质的一系列查询,将“吃”、“喝”、“摄取”、“吸气”、“服用(药物)”等动词加以区分。虽然这种方法并非没有问题(例如,树节点上的决策过程的无限制的、因此非正式的性质受到了批评),但总体思想变得相当流行:单词被认为具有核心含义(在BABEL中的语义原语),加上一些使用条件,这些条件在从根到特定叶子的路径上的决策树中表示。

在LOQUI生成器(霍拉塞克1987)中,知识由“认识论的原语”组成,它们被组织在一个继承层次结构中(参见下一小节)。原语不像概念依赖理论中的原语那么抽象,霍拉塞克假设一般情况下,网络的节点是附加到名词上的,这些名词准确地反映了一个节点的语义(p. 124)。如果不是这样,则应该在节点上附加一个甄别网,以便对单词的选择做出必要的区分。霍拉塞克还暗示了将多个概念映射到单个词汇项的规则,这些规则已在后面的工作中进行了改进(参见下一小节)。根据同样的精神,VIE-GEN 生成器 (布赫贝格尔和霍拉塞克 1988)将d-net附加到原始概念上,这些原始概念以KL-ONE的风格组织在一个分类知识库中(布拉赫曼和舒尔茨1985)。这个概念不仅意味着行为和对象被d-net丰富,而且将概念彼此连接起来的关系(KL-ONE中的角色)也同样被丰富。这样,动词、名词、形容词和介词都是通过d-nets来选择的。此外,还利用表示语言的继承机制来减少冗余:当一个概念没有自己的d-net时,它使用来自上级概念的d-net。

在某种程度上,在COMET系统(麦基翁等人1990)中使用也了d-net启发的词汇化方法。该生成器基于函数统一语法(FUG),通过一系列统一步骤生成具有完整图形的文本。在将语义内容规范传递给统一语法之前(用于文本生成),它包含丰富的词汇信息和语法结构指示。虽然这一步也由统一机制控制,但有一项规定是保留形式主义,调用任意Lisp过程来进行更细粒度的单词选择。例如,(麦基翁等人1990 p. 128),当概念C-TURN(表示转动收音机上的旋钮)被词典化时,Lisp过程查询知识库旋钮是否具有离散位置,如果是,则选择单词集,否则turn。同样,普斯特罗夫斯基和尼任伯格(1987)提出了一个系统,其中的概念被返回词汇项的d-net进一步描述。例如,d-net与STOL(家具的子类型)概念相关联,通过询问有关物品的位置和高度的问题,产生像桌子、书桌、咖啡桌等物品。PAULINE (霍维1988b)也采用了同样的策略,但他的论述不仅基于语义,而且基于语用(见第4节)。

DIOGENES系统(尼任伯格1988)使用了一种不同的表示机制:对于每个词汇项,都定义了一个框架,以规范项所表达的概念,以及对该概念的特定角色的某些限制。例如,“男孩”一词有其概念的框架槽由“人”,和额外的插槽开出“性”是“男性”,“年龄”2至15,等等。虽然信息以一种不同的方式(跨越词的框架)分布,但结果却类似于一个描述网络:一组表示与同一概念相关联的词的框架实际上相当于一个根植于该概念的网络(我们认识到“核心意义加上条件”的概念)。然而,在一个合适的d-net中,选择一个单词的过程是完全规定的:决策是自上而下地按照树做出的。对于这组帧,需要一个单独的决策过程来检查所有帧的插槽并过滤掉不合适的。最后,一个d-net隐含地保证会给出一个答案,即,一个单词(因为严格的二进制决策在每个节点上进行,每个叶子上都有一个单词);另一方面,当信息分布在许多帧上时,并不能保证所有槽/值对的组合都被完全覆盖—概念实例的特定配置可能不匹配任何单词帧。为了防止这种情况的发生,第欧根尼应用了一个数字“意义匹配度量”:根据与插槽相关的重要值,度量计算出最佳匹配,即其整体槽值与原始规范最接近的词。这一过程,称为“最近邻分类”,恢复查找过程的鲁棒性,但

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[19065],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版