汉语中离合词的词汇特性速描
原文作者 Mateja PETROVCIC 单位卢布尔雅那大学,艺术系
摘要:离合词是汉语动词的一种特殊类型,具有独一无二的句法特征,在某种意义上,正是一个动词的两个语素之间所存在的某些成分才使得句子在语法上是可以被接受的。并非所有的离合词都能被扩展到相同程度。要想理解词的表现方式,我们一般建议使用检索词汇特性速描的方式,这是因为词汇特性速描是以大型的文本语料库为基础建立的。本文探讨了词汇特性速描引擎中汉语离合词是是如何被处理的,并探讨了现有汉语语料库对词汇特性速描的适宜性。并且更进一步强调了在词汇特性速描中在被插入成分中包含信息的重要性,并就如何包含它们提出建议。
关键词:汉语;离合词;词汇特性速描;速描引擎
1 介绍
汉语中离合词的研究已有数十年的历史。根据其研究方向,众多研究者将其划分为两个阶段。第一个时期从20世纪50年代到70年代,第二个时期从20世纪80年代至今。
黄(2006)指出,由于与音译相关的一些问题,这个动词群体甚至在离合词这个术语被定义之前就引起了语言学家们的注意了。中文的书写系统并没有明确的词汇界限标志,比如词之间的空格。当规范汉语拼音的正式拼音系统在建立拼写规则时,就遇到了词界的问题。即使经过了数十年的探讨,学者们仍未就这些“项目”究竟是单词、短语或是词兼短语,还是某些中间状态的东西达成一致。
20世纪80年代中国对外开放后,将汉语作为外语学习和教学成为人们关注的焦点。它看起来已成为外国学生的普遍面临的问题,不论学生的母语是什么。很明显一个母语非汉语者很难理解一个动词应该是作为一个单位使用还是分开使用,如果是后者的话,哪些成分可以被插入两个组成成分之间(黄,2006)。
第二个阶段同样与信息加工与机器翻译的发展有关,这为现有的研究课题带来了新的见解。通过语料库语言分析语言也是这个时期的新奇之一。近期有几篇论文就参考了北大CCL网络语料库的数据。
2 离合词
离合词是双音节动词,在特定情况下可以分离。更重要的是,在这种情况下,一些离合词在它的两个音节(词素)之间要加入至少一个元素,否则这个句子在语法上就会出错。离合词有好几种类型,但它们大部分都是“动宾”的形态结构,比如 “tiao//wu跳舞”,“jian//mian(见面)”,“bang//mang(帮忙)'。
4. 他 跳 了 一个小时 的 舞。
ta tiao le yi ge xiaoshi de wu
he dance LE one hour DE dance
He was dancing for an hour.
5. 我们 只 见 过 一次 面。
women zhi jian guo yi ci mian
we just see GUO once face
Weve met only once.
6. 他 帮 了 我 一个 大 忙。
ta bang le wo yi ge da mang
he help LE I one big help
He helped me a lot.
学者们对离合词的主张有两个阵营,分为词和短语。那些将离合词解释为词的人用以下三个事实来支持他们的观点。首先,离合词可以在语义或语用内容上孤立地表达;首先,离合词可以在语义或语用内容上孤立地表达;最后,尽管离合词可以被扩展,但它们的扩展形式是非常有限的。另一方面,主张离合词是短语的学者认为,离合词具有短语的语法特征,比如分裂性、灵活的词序等,并且总是有着特殊的习语含义(周,12010,p.123)。
不同的作者提出不同的离合词分类,将离合词划分成了10个不同的分组。然而,人们普遍认为,离合词至少有以下三种类型(黄,2006,p.85):
- 动宾式
- 动补式
- 主谓式
如上文提到与示例1-3说明的,一个离合词的两个语素之间可能需要一个或更多附加元素。这些附加元素可能是一个动态助词和一个持续性短语,例如在示例1中,一个动态助词和一个短语表达出了事件的次数。
关于什么成分能被插入离合词之中的问题,学者们已经得出了若干结论。我们以一种非常简单的方式介绍周(2010)的理论成果,因为它组织完善且系统性强。
- 动态助词(le了,guo过and zhe着)
- 补语(定量补语,结果补语,定向补语,表示可能性的补语)
- 特征类
- 一些问题的形式与模式
- 这些元素的组合
关于插入元素的最有趣的地方就是它们的可修复性的程度。一些离合词可以用上述所有模式扩展,而其他的则仅限于其中一部分(何,2009,p.65)。王(2008;2010)为我们提供了语料库驱动的发现,他得出了大部分离合词与我们的日常生活和活动相关的结论。这种离合词也非常灵活,允许多种扩展组合。王先生对离合词的语义问题做出了深刻的结论,但由于本文篇幅所限,我们就不在文章中进行详细的探讨了。在这篇论文中,我们将更多地将注意力集中在词汇特性速描上,它可以提供词语的搭配强度与语法特征。
3 词汇特性速描系统
根据速描引擎网站的解释,词汇特性速描是“对某个词汇的语法以及和其他词语搭配表现的以语料库为基础的总结”(从特性速描引擎开始,2016)。词汇特性速描不仅对研究者来说是一个非常有用的工具,而且对语言教师、语言学习者和其他使用者来说也同样如此,因为它表示了“词语的搭配根据语法关系来分类,例如充当动词宾语的词汇、充当动词主语的词汇、修改词的词汇等等。”(词汇特性速描,2016)
速描引擎可能包含了使用同一种语言的数个语料库。对于标准汉语来说,有九个文本语料库可供订阅用户使用。然而,它们的词汇特性速描明显有很大不同。造成这种分歧的主要原因不是基础语料库的规模,而是语法描写的可用性。即词汇特性速描依赖于提供给速描引擎的可用语法定义(从速描引擎开始,2016)
图1显示了三组可供汉语语料库使用的语法关系。从用户的角度来看,这些可以从词汇特性速描工具的高级选项中选择。
语法关系被定义为词类标签上的(POS-标签)上的正规表达式,并被保存在所谓的语法表达中。2它们通常是为名词、动词和形容词创建的,但也能被其他定义扩充。
目前,最好的中文语法文件与语料库——中文十亿词汇2相关,无论是大陆版本(简体字版)还是台湾版本(繁体字版)。语料库zhenTenTen[2011]与速描引擎中的其他中文语料库相比规模更大,并将凭此建立起更好的词汇特性速描系统,但在语法关系上复杂的定义会更少。.因此它的词汇特性速描系统的提供信息能力不如语料库中文十亿词汇2(见表1)。
4 离合词的词汇特性速描
尽管词汇特性速描主要为名词、形容词和动词建立,但离合词的语法和搭配表现的信息仍然非常有限。记住,离合词是汉语动词的一种特殊种类。
在本研究中,我们集中关注语料库中文十亿词汇2,因为它提供的词汇特性速描是中文语料库中最全面的。查询显示,在它们的双音节项目中,离合词是作为词来看待的,却被指定了不同的词类标签。表2给出了21种基础离合词的分类,它们在HSK3的词汇列表中被列出。3
虽然列表很短,而且并不是标准汉语离合词的最具代表性的样本,我们仍可一眼看出离合词的主要部分被标记为VA4。基于这一思想,我进一步分析了王(2008)列出的207个离合词,并最终得到了大致相似的结果,正如表3所示。
整体上说, 最终结果显示了几乎620%的离合词被归类为VA4或者VH11。我们假设,如果我们剔除一些“可疑”项,这个比例甚至会更高。例如,关于“注意”是否是一个离合词的争议非常大。新HSK的5000个分级词词典提供了一个单独使用的例子,但这种情况并不常见。
你身体不好,健康状态要多注点儿意。
Ni shenti bu hao, jiankang zhuangkuang yao duo zhu dianr yi.
You are in poor health. Take care of your health condition. (Li, 2013, p. 381)
然而 ,大多数其他作者不认为之歌动词是可分离的。中文十亿词汇2 语料库和CCL语料库均为发现可分离使用的例子(王,2008)。
我们已经注意到(见上文第2章)在某些特定的模式下,离合词的第一个和第二个语素之间必须插入一些元素。虽然这是汉语离合词的非常重要的一个语法特征,但是词汇特性速描并没有提供这样的信息。
在语料库查询语言(CQL)的基础上,我们更进一步地分析了选取的21个离合词它们的扩展形式。我们制定了以下的CQL表达式:
“A”[word!=“,| ; | : | }。| ? | ! | )”amp;tag!=“PARENTHESISCATEGORY”]{1,}“8” within lt;p/gt;6
查询结果非常有效且相对准确。协调清单包含了所有想要的扩展形式,大多没有杂音。图1显示了动词bangmang帮忙的一个结果片段。
在其他结果中值得一提的是例子是在离合词的两个成分之间插入例如11个标记,如图2所示与解释。尽管两个语素之间有不短的距离,这个结构仍展示了语法上的真情关系。
然而,离合词的语素并非都像图2中的例子那样相距那么远。分析表明,通常两者之间有一到五个标记(图3)。
离合词在它们的可分离形式中通常被单独处理,不再被看作是同一个动词。因此,我们进一步调查哪些POS标签被分配给这样的可分离形式,结果见表4。因为我们关注的重点不是每一个离合词的意思而是它们联合的POS标签,我们故意忽略了英语表达。
在 6个例子中,离合词的首个语素被解释为VC2动词,在4个例子中被解释为VC31动词,在3个例子中被解释为VA11动词。还有2个动词实例,一个是VE2一个是VH11的。正如预期的那样,大多数情况下离合词的第二个语素是名词。回想起来,大部分离合词的内部形态结构都是动宾型(V-O)。HSK3的离合词列表太过短,难以得出可靠的结论,但是我们相信,上述发现显示了相关关系和模式,如果得到进一步支持,就可以得到推广。
5 最后的思考
对中文十亿词汇2语料库中的离合词的初步研究表明,离合词并没有被看作是一种动词的特殊亚型。相反的是,双音节动词和它对应的单音节被标记为两种不同的动词,通常属于不同的POS标签。指望POS标签被改变是不可能的,然而, 追踪双音节与其对应的单音节之间的关系却是可能实现的。要做到这一点,就要分析大量的离合词。
这些动词的双音节和对应的单音节形式的搭配也因此单独生成。因此,词汇特性速描不提供有关哪些元素应该被插入离合词两个语素之间的信息。这无疑是一个非常重要的汉语动词的语法特征。
因为CQL查询提供了相当正确的结果,同时何种模式能形成离合词已为众人所知,对相关的语法文件创建语法关系的附加定义是可行的。
外文文献出处:全国图书馆参考咨询联盟
附外文文献原文
WORD SKETCHES OF SEPARABLE WORDS LIHECI IN CHINESE
Mateja PETROVCIC
University of Ljubljana, Faculty of Arts
mateja.petrovcic@ff.uni-Ij.si
Abstract
Separable words (liheci) are a special type of Chinese verbs with unique syntactical features in a sense that some elements come in between the two morphemes of a verb for a sentence behaviour to be grammatically acceptable. Not all separable words are
剩余内容已隐藏,支付完成后下载完整资料
WORD SKETCHES OF SEPARABLE WORDS LIHECI IN CHINESE
Mateja PETROVCIC
University of Ljubljana, Faculty of Arts
mateja.petrovcic@ff.uni-Ij.si
Abstract
Separable words (liheci) are a special type of Chinese verbs with unique syntactical features in a sense that some elements come in between the two morphemes of a verb for a sentence behaviour to be grammatically acceptable. Not all separable words are extendable to the same degree To under-stand the behaviour of words, it is generally advised to check word sketches, because they are based on large text corpora This article examines how Chinese separable words are treated in Sketch Engine and discusses on the approprietness of the available Chinese corpora for word sketches.It further stresses the importance of including information on inserted elements in word sketches and gives suggestions on how to include them.
Keywords: Chinese; separable words; liheci; word sketches; Sketch Engine
Povzetek
Locljive besede (liheci) so poseben tip glagolov s svojevrstnimi sintakticnimi lastnostmi. Zanje je znacilno, da moramo dolocene stavcne clene vstaviti med oba morfema glagola. Pri locljivih besedah je posebej problematicno to, da ne moremo nikoli natancno vedeti, do kaksne mere je beseda locljiva in s katerimi vzroci jo lahko razsirimo. Pri orisu rabe besed so nam lahko v veliko pomoc
besedne skice, ki izhajajo iz besedilnih korpusov. V clanku proucimo, kako locljive besede obravnava Sketch Engine, kateri kitajski korpus je najbolj primeren za besedne skice in predlagamo, kako bi besednim skicam dodali tudi informacije o locljivosti glagolov.
Kljucne besede: kitajscina; locljive besede; liheci; besedne skice; Sketch Engine
1 Introduction
Separable words in Chinese have been investigated by several decades. According to their research orientation numerous researchers for divides them into two periods. The first period lasted from 1950s to 1970s,and the second period stretches from the 1980s to the present Huang (2006) notes that due to the problems related to transliteration this group
of verbs caught linguists attention even before the term separable word (liheci离合)
was defined. Chinese writing system does not have explicit word boundary markers, such as the spaces between words. When the official romanization system for Standard Chinese Hanyu pinyin was to set orthographic rules, it encountered the problem of word boundaries. Even after several decades of discussions, scholars had yet to agree whether these 'items' are words, word phrases, words as well word phrases, or something in-between.
After the Chinas opening up policy in 1980s, learning and teaching Chinese as a
foreign language became the major point of interest. Separable words became the subject of research in relation to foreign language acquisition. 离合词成为与外语习得相关的研究课题。 They seemed to be a common problem for foreign students regardless of their native language. It was obvious that a non-native speaker had difficulties understanding whether a verb should be used as a unit or separately, and if the latter, which elements could be inserted in between the two morphemes (Huang, 2006).
This second period has also been related to the development of information processing and machine translation, which brought new insights into the existing research topics. Analyzing language by means of corpus linguistics is also one of the novelties in this period. Several recent papers refer to the data from Peking University CCL Online Corpus.
2 Separable words liheci
Separable words are disyllabic verbs that are separable in certain circumstances. Even more, in these circumstances, some separable words should undertake at least one element in between its syllables (morphemes), or else the sentence would be grammatically incorrect. There are several types of separable verbs, but the majority of them has the morphological structure 'verb-object', for example tiao//wu(跳舞) 'to dance' (lit. to jump dance), jian//mian(见面)'to meet' (lit. to see a face), “bang//mang(帮忙)'to help' (lit. to help//busy).
4. 他 跳 了 一个小时 的 舞。
ta tiao le yi ge xiaoshi de wu
he dance LE one hour DE dance
He was dancing for an hour.
5. 我们 只 见 过 一次 面。
women zhi jian guo yi ci mian
we just see GUO once face
Weve met only once.
6. 他 帮 了 我 一个 大 忙。
ta bang le wo yi ge da mang
he help LE I one big help
He helped me a lot.
Scholars advocate separable words in two ways; either as words or as word phrases. Those who interpret them as words support their ideas with the following three facts. Firstly, separable words may be uttered in isolation with semantic or pragmatic content; secondly, several morphemes of separable words are bound morphemes; and finally, although separable words can be extended, their extension patterns are very limited. On the other hand, scholars who claim that separable words are word phrases say that separable words carry syntactic features of word phrases such as splitting, flexible word order, and often carry a special idiomatic meaning (Zhou, 2010, p. 123).
Different authors propose various categorizations of separable words, classifying them into up to ten different groups. However, it is generally agreed that there are at least the following three types of separable words (Huang, 2006, p. 85):
-
V-O type (dongbin shi动宾式
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[279182],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
