1. 研究目的与意义、国内外研究现状(文献综述)
近年来,我国一些食品安全事件相继曝光,usda根据中国卫生部的2005年中国因食品安全问题患病人数的统计数字整理得到的信息表明,微生物引起的食源性疾病是食品安全的最大问题。目前随着政府积极力促相关部门逐渐建立和完善食品安全条例体系,食品加工企业的抽检合格率已经有了明显的改善[1]。了解食品消费安全和信息是广大消费者培养食品安全意识的基础,信息获取渠道方面,多数居民选择更能发挥主动性的网络渠道,登陆相关网站检索食品安全热点事件。信息检索的基本任务是根据用户的查询需求,在大规模文档集合中找到与查询相关的文档,关键字匹配技术是当前信息检索领域应用的基础[2],然而同词异意和同意多词情况的存在,会直接影响用户检索信息的准确性。本次研究以食品安全突发事件语料为基础,借助汉语词法分析系统ictclas对原始语料中词性不当的词条进行重标注,从而提高专业领域词汇词性标注的准确度,为用户检索工作提供便利。
迄今为止,词性标注任务已使用了多种技术方法,包括基于规则的和基于统计的以及两者结合使用的方法[3]。但是随着时代发展与技术进步,新词大量出现已经成为不可避免的语言现象,无论是自动分词、信息检索还是机器翻译,都需要新词的自动识别。当前,中文自动分词技术以及新词词性的识别结果已经成为提高分词效果的瓶颈[4]。国内外开展的研究主要围绕新词提取和新词词性猜测。通常情况下,仅利用词语的词性就可以完成部分消岐工作。王惠研究汉语词义消岐时指出汉语中由于词性变化而造成词义转移的例子很普遍,仅仅利用词类标记就可以消除超过1/5的汉语词义消岐[5]。由于词性标注方法主要基于统计方法,所以面向食品安全领域的词性标注工作主要是要解决兼类词和未登录词的标注问题。对于兼类词,可以根据词的上下文信息来确定该词在句子中的唯一词性。
在web环境下,词条的词性随着其在网络中位置的变化而不同,对知识传播的作用也不同,食品安全问题在人类生产生活中居于特殊地位,由其引发的有害效应对社会和经济的影响将是全方位的,不但会威胁消费者的生命安全和健康,还会打击消费者消费信心,从而造成生产经营企业重大的经济损失,这对于食品行业的未来发展也是很不利的。因此,运用基于语言理解的方法对食品安全领域的未登录词进行识别和词性标注很有必要。当然,无论词表规模多么大,未登录词语的存在是必然的,基于词典的分词方法效率很高但是对于新词的识别能力不足。与分词的歧义处理相比,对未登录词语的处理成为影响本次实验精确率的最主要因素[6]。
2. 研究的基本内容和问题
本文针对网页内容中可供机器利用和理解的特殊语料的缺失问题,对食品安全领域突发事件相关语料进行常用词词性标注和特殊用户词典的词性标注两个过程,对两次标注结果进行对比分析并找出首次标注不准确的词条,对于此类词条的词性加以预测和重标注。从而使检索过程中的用户关键字能更准确地匹配到相关数据,提高反馈信息的有效性。
研究过程中主要利用基于规则的中文分词技术中的双向最大匹配算法和汉语词法分析系统ICTCLAS词性标注工具完成两方面工作:其一,对原始语料进行分词并标注其词性。其二,分析对比两次标注结果,筛选出词性有偏差的词条,以第二次分词过程处理的语料为标准,判断偏差词在原语料上下文中的词性并对第一次标注结果进行校正,分析实验方法的效果和重标注工作的实际有效率。3. 研究的方法与方案
本文使用到的工具有:
1)掷出窗外网站(www.zccw.info)数据库
2)eclipse开发工具
4. 研究创新点
与前人比较,本文在基于规则和统计的分词及词性标注方法的基础上,对标注结果进行基于分布的词性重标注,从而对专业领域词汇词性标注的应用作出进一步研究。为了探讨重标注结果的正确率及合理性,得出适合用于自然科学研究领域的词性标注指标,本文获取了3400多条全国各地的有毒有害食品语料,处理后得到11000多条待标注词条,其中大多数为未登录的专业术语和专有名词。同时,结合对于自然语言的理解,对机器无法识别词性的日常用语进行词性标注并分析其有效性。
研究中根据语料在网络环境中的特点,对ICTCLAS50中文词性标注系统的标注结果进行了细化和纠正,一定程度上对原用户词典进行了补充工作。5. 研究计划与进展
2014年
2月10日至2月20日:大量阅读中文词汇词性标注和食品安全问题相关的期刊与博硕士论文;
2月20日至3月1日:拟定论文综述;
