1. 研究目的与意义
在信息技术高速发展的时代中,信息的获取、处理和应用已经成为了经济、军事、科学、文化等各个领域发展的关键。其中,信息的获取是这三个步骤的开端,在信息技术领域中具有尤其重要的地位。
随着计算机和互联网技术的迅猛发展,各领域的信息量也在以指数级不断的增长着。要想有效利用信息,关键在于高效地获取有用的信息。信息抽取技术,是通过抽取、过滤无关信息,使文本信息以用户关心的形式进行再组织,实现高效重组。将结构松散的自然语言信息,通过抽取转为结构严谨、语义明确的表现形式,利用计算机进行高效存储并加以利用。
近年来,随着公安刑侦专业信息及相关信息等资源信息的急剧增长,如果让侦查人员费时费力去查卷宗,对于一般的案件就勉为其难,还会增加破案成本。在如此多的资源信息中如何获得破案线索信息,如何提高破案效率,如何快速有效地找到相关案件信息,已经成为刑侦工作迫切解决的问题。
2. 研究内容和预期目标
笔录文本是公安机关记录案件的一种对话型文本,其中所包含案件的5w1h(what, where, when, who, why, how)信息对于案件关联分析非常重要。目前针对笔录文本的上述信息抽取还主要是采用人工手动方法,存在着抽取速度慢,效率低下的问题。随着海量数字化笔录文本的产生,如何采用人工智能技术,自动抽取笔录文本中包含的实体信息,如时间、人物、地点等内容,是一个非常具有挑战性的任务。
实体是文本中重要的信息元素。狭义的讲,实体是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等,通常用唯一的标志符(专有名称)表示,如人名、组织名、地名等。广义的讲,实体还可以包含时间、数字表达式等。实际研究中,实体的确切含义,需要根据具体应用来确定,比如,在具体应用中,可能需要把地址、网址、电子邮箱地址、电话号码、舰船编号、会议名称等作为实体。有些词属于专门领域中的实体名,例如药名、医学条件、轮船名字、以及参考目录等,也应该把其归入考虑范围内。
3. 研究的方法与步骤
实体的识别按照方法不同,大体可以分为三类:基于规则的方法;基于统计的方法;统计与规则相结合的方法。其中后两种方法目前占主导地位。
1、基于规则的方法
对于这类采用人工组织规则的系统,主要存在一下缺点:人工组织规则的代价非常昂贵,并主要依赖于有经验的计算语言学家。当把此系统移植到不同领域时,需要大量的人工修改工作。当把系统移植到新的语种时,这些规则需要重新书写和组织。语言学家书写规则的经验和所花费人力劳动的大小对性能的影响很大。
4. 参考文献
[1]陈勤,自然语言处理基本理论和方法[m],哈尔滨工业大学出版社,2013.08.
[2] chris manning/hinrich schütze著,苑春法/李伟/李庆中译,统计自然语言处理基础[m],电子工业出版社, 2005.12
[3]米歇尔(mitchell t.m.) (作者),曾华军(译者),等(译者),机器学习[m],机械工业出版社, 2008.03
5. 计划与进度安排
(1)1月11日至2月15日分析课题,查找资料。
(2)2月16日至2月28日完成需求分析。
(3)3月01日至3月16日完成开题报告。
