1. 研究目的与意义
- 本课题的研究背景:笔录文本是公安机关记录案件的一种对话型文本,其中所包含案件的事件属性对于案件关联分析非常重要。例如,通过对笔录文本的计算机分析,自动能够判别案件类型属于“盗窃”还是“诈骗”,案发区域属于“住宅”还是“娱乐部门”等等,这些对于快速关联分析同类案件,寻找案发规律等,都有重要作用。目前针对笔录文本的上述信息抽取还主要是采用人工手动方法,存在着抽取速度慢,效率低下的问题。因此一个笔录文本的自动化分类系统的需求迫在眉睫。本次课题拟采用面向笔录文本事件属性的自动分类,首先为何选取的分类的依据是基于事件的分类,因为事件反映着现实世界中的运动、行为和变化,现实世界就是由无数个相互关联的事件所构成。而且相比基于关键词或是基于短语的分类,基于事件的文本分析分类在同义性、多义性和歧义性上表现是最优的,是最能体现语义关系的一种文本类别标识方式。因此,将“事件”作为人类知识单元符合人类认识世界的规律。但是由于汉语中的语言表达十分灵活,因此基于事件分类在冗余性上不如基于关键字或是短语的分类,而且可能会有多个事件表示的是同一种概念但这多个事件的结构、用词上有较大的差异。故在相关算法的设计上时间和空间复杂度上较另两种方法较大,因此在之前这种分类方式较难实现。而对于事件的研究,一直以来,深受认知科学、语言学和人工智能等领域的高度重视。但是近年来人工智能技术有了极大的发展,在借助大数据的支撑或许在实现的难度较之于以往已有些许的降低。尤其近年来,事件的研究已经成为自然语言理解中的一个热点,因此能从前辈的研究中获得许多帮助。
- 本课题研究目的是面向公安机关海量笔录文本,分析其关键信息结构,并基于自然语言处理技术,实现一个笔录文本事件属性的自动分类系统。需求的关键点是案件的事件属性、自动判别案件类型、抽取速度、海量文本、人工智能。本课题的研究意义是倘若实现了这一目标并完成了一个实用的笔录文本自动分类系统投入实用能够大大提高笔录文本的分类存储以及之后取用的速度,同时也能一定程度上减少由于人的疲劳导致的分类错误,可以较大的提高公安机关的办公效率以及准确度。
- 本课题研究的意义:首先本课题的的第一步就是要将文本中的事件抽取出来,而文本事件抽取的方法在此之前已有不少对此的研究,若是能够集众家之所长设计出一种有效的事件提取方法,不仅能在本课题中应用,在其他种类文本的事件抽取、挖掘中也能有所应用。之后便是基于取出事件对笔录文本进行自动化分类,若是能实现此功能首先便是能给公安机关的办案、办公带来极大的支援,这主要体现在:1、有助于智能信息检索系统的建立;2、提高笔录文本库的规范化、自动化程度,避免了人工分类带来的问题。除了直接带来的对公安机关办案效率的益处,还能够以此衍生出如微博文本的自动化分类、微信聊天记录的分类等产品,能够对除了笔录文本之外的文本进行自动化分类。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究内容和预期目标
- 本课题主要研究的内容是如何实现分析笔录文本的关键信息结构,并基于自然语言处理技术,实现一个面向笔录文本事件属性的自动分类算法。其中主要任务是1.获取笔录文本2.对文本进行预处理,主要是去除一些与分类无关的内容以防干扰3.对预处理后文本进行语言学上的处理,主要是进行分词和关键词的提取4.提取出事件5.根据事件确定文本类别,主要研究以何种方式对取出的事件进行分类统计,以获得可靠的文本分类。
- 预期目标是实现一个可以投入使用的笔录自动化分类系统的主要分类算法,在完成分词、取出事件的基础上能够较为准确的确定笔录文本的类别。自动化分类系统算法的分类速度应快于传统人工手动分类。并且对于不断变化有新内容的笔录文本有自我学习的能力,同时一旦出错要有能够及时纠错的能力。此外类似于分词词库、事件库之类的库应当有根据不同情况自定义的功能。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 研究的方法与步骤
- 本课题主要是对面向笔录文本事件属性的自动分类相关的算法的研究与设计,研究方法主要采用文献综合研究法,研究方法主要过程为:1、查找浏览近年有关文本分类、事件提取等方向的文献,了解文本事件属性分类的历史研究及现状,结合课题要求了解、熟悉课题。2、查找是否有实现相关部分功能的样例如分词器、分类算法的实现,并以此设计出相关算法。3、以实现的分类算法为核心进一步尝试去实现相关可以投入使用的自动化笔录分类系统。
- 研究步骤主要遵循软件开发的基本流程:1、进行需求分析,由本课题的背景及意义结合相关会议、讨论的内容得出需求。2、根据得出的需求进行相应的准备:进一步查找、分析相关文献资料,在如github等开源平台上寻找是否有相关的研究内容,分析其优劣之处之后尝试设计出自己的相关算法,再进行概要设计用相关的算法完成一个样例。然后以概要设计中的样例为基础进行详细设计完成能够满足需求的系统。完成设计后进行程序的编码工作,并进行相关的测试,修改以达到需求分析中所要的目标。最后撰写相关报告、论文。
- 具体实现的步骤为:1.获取笔录文本并对文本进行分析2.研究如何实现文本预处理的方法3.研究如何对预处理后的文本进行语言学上的分析、处理最后确定类别,其中大致分为以下几个步骤:对文本进行分词操作、根据词性标注取出事件、分析取出的事件、确定文本类别。4.以类别为依据对笔录文本进行聚类以实现笔录文本的自动化分类操作。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
4. 参考文献
[1] 陈勤, 自然语言处理基本理论和方法[m], 哈尔滨工业大学出版社,2013.08.
[2] chris manning/hinrich schütze 著, 苑春法 / 李伟 / 李庆中 译, 统计自然语言处理基础[m], 电子工业出版社, 2005.12[3] 米歇尔 (mitchell t.m.) (作者), 曾华军 (译者), 等 (译者), 机器学习[m],机械工业出版社, 2008.03
[4] 迪达 等 著;李宏东 等 译, 模式分类[m],机械工业出版社,2003.09
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
5. 计划与进度安排
(1)1月11日至2月15日 分析课题,查找资料。
(2)2月16日至2月28日 完成需求分析。
(3)3月01日至3月16日 完成开题报告。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
