1. 研究目的与意义、国内外研究现状(文献综述)
(一)研究意义自从2014年1月1日,《最高人民法院关于人民法院在互联网公布裁判文书的规定》正式实施。
截止2017年7月为止,裁判文书相关网站就有中国裁判文书网、北大法宝网等,各大地方法院均有相应的官方网站进行文书查询。
仅中国裁判裁判文书网站,裁判文书总上传量达到32155576篇。
2. 研究的基本内容和问题
(一)研究目标:从在自然语言处理技术从词、词性发展到语义、语法层面的研究下面,抽取出裁判文书中的事件关系等语义信息转化成结构化数据。
我们不仅仅要从词汇的角度对裁判文书的内容进行标引,还要从词与词之间的关系对裁判文书进行处理。
因此,本文从基于裁判文书的信息抽取,实现裁判文书结构识别,提取法院部分用于事件-文书匹配检索系统。
3. 研究的方法与方案
(一)数据来源及研究方法:从各大裁判文书公开网站利用网络爬虫程序爬取数据,主要的裁判文书数据获取网站有:裁判文书网(http://wenshu.court.gov.cn/)openlaw(http://openlaw.cn/)来研究主要采用常规的比较、分类、分析、序列数据等方法。
(二)技术路线:数据采集和处理→模式匹配,提取出法律法规等信息进行统计→对文本进行结构化标注,设计模型进行分析→事件-文书匹配系统设计,并对结果进行分析→撰写论文(三)实验方案:1.数据处理设计:主要以正则表达式和模式匹配的办法,提取出裁判文书中的法律法规部分,并进行统计分析法律文书的自有的特点,找出其中适用于信息检索的部分。
2.结构化识别设计:主要以序列数据识别和分类数据识别的办法,对裁判文书的每个结构部分进行提取,所采用多种特征提取的方法,并分析特征提取和模型选取对裁判文书结构识别这块的产生的效果差异。
4. 研究创新点
通过抓取裁判文书网的裁判文书数据,构建裁判文书语料库,并进行相应的处理进行保存。
本次课题涉及了多类别的分类问题的讨论,对于以后交叉领域文本的分类提供了一定的参考作用。
其次,本次课题将目前数据存量较多,研究较少的裁判文书作为研究对象,将裁判文书这个信息载体纳入到信息检索体系当中,并且通过裁判文书的初次结构识别,本次课题为以后的裁判文书的信息抽取提供帮助,设计适用于裁判文书的检索系统为以后的裁判文书系统的构建提供相应的依据。
5. 研究计划与进展
(一)前期准备工作:调查目前市面上比较流行的裁判文书的检索系统,选取数据质量比较好的裁判文书数据库作为本次课题研究的数据来源,并设计程序对数据进行爬取采集。
(二)开展工作:(1)2018年3月1日-3月20日进行前期准备工作,确定并搜集各个裁判文书数据的数据,完成开题报告。
(2)2014年3月21日-4月10日对收集到的数据进行初步的统计和分析,研究裁判文书的结构特点和分类特点,并总结后续对裁判文书的结构识别和事件-文书匹配系统有帮助的部分。
