1. 研究目的与意义、国内外研究现状(文献综述)
(一)课题意义人文计算的发展,为文本的处理提出了新的思路,既对其进行深入分析并从中挖掘出相应的分类知识,但目前人文计算主要研究对象仍然以现代汉语为主,以古汉语为对象的古文信息处理及其人文计算的研究水平远远落后于现代汉语。
面向古文的汉英平行语料库的类别挖掘研究更是成为了研究难点。
因此,有必要构建基于平行语料库的自动分类模型体系,能够对平行语料,特别是古文汉英平行语料进行有效利用,既文本自动分类。
2. 研究的基本内容和问题
(一)面向先秦典籍1、在《论语》《尚书》《战国策》和《道德经》4种先秦诸子典籍全文数据的基础上,使用支持向量机分类器,通过不同的统计方法抽取特征词,在汉语和英语的训练集上分别构建相应的分类模型,并对模型的整体性能进行逐一的评定。
2、选用tf-idf和互信息作为统计量,对比分析根据二者而构建的svm分类效果,最终总结了本实验的不足并判断了未来可能的发展趋势。
同时对针对英汉语料的实验进行比较,以判断面向古汉语的多语言自动分类的可能性,以期为面向古汉语汉语平行语料研究提供更精准的研究思路。
3. 研究的方法与方案
(一)技术路线在具体实验中,使用了python下的机器学习工具包scikit-learn版本0.16.1中提供的关于svm的算法实现。
(二)实验方案1、语料预处理(1)文本分离:将汉英平行语料中英文分离,以待之后分别使用。
(2)中文分词与英文词性还原:针对古汉语部分使用了python下的机器学习自动分词模块结巴进行分词;针对英语部分,采用python下的自然语言处理工具nltk进行词性还原,并对大小写字母进行统一,并同时在连写词中添加空格,从而把词汇和符号区别开来。
4. 研究创新点
1、面向古汉语的多语言文本处理目前人文计算主要研究对象仍然以现代汉语为主,以古文为对象的古文信息处理及其人文计算的研究水平远远落后于现代汉语。
2、多语言自动分类在实际应用中,跨语言文本分类往往难以取得有效成果,故而多语言文本分类成为了最优选择。
3、基于先秦典籍语料预处理古代汉语词汇中单字词较多,且在句子长度方面古代汉语的句子总体上比现代汉语句子短,故而词汇特征更为明显,具有更多语义。
5. 研究计划与进展
2017年5月:调研、文献检索、确认课题2017年6月:撰写开题报告2017年7月:文献调研、撰写研究综述2018年1月:系统设计、确认实验流程2018年3月:语料预处理2018年3月:特征识别实验2018年3月:构建分类模型并进行交叉实验2018年4月:分析实验结果2018年4月:优化模型并撰写论文
