1. 研究目的与意义、国内外研究现状(文献综述)
一、本课题研究意义
中国农业拥有上万年辉煌的历史过程,中国农业著作不但是我们中华祖先们的智慧结晶,更是他们将他们的精神财富和重要发明传承下来的重要载体。然而由于古代科学技术的局限性,农业古籍仅能依靠竹简、书卷等传统的记载方式流传于后人。再加上战争和保管的问题,这些中华民族璀璨的历史瑰宝被销毁和失传于后的情况屡见不鲜。而在应用方面,由于古人对书籍的记载没有分段,也没有加标点符号,后人在应用和阅读古文时,需要人为的为古籍加标点符号,大大的耗费了人力和精力,这不但对于农业古籍研究产生了不便,对于经典农业书籍的传播也产生了影响。随着计算机技术的迅猛发展,其强大的信息处理功能,可以方便的为我们处理海量的信息数据。利用现代计算机的强大特性,对古籍进行处理,将节省大量的人力与物力,并且在农业知识文化传播方面也有深渊意义。
古籍的断句标点是古籍整理的重要环节,也是其他环节整理的基础。如果断句标点出现错误,则相关的研究也无从谈起。传统的古文整理主要是采用人工的方式进行断句、标点,这样做费时费力。加快古籍自动断句、标点的研究,对于加快古籍的研究发展具有重要意义。所以本课题的研究,对于中国古籍的断句标点研究具有支撑作用,能够加速中国古代农业典籍的整理和研究,对整个中国古代传统文化典籍的整理和研究也有相当的促进作用。对于古汉语语言研究,以及现代技术对古代典籍的应用研究也具有相当的参考价值。
2. 研究的基本内容和问题
一、研究的目标
以自动化手段,尝试解决古文自动断句问题。选取朱自振的农业古籍《中国茶叶历史资料选辑》工45.6万字作为训练集,明代作者许次纾的《茶疏》共4523字作为测试集,通过阅读与观察古代农业典籍的汉语语言规律,进行模式归纳、规律生成,最终设计出一套有效的自动化断句步骤及解决方案。
二、研究内容
3. 研究的方法与方案
一、研究方法
本研究主要探讨了农业古籍自动断句标点的理论与方法,将中文信息处理应用于农业古籍的数字化整理研究,主要采用了下述技术:
1)文献调研法。查阅了上百篇(部)相关论文、专著、工具书等,全面了解国内外有关本专题的学术研究和实践成果。
4. 研究创新点
1、以往古籍数字化工作主要集中在数字化产品的开发上,对产品开发过程中涉及的数字化技术研究的较多,而对古籍内容的智能处理技术研究的较少。
2、传统的语言学研究主要是定性的研究,缺乏一种定量化、可重复的理论和实现手段,而通过对古籍的自动断句标点研究,可以为传统语言学的量化、复现研究提供一种尝试,以期为古籍智能化研究提供一定的理论框架。
3、探索现代信息技术对古代典籍自动断句和标点的应用程度。为中国古代典籍的自动断句和标点系统的编制奠定基础。
5. 研究计划与进展
第一阶段(2014.1)确定研究方向,制定研究计划
第二阶段(2014.2)实施研究计划,进行理论研究
第三阶段(2014.3)整理相关书籍材料中的信息内容
