基于K-means方法的典籍文本动词聚类研究开题报告

 2022-01-31 09:01

1. 研究目的与意义、国内外研究现状(文献综述)

一、研究意义及研究进展(一)课题研究意义《左传》是我国第一部规模宏大而内容详实的史学著作,在古代史学发展史上占有不可替代的重要地位。

它对于公元前八世纪至公元前五世纪一个重要历史阶段大事的可靠记载,填补了空白,有助于后人对中国古代文明进程的全面了解,是弥足珍贵的史学资料。

词聚类是一种面向词语的聚类技术,广泛应用于自然语言处理的各个方向。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

二、研究的目标、内容和拟解决的关键问题(一)研究目标 通过对《左传》文本中的动词进行聚类分析,使得语义相同或相似的动词聚成一类,尽量得到主题分别为政治、经济、军事、外交、文化的相关动词合集,最后将聚类结果以可视化方式呈现。(二)研究内容①文本预处理对于中文文本进行文本预处理是指预先对文档的内容进行字符过滤、词形变换、词语切分和词性标注等。由于古文本中特殊句式较多,在进行词语切分前进行句法分析,有利于开展后续的工作。②构建词向量利用模型对语料进行处理,得到词向量。根据语料中动词词性标注抽出其中的动词及其词向量。③聚类分析定义词之间相似度,并选择较合适的聚类算法进行聚类,调整参数优化聚类效果,并对不同聚类算法得出的聚类结果与人工分类结果进行比较,对比不同聚类算法应用于《左传》词聚类的效果。④可视化展示 运用可视化工具呈现聚类结果,并制图表对比不同聚类算法的效果。(三)拟解决的关键问题①如何对语料进行预处理,使之适用于构建词向量;②运用哪种或哪几种模型处理文本得到词向量;③如何定义词与词之间的相似度;

④选用哪种聚类算法;

⑤如何呈现聚类结果;

3. 研究的方法与方案

三、研究方法、技术路线、实验方案及可行性分析(一)研究方法①实验法本项目采用Word2Vec等模型构建词向量,通过K-means等算法聚类,通过编写算法与代码来实现对《左传》中动词的聚类,并对代码进行调试,优化模型。②探索性研究法用已知的信息与技术,探索、创造新知识,产生出适用于古文本的动词聚类体系。③文献调查法本研究通过搜集国内外学者关于词聚类、文本聚类等方面的研究论文,并对这些论文进行分析、归纳和总结,了解目前相关研究研究现状、已有成果以及关键技术。确定本研究的主要目标和研究方向。④经验总结法通过对实验中的具体情况,进行归纳与分析,使之系统化、理论化,上升为经验。并根据这些经验,对实验进行不断优化。

(二)技术路线

(三)实验方案①文本预处理对于文本进行文本预处理是指预先对文档的内容进行字符过滤、词形变换、词语切分和词性标注等。由于古文本中特殊句式较多,在进行词语切分前进行句法分析,有利于开展后续的工作。现有语料已经经过词语切分和词性标注,还需对其进行字符过滤和简繁转换,然后通过构建的古文停用词表去除文言虚词。②构建词向量

4. 研究创新点

四、特色或创新之处①研究对象为古文本与目前大部分词聚类研究不同,本研究的研究对象并非现代文本,而是古文本。

《左传》诞生于春秋战国时期,且多用先秦口语,与现代文本语言差异较大。

在对其进行处理时,方式与现代文本有较大差别。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 研究计划与进展

五、研究计划及预期进展①2020.01-2020.02 知识储备 学习word2vec、lda、tf-idf等词向量构建模型以及k-means、dbscan等聚类算法,掌握其基本理论及运用方法。

同时对原始文本进行字符过滤、简繁转换、去停用词等处理,使之转变为可输入的语料。

②2020.02-2020.04 生成词向量并尝试聚类分析 用word2vec、lda、tf-idf算法生成词向量,选用词向量之间的欧氏距离或者余弦距离作为词与词之间的相似度,选用k-means、dbscan、凝聚层次聚类算法对其进行聚类分析。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。