1. 研究目的与意义、国内外研究现状(文献综述)
1、课题的意义在新媒体时代,人们面对层出不穷的大数据,很容易陷入信息盲区。
如何有效处理和理解这些数据,成为人们无法回避的挑战之一。
一般地,自然语言分析技术可以较好地从文本大数据中挖掘出重要信息,而这些挖掘出的信息究竟以怎样一种形式组织起来,才更适合于人们对其进行理解、浏览、传播及应用,是一个值得关注的问题。
2. 研究的基本内容和问题
1、研究目标和内容在本次设计中,主要是基于中文分词和图片轮廓提取的方法制作一个更好地词云图生成工具。
具体内容如下:(1)试用现有的多种词云图制作工具,了解他们的功能特色和优缺点;(2)完成词云关键词的提取工作。
查阅相关资料,学习中文分词技术的原理,并把现存的一些算法,如:最大概率法(mpsegment)、隐式马尔科夫模型(hmmsegment)、混合模型(mixsegment)、索引模型(querysegment),简单进行比对,选用相对较好的算法提取关键词。
3. 研究的方法与方案
本软件大致分为两个模块,提取关键词模块和图片处理模块。
在提取关键字模块中,用到了中文分词技术,研究路线和方法如下:(1)通过阅读文献,了解中文分词的概念、原理;(2)通过文献资料将常用的算法,如:最大概率法(mpsegment)、隐式马尔科夫模型(hmmsegment)、混合模型(mixsegment)、索引模型(querysegment),简单进行比对,选用相对较好的算法提取关键词。
;(3)将分词后的结果展示出来。
4. 研究创新点
1、通过学习中文分词技术,使词云图可以适用于中文,弥补了大多数词云图软件只支持英文的不足。
2、通过学习图像的边缘提取技术,使词云图的形状变得更加丰富。
弥补了现存的大多数软件只支持简单图形的不足。
5. 研究计划与进展
任务1:2017.12-2018.01完成开题工作任务2:2018.01-2018.02查阅并分析相关文献,学习中文分词技术的相关理论、方法,将已有的成熟算法用r语言或python实现,并进行对比,取得较好的分词结果。
任务3:2018.02-2018.03学习图像的处理流程,完成图片的预处理、边缘检测和轮廓提取、填充,实现将一副彩色的较复杂的图片转换成可供词云图生成的黑白png图片。
学习matlab或opencv,对轮廓提取现存的几种算法进行比对,选取效果好的算法处理图片。
