自然语言文本的多粒度特征提取方法研究开题报告

 2022-05-10 08:05

1. 研究目的与意义

1.1背景

随着互联网的发展,以及计算机和信息技术的不断的更新换代,网络上存储的信息越来越丰富。近年来,随着云计算和大数据的兴起,这种新的信息传播途径改变了人们的生活方式,但是互联网中的数据作为信息载体也呈现了爆炸式增长,其中,文本作为信息的有效表现形式,数量也在迅速的增长。如何使得海量的文本信息得到有效的组织和管理,使当今社会困扰人们和科学家的一大难题。对这些数据进行有效的组织和挖掘,以期望更加迅速、精确和全面找到用户所需要的信息又是当今信息科学领域面临的一大挑战。为了应对这种挑战,人们在人工智能发展的引导下,迅速找到了一个重要方向—自然语言处理(nlp)。

nlp可以对这些数据进行挖掘,其主要有文本分类、文本聚类、文档摘要等方法,由于文本分类是人们获取知识和认识事物的一种非常重要方法,并且其在自然语言处理、自然语言理解、机器学习和主题识别等领域都起着关键作用,所以基于文本内容的自动分类研究己成为备受关注的研究热点之一。 文本分类是这样一个过程,为需要分类的文档集归到确定一个类别并且这些类别都是预先定义的。文本分类一般包括了文本的预处理、特征提取、分类器的选择、训练集训练、测试集测试、分类结果的评价等步骤。在这些步骤中,由于特征提取的好坏对分类结果影响比较大,对其研究就成为文本分类中当前的一个热点。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

2.1本课题主要研究内容

(1)对当下常见的特征选择方法df、mi、ig、chi、wllr、wfo进行分析,说明其优缺点,并选择最合适的特征选择方法。

(2)对几个中文数据集文本进行预处理,对其进行不同粒度上的特征值提取,包括词级,字符级两个粒度上进行向量化和特征值提取。利用传统机器学习方法自己深度学习网络进行模型训练,并且聚合上下文信息之后的级别,bilstm对各级别单独以及组合使用进行分类,对比不同训练模型下不同级别的分类性能。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

(1)分析和选择:

首先研究分析当下的自然语言处理技术,着重了解其中的文本分类技术。根据目前主流的集中特征提取方法进行对比研究,分析每一种特征值提取方法的优缺点,选择出合适的特征提取方法。

(2)语料库处理和向量化以及特征工程:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1] jalaj thanaki著, 张超金/ 刘舒曼译,《python自然语言处理》, 机械工业出版社,2018.08

[2]高杨,卫峥著, 《python白话深度学习与tensorflow》, 机械工业出版社,2017.07

[3]nickmcclure著,曾益强译《tensorflow机器学习实战指南》, 机械工业出版社,2017.09

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 计划与进度安排

(1)1月11日至2月15日分析课题,查找资料。

(2)2月16日至2月28日完成需求分析。

(3)3月01日至3月16日完成开题报告。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。