基于机器学习的新闻分类系统的设计开题报告

 2022-09-08 11:10:27

1. 研究目的与意义

在智能设备的高度普及和互联网技术的高速发展的同时,信息爆炸己经成为了一个越来越棘手的问题,各类文本信息呈爆炸式增长。

新闻文本作为一种重要的数据承载形式有着重要的地位,如何在巨大的信息源中准确、快速的获取到有价值的信息成为人们的迫切需要,这也是工业界和学术界一直关注的热点问题。

新闻文本分类是文本分类研究的一个细分领域,是信息检索、推荐系统等应用领域中必不可少的部分,分类的目标是为每一个新闻文本分配对应标签,标签代表了该新闻期望的分类类型。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 课题关键问题和重难点

关键问题:新闻集的分类。

对于获取的未分类新闻集的预处理分类。

新闻具体分类方法:(1)首先确定新闻分类的特征属性(例如军事类、娱乐类、教育类、购物类等新闻)。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状(文献综述)

早在上世纪六十年代,国外就开始对文本分类进行研究,h.p.luhn 率先在这个领域进行研究,提出了一种基于词频统计的文本分类方法。

随后 maron 等人也开始研究这个领域,并发表了第一篇关于分类算法的论文,紧接着 k.spark,g.salton 以及 k.s.jones 等人也在这一研究领域中取得很多成效。

目前,国外的文本分类研究已经进入实用性的阶段,在信息资源组织管理中得到广泛的应用。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究方案

设计方案:基于机器学习的新闻分类系统主要分为新闻展示模块、新闻详情模块、定时调度模块和实时分类模块。

其中需要的基础资料:新闻文本分类的相关技术,包括文本的表示方法、中文分词、文本特征提取方法以及常用分类器算法等理论知识。

用于文本分类的卷积神经网络(text-cnn)与lightgbm算法或贝叶斯算法,对系统中所需要的新闻集、新闻文本预处理、分类模型的搭建和实现可能都有所涉及。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 工作计划

第1周:确定选题,完成申请表;第2周:查阅资料,熟悉任务书要求;第3周:查阅资料,准备撰写开题报告;第4周:搜集、查阅相关文献资料,确定总体研究计划;第5周:搭建研发环境,准备实验数据;第6周:实验设计方案; 第7周:论证设计方案;完成开题报告初稿;第8周:完善开题报告;完成开题;第9周:系统开发:完成功能项1;获取新闻数据集功能的实现第10周:系统开发:完成功能项2;用户界面的初步设计、检查与完善英文翻译;第11周:系统开发:完成功能项3;实时分类算法的初步设计第12周:系统开发:完成功能项4;实时分类算法的实现、完成中期检查;第13周:结合导师意见,完善系统,测试系统成果;第14周:参考研究过程资料,撰写论文,完成论文初稿;完成软硬件验收;第15周:对论文进行修饰和完善,完成论文二稿;完成论文查重;第16周:完成论文定稿,制作PPT,完成答辩。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付