1. 研究目的与意义、国内外研究现状(文献综述)
1.1课题意义
在当今这个资讯流通非常快速的时代,无论是youtube或是bilibili,每天都有成千上万来自世界各地的视频在上传。字幕主要描述的是视频中人物的对话、旁白、简介等,而从字幕的主要特性可以分析出许多视频的特征。随着时间的推移,从一开始书信往来、观众现场电话的拨打,到web2.0共建共享的网络互动评论,直到最近,发展出一种崭新的评论方式“弹幕评论”。弹幕之所以称之为“弹幕”一词,是因为大量的“吐嘈”评论在视频中出现,就像子弹一样,而后来只要在视频画面中出现且具有即时性、时间轴等特征的评论,都被概括为弹幕。
弹幕可以了解观看者的意见、情感表达,以及字幕在视频中所表现得剧情情绪的起伏,还有内容意涵。通过对弹幕进行情感分析,能够从另一个角度研究及探讨观看者的情绪,如利用大数据分析观看视频的潜在人群、利用时间轴分析观看人数、探讨视频剧情的安排。
2. 研究的基本内容和问题
2.1研究目标
借助深度学习与自然语言处理等技术,对国内主流弹幕视频网站的弹幕内容进行爬取、清洗、模型训练、情感分析研究,并将研究结果可视化。
2.2研究内容
3. 研究的方法与方案
3.1研究方法
1购买基于tensorflow的深度学习与自然语言处理参考书,学习python的知识;
4. 研究创新点
4.1算法的使用
lstm是对rnn的一种改进,rnn存在梯度消失或者爆炸现象,即经过许多阶段的传播后梯度信息会梯度衰减,而lstm正是为了解决此问题而产生。引入自循环的巧妙构思,以产生梯度长时间持续流动的路径是初始长短期记忆模型的核心贡献。lstm相对于rnn来说,主要是增加了记忆模块,记忆模块包含了记忆单元、输入门、输出门和遗忘门。
4.2领域的应用
5. 研究计划与进展
2020年1月-2月:python编程学习,学习使用python常用的库,使用python爬虫抓取数据;
2020年2月-3月:学习数据预处理的方法,掌握tensorflow与自然语言处理基本知识,学习rnn算法的原理,实现lstm模型;
2020年3月-4月:自己构建语料库或使用现有语料库通过word2vec中的skip-gram模型训练得到词向量对lstm模型进行训练;
