基于SVM和AANN的音视频分割和分类外文翻译资料

 2022-11-29 15:59:30

InternationalJournalofComputerApplications(0975-8887)

Volume 53-No.18,September2012

Audio-videobasedSegmentationandClassification

usingSVMandAANN

K.Subashini

ResearchScholar

S.Palanivel

Professor

DepartmentofComputerScienceandEngineering

AnnamalaiUniversity,Annamalainagar-608002,India

DepartmentofComputerScienceandEngineering

AnnamalaiUniversity,Annamalainagar-608002,India

V.Ramaligam

Professor

DepartmentofComputerScienceandEngineering

AnnamalaiUniversity,Annamalainagar-608002,India

ABSTRACT

1.1 Relatedwork

In this paper, we propose a method for combining audio and

video for segmentation and classification. The objective of seg-

mentation is to detect the category change point such news to

advertisement. The classification system classify the audio-video

data into one of the predefined categories such as news, adver-

tisement, sports, serial and movies. Mel frequency cepstral co-

efficients(MFCC) are used as acoustic features and color his-

togram is used as visual features for segmentation and classifi-

cation. Support vector machine(SVM) and autoassociative neu-

ral network(AANN) models are used for segmentation and clas-

sification. The evidence from audio and video are combined us-

ing weighted sum rule for both segmentation and classifications.

Lastfewdecades,therehavebeenmanystudiesonautomaticau-

dioandvideoclassificationandsegmentationusingseveralfea-

turesandtechniques.In[13],agenericaudioclassificationap-

proachformultimediaindexingandretrivelmethodisdescribed.

Anunsupervisedspeakersegmentationwithresidualphaseand

MFCC features is given in[10]. The method described in[17]

usescontent-basedaudioclassificationandsegmentationbyus-

ingsupportvectormachines.Theworkin[2]speech/musicseg-

mentationusingentropyanddynamismfeaturesinaHMMclas-

sificationframework.Thetechniquedescribedin[9]todeveloped

areferanceplatformforgenericaudioclassification.In[20]audio

classificationsystemisproposedusingSVMandRBFNN.The

preceptualapproachisusedforautomaticmusicgenreclassifi-

cationbasedonspectralandcepstralfeaturesin[15].Ahierarchy

GeneralTerms:

Audio-videosegmentation,Audio-videoclassification

basedapproachforvideoclassificationusingatree-basedRBF

networkisin[8].In[11]amethodisproposedforvideoclassi-

ficationusingnormalizedinformationdistance.Visualdatabase

canbepreceptualandcategorizedintodifferentgenresin[7].The

technique described in[23] uses combining multiple evidences

forvideoclassification.In[22]theauthorsaddresstheproblem

of video genres classification for the five classes with a set of

visualfeatures,andSVMisusedforclassification.Hugeliter-

aturereportscanbeobtainedforautomaticvideoclassification

in[4].Severalaudio-visualfeatureshavebeendescribedforchar-

acterzingsemanticcontentinmultimediain[25].Theedgebased

Keywords:

Support vector machines(SVM),Auto associative neural net-

work(AANN),Mel frequency cepstral coefficients,Color his-

togram,Audioandvideosegmentation,Audioandvideoclassi-

fication,Weightedsumrule

1. INTRODUCTION

Inthiseraofgrowinginformationtechnology,theinformation

is flooding in the form of audio, video, text and audiovisual.

Realtimebroadcastersaswellascommercialbroadcastersare

enabled with devices to easily broadcast and store multimedia

contents.Thisdata,Oncebroadcastandstored,arenotchanged

foranycase.Manualhandlingofthisdataisimpracticalforreal-

timecampaigningapplicationsbecauseofitsincreasinglylarge

volume. Hence, it is important to have a method of automati-

callyindexmultimediadatafortargetingandcommercialbroad

castingapplicationbasedonmultimediacontents.Segmentation

andclassificationofdataintodifferentcategoriesisoneimpor-

tantstepforbuildingsuchsystems.Ourmainobjectiveinthis

paperiscombiningindividualresultsaudio-videosegmentation

andclassification.Audioandvideodetectionandcategorization

areemergingresearcharea.

feature,namely,thepercentageofedgepixels,isextractedfrom

eachkeyframeforclassifyingagivensportsvideointooneof

the five categories, namely, badmiton, soccer, basket ball, ten-

nis and figure skating techniques as explained in [30]. A fea-

ture , called motion texture, is derived from motion field be-

tween video frames, either in optical flow field or in motion

vector field in[18]. In [28] GMM is used to model low level

audio/video feature for the classification of five different cate-

goriesnamely,sports,cartoon,news,commercial,andmusic.

Anaveragecorrectclassificationrateof86.5%isachievedwith

1hourofrecordspergenre,consistingofcontinoussequencesof

5minuteseachand40seconddecisionwindow.Combiningthe

evidence obtained from several complementary classifiers can

improveperformancebasedontheliteratureshownin[14]and

in[27].Initially,in[6]asurveyofaudiobasedmusicclassifica-

43

InternationalJournalofComputerApplications(0975-8887)

Volume 53-No.18,September2012

Fig.2. Melscalefilterbank

Fig.1. Combiningaudioandvideosegmentationandclassification

tionandannotationalgorithmisobtained.Then,in[26]asurvey

onvisualcontentbasedvideoindexingandretrievalshowshuge

informationonvideo.In[31]ahigh-accurancyaudioclassifica-

tionalgorithmisproposedbasedonSVM-UBMusingMFCCs

asclassificationfeatures.Aeffectivealgorithmforunsupervised

speakersegmentationusingAANNisdescribedin[10].In[1]a

robustspeakerchangedetectionalgorithmisproposed.Evalua-

tionofclassificationtechniquesforaudioindexingisdescribed

in[3].In[5]ahybrideapproachispresentedforaudiosegmen-

tation. Acoustic, strategie

剩余内容已隐藏,支付完成后下载完整资料


基于SVM和AANN的音视频分割和分类

概述

在本文中,我们提出了一种结合音频和视频分割与分类的方法。细分的目的是检测变化点的范畴例如广告中的新闻。分类系统分类的音视频数据到一个预定义的类别,如新闻、广告、体育、串行和电影。Mel频率倒谱系数(MFCC)作为声学特征和颜色直方图作为图像的分割与分类的视觉特征,支持向量机(SVM)和自联想神经网络(AANN)模型用于分割和分类,音频和视频的证据相结合使用加权总和规则的分割和分类。

一般条件:
音频和视频分割 音频和视频分类

关键词:
支持向量机(支持向量机),自动联想神经网络(AANN),Mel频率倒谱系数,颜色直方图,音视频分割,音视频分类,加权求和规则。

1.介绍

在这个信息技术不断发展的时代,关于音频,视频,文本和视听形式的信息在泛滥。实时广播和商业广播是启用了设备来轻松广播和存储多媒体内容。此数据,一旦广播和存储, 对于任何情况都没有改变。由于它的体积越来越大,这一数据的人工处理是不切实际的实时运动的应用程序。因此,针对和商业广泛的传播应用程序的基础上的多媒体内容,它是重要的是有一个自动索引的多媒体数据的方法。数据分割和分类是建立这样的系统的一个重要步骤。本文的主要目的是结合个人视频分割和分类结果。音频和视频检测和分类是新兴的研究领域。

1.1相关工作

近几十年来,有许多研究自动音频和视频分类和分割使用的几种功能和技术。在[ 13 ],描述的是一个通用的音频分类方法为了达到多媒体索引和检索。一种无监督的说话人分割与残差相位和MFCC特征是[ 10 ]。在[ 17 ]中描述的方法是利用支持向量机实现基于内容的音频分类与分割。[ 2 ]的工作是在一个隐马尔可夫模型的分类框架中,语音/音乐分割使用的熵和动态特性。该技术在[ 9 ]描述了开发的一个通用的音频分类的参考平台。在[ 20 ]的音频分类系统,提出了基于SVM和RBF神经网络。感性的方法是使用基于[ 15]谱和倒谱特征的音乐风格自动分类。基于层次结构的基于树的RBF网络视频分类方法是在[ 8 ]。在[ 11 ]提出了一种用于视频分类的方法,使用标准化的信息距离。在[7]里描述了可视化数据库可感性和分为不同的类型。在[ 23 ]中所描述的技术相结合的多个证据的视频分类技术。在[22]中作者解决问题的视频类型分类的五个类具有一组的视觉特征,和支持向量机用于分类。在[4]中可以获得巨大的文献报告的自动视频分类。几个视听功能已被描述为度量的语义内容的多媒体在[ 25 ]。基于边缘的特征,即边缘像素的百分比,从每个关键帧提取特定的体育视频分类为五类,即,羽毛球,足球,篮球,网球和花样滑冰技术[ 30 ]中的解释。一个特征,称为运动纹理,来自于视频帧之间的运动场,无论是在光流场或在运动矢量场中在[ 18 ]中。在[ 28 ] GMM模型对五个不同的类别,即分类的低级别的音频/视频功能的体育,动漫,新闻,商业,和音乐。分类正确率平均为86:5实现每1小时记录类型,由每5分钟和40秒的连续序列决定窗口。结合从几个互补的分类获得的证据可以提高性能的基础上的文献显示在[ 14 ]和[ 27 ]。最初,在[ 6 ]调查的音频为基础的音乐分类和注释算法。然后,在[ 26 ]的视觉内容为基础的视频索引和检索的调查显示巨大的信息视频。在[ 31 ]的一个高精度的音频分类算法是基于MFCC作为分类特征svm-ubm提出。利用基于无监督说话人分割的有效算法是描述在[ 10 ]。在[ 1 ]中提出了一种鲁棒的说话人变化检测算法。在[ 3 ]中描述的音频索引分类技术的评价。在[ 5 ]提出了一个混合的音频分割方法。声学,自动分割的策略在[ 12 ]。在[ 16 ]中无监督说话人变化检测,利用支持向量机误分类率描述。在[ 21 ]中给出了广播新闻音频的自动分割、分类和聚类。

图1

1.2工作大纲

在本文中,音频和视频相结合的分割与分类。图1显示了音和视频的分割与分类。该文件被分为以下内容:在第2节中描述的是声学特征提取和视觉特征提取。在第3节介绍建模技术用于分割和分类。分割、分类方法分别在第4节,第5节。实验结果在6节中解释。最后,结论部分在第7节。

2.特征提取为了分割与分类

2.1声学特征提取
MFCC是感性的动机表示,定义为一个窗口短时信号的倒谱。一个非线性的Mel频率尺度是用接近听觉系统的行为。MFCC是基于信号能量的提取与临界频带由一系列三角形滤波器组成,如图2所示。其中心频率间隔根据Mel。Mel倒谱利用听觉原理以及相关属性的倒谱[ 10 ]。图3。阐述了一段音频信号被描述为MFCC特征参数计算如下:Mel频率倒谱已被证明是在音乐信号的识别结构的高效建模的主观的音调和频率的音频信号的内容。心理物理学研究发现梅尔音高和临界频带的频率规模翘曲现象,导致对Mel倒谱域表示。梅尔频率定义为:

Fmel是正常频率范围内的对数尺度。
Mel倒谱特征,可以采用MFCC的说明,这是从快速傅里叶变换(FFT)的功率系数的计算。功率系数由一个三角形的带通滤波器组过滤。当公式中的C在250—350范围内,三角滤波器,落在频率范围200 - 1200 Hz的数量(即显性音频信息的频率范围)高于C,因此其他的值,它是有效的,C的值范围计算MFCC。表示滤波器组的输出由SK(k = 1;2;hellip;;K),MFCCs计算

为了评估工作的相对表现,我们比较了它与著名的MFCC特征。MFCC是短期的光谱特征,如以上,广泛应用于音频和语音处理领域。得到的MFCCs ,音频信号进行分段的256个样品的短帧窗口。幅度谱是每一帧使用快速傅里叶变换(FFT)计算和转换成一组Mel滤波器组输出。对数应用于滤波器的输出由离散余弦变换得到的MFCC。对于每一个音频信号,我们到达了39个特点。这个数字,39,计算从参数化的静态向量13的长度,加上三角洲系数13,再加上的加速度系数13。

图2 图3

2.2视觉特征提取
颜色直方图是表示在表示图像中颜色分布的颜色分布,通过计算每个给定在一个典型的二维的色彩范围设置像素数派生(2D)颜色空间。一个图像的直方图是生产的第一个图像中的颜色数据离散化为若干箱,计数每个容器的图像像素数。直方图提供了一个紧凑的数据的分布在一个图像中的汇总。
图像的颜色直方图是相对不变的,与有关的视图轴的事务和旋转,并且可能随视角的角度变化很慢。此外,它们是计算微不足道的计算。此外,小的变化,相机的角度上的颜色直方图。因此,它们被用来比较在许多应用中的图像。这项工作使用颜色直方图作为视觉特征。RGB颜色空间量化为64箱,由N.64从图像中提取的直方图,如图4。

图4

3.建模技术用于分割和分类

3.1支持向量机
支持向量机是基于结构风险最小化原则的支持向量机方法,在有限样本信息的基础上,找到了模型的复杂性和学习能力之间的最佳平衡点。基本的思想是找到最佳的可分离超平面不仅在范围内两个分类没有错误,但他们之间有最大间隔。SVM的输入向量变换到一个高维特征空间的非线性变换‑,然后做一个线性分离的特征空间,如图5所示。支持向量机(SVM)可使得到的数据分类。支持向量机是一组相关的监督学习方法用于分类和回归。

它们属于广义线性分类器的一个家族。让我们为一个特征向量(称为模式)x =(x1;x2; ;XN)和类标签的y,y ={ 1,-1}的。

图5

换句话说,从两个不同的类的训练样本的超平面分离发现,导致最大的分离决策函数值之间的两类超平面。现在两边缘的总宽度是2型,这是要最大化。

3.2自动关联神经网络(AANN)
自联想神经网络模型是对前馈神经网络进行身份的映射。方式是拥有解决结垢问题的能力。该系统是用来捕获的输入数据和学习规则的分布在[ 19 ] [ 29 ]中。让我们考虑五层网络模型,其中有三个隐藏层。在第一和第三个隐藏层的处理单元是非线性的,并且在二次压缩/隐藏层中的单位可以是线性的或非线性的。由于实际和期望的输出向量之间的误差是最小化的,点在输入空间聚类决定通过投影得到的曲面形状到低维空间。一个五层的自联想神经网络模型是用来捕获的特征向量的分布。二四层网络有更多的单位比输入层。第三层有较少的单位比起第一或第五层。第二、第三、第四层的激活函数是非线性的。每个单元的非线性输出函数tanh(s),其中s是该单元的激活值。标准的反向传播学习算法是用来调整网络的权重,以减少每个特征向量的均方误差。AANN捕获取决于网络的结构限制输入数据的分布,如高斯混合模型的情况下做的混合物和高斯函数个数。高斯混合模型。

4音频视频分割
4.1使用支持向量机的音视频分割
建议的音频(视频)分割使用一个滑动窗口的约2秒,假设类别变化点发生在中间的窗口。滑动窗口是最初放置在右端的音频信号(视频)。支持向量机是在窗口的左半训练的分类特征向量,并在窗口的右半边的特征向量。所有这些特征向量的支持向量机进行了测试。低误分类率或较高的正确分类率的显示类别变化点,如新闻广告由于SVM是能够区分这两个类。支持向量机的训练和测试都重复用80毫秒移动窗口到音频的右端(视频)信号。

图6

4.2使用AANN的音视频分割

建议的音频(视频)分割使用的滑动窗口的约2秒,假设类变化点发生在中间的窗口。滑动窗口是最初放置在右端的音频信号(视频)。自联想神经网络模型进行训练,在窗口的左半部分捕获的特征向量的分布,并在窗口的右半边的特征向量用于测试如图8所示。

平均置信度得分为右半的窗口。低置信度得分表明,在窗口的右边一半的音频(视频)信号的特点是不同的窗口中的信号,因此,中间的窗口是一个类别变化点。上述过程是由一个以上的进步移动窗口反复重复用的移动窗口80毫秒直到它到达右端的音频信号(视频)。


4.3音频视频混合分割
利用支持向量机(神经网络)使音频和视频分割的证据采用加权求和规则。加权求和规则规定“如果类变点检测在T1和T2的音频是一个阈值T内,然后将类别更改点固定在(T1 T2)/2”

5 音视频分类

5.1基于支持向量机的音视频分类
支持向量机被用来训练区分声分布(视觉)的特征从所有的类别里。一个支持向量机为每个类别创建。为了测试,声(视觉)特征输入到SVM模型和距离的特征向量和SVM超平面之间求出。每个模型的平均距离计算。音频的类别是基于最大距离决定的。

5.2音频和视频分类中的应用研究
自联想神经网络是用来捕获声音分布(视觉)的一个类别特征向量。独立的系统模型训练捕捉声分布(视觉)各类别的特征向量。对于测试,每个声(视觉)的特征向量作为输入到每个模型。模型的输出与输入计算的归一化平方误差。归一化均方误差转移到一个置信度得分在6.1节描述。每一个模型的平均置信度得分计算。该类描述的基础上最高的信心得分。

6实验结果
为了验证所提出的音视频性能使用的分割和分类系统。用在了广播电视节目视听收藏各种渠道,包括不同时间的视听范围从五秒到一小时。记录包括体育等新闻等。在我们的工作中,音频序列应切成短的音频片段。多通道音频信号的预采样多个输入采样率,他们8000khz和16位单声道的PCM格式。每个音频剪辑,特征提取每20ms以上,具有30毫秒的重叠。本节分析了两阶段提出的音视频分类性能。最初,用于分类和组合的结果进行评估的音频和视频类型的个人分割。进行实验,视频数据在25帧每秒的电视调谐卡记录,240times;320像素大小的图像从各个电视频道在不同的时间以确保各种数据。所有的世代都是从不同的区域语言渠道收集的。第一阶段,音频和视频的帧类型的个体进行实验。对于所有的训练和测试帧的分割的视觉和声学。然后,加权求和规则匹配是用来寻找距离分割在4节。利用支持向量机和基于样本分割分别显示在7和8。整体分割性能的报告在9。利用实验并且结合音频,视频和视听得到帧转移4:1的音频和视频帧。在我们的工作中,分析帧被设置为2秒的数据集的音频和视频。该方法的性能进行比较的音频和视频。分类的样本表现为10。

图7

图8、9、10

7结论
在本文中,提出了音频和视频数据结合的分割和分类方法。在这项工作中分别采用倒谱系数和颜色直方图来表示听觉特征和视觉特征。支持向量机(SVM)和自联想神经网络(AANN)模型用于特征建模。声学和视觉特征的证据相结合使用加权总和规则来用于分割和分类。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[29299],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版