InternationalJournalofComputerApplications(0975-8887)
Volume 53-No.18,September2012
Audio-videobasedSegmentationandClassification
usingSVMandAANN
K.Subashini
ResearchScholar
S.Palanivel
Professor
DepartmentofComputerScienceandEngineering
AnnamalaiUniversity,Annamalainagar-608002,India
DepartmentofComputerScienceandEngineering
AnnamalaiUniversity,Annamalainagar-608002,India
V.Ramaligam
Professor
DepartmentofComputerScienceandEngineering
AnnamalaiUniversity,Annamalainagar-608002,India
ABSTRACT
1.1 Relatedwork
In this paper, we propose a method for combining audio and
video for segmentation and classification. The objective of seg-
mentation is to detect the category change point such news to
advertisement. The classification system classify the audio-video
data into one of the predefined categories such as news, adver-
tisement, sports, serial and movies. Mel frequency cepstral co-
efficients(MFCC) are used as acoustic features and color his-
togram is used as visual features for segmentation and classifi-
cation. Support vector machine(SVM) and autoassociative neu-
ral network(AANN) models are used for segmentation and clas-
sification. The evidence from audio and video are combined us-
ing weighted sum rule for both segmentation and classifications.
Lastfewdecades,therehavebeenmanystudiesonautomaticau-
dioandvideoclassificationandsegmentationusingseveralfea-
turesandtechniques.In[13],agenericaudioclassificationap-
proachformultimediaindexingandretrivelmethodisdescribed.
Anunsupervisedspeakersegmentationwithresidualphaseand
MFCC features is given in[10]. The method described in[17]
usescontent-basedaudioclassificationandsegmentationbyus-
ingsupportvectormachines.Theworkin[2]speech/musicseg-
mentationusingentropyanddynamismfeaturesinaHMMclas-
sificationframework.Thetechniquedescribedin[9]todeveloped
areferanceplatformforgenericaudioclassification.In[20]audio
classificationsystemisproposedusingSVMandRBFNN.The
preceptualapproachisusedforautomaticmusicgenreclassifi-
cationbasedonspectralandcepstralfeaturesin[15].Ahierarchy
GeneralTerms:
Audio-videosegmentation,Audio-videoclassification
basedapproachforvideoclassificationusingatree-basedRBF
networkisin[8].In[11]amethodisproposedforvideoclassi-
ficationusingnormalizedinformationdistance.Visualdatabase
canbepreceptualandcategorizedintodifferentgenresin[7].The
technique described in[23] uses combining multiple evidences
forvideoclassification.In[22]theauthorsaddresstheproblem
of video genres classification for the five classes with a set of
visualfeatures,andSVMisusedforclassification.Hugeliter-
aturereportscanbeobtainedforautomaticvideoclassification
in[4].Severalaudio-visualfeatureshavebeendescribedforchar-
acterzingsemanticcontentinmultimediain[25].Theedgebased
Keywords:
Support vector machines(SVM),Auto associative neural net-
work(AANN),Mel frequency cepstral coefficients,Color his-
togram,Audioandvideosegmentation,Audioandvideoclassi-
fication,Weightedsumrule
1. INTRODUCTION
Inthiseraofgrowinginformationtechnology,theinformation
is flooding in the form of audio, video, text and audiovisual.
Realtimebroadcastersaswellascommercialbroadcastersare
enabled with devices to easily broadcast and store multimedia
contents.Thisdata,Oncebroadcastandstored,arenotchanged
foranycase.Manualhandlingofthisdataisimpracticalforreal-
timecampaigningapplicationsbecauseofitsincreasinglylarge
volume. Hence, it is important to have a method of automati-
callyindexmultimediadatafortargetingandcommercialbroad
castingapplicationbasedonmultimediacontents.Segmentation
andclassificationofdataintodifferentcategoriesisoneimpor-
tantstepforbuildingsuchsystems.Ourmainobjectiveinthis
paperiscombiningindividualresultsaudio-videosegmentation
andclassification.Audioandvideodetectionandcategorization
areemergingresearcharea.
feature,namely,thepercentageofedgepixels,isextractedfrom
eachkeyframeforclassifyingagivensportsvideointooneof
the five categories, namely, badmiton, soccer, basket ball, ten-
nis and figure skating techniques as explained in [30]. A fea-
ture , called motion texture, is derived from motion field be-
tween video frames, either in optical flow field or in motion
vector field in[18]. In [28] GMM is used to model low level
audio/video feature for the classification of five different cate-
goriesnamely,sports,cartoon,news,commercial,andmusic.
Anaveragecorrectclassificationrateof86.5%isachievedwith
1hourofrecordspergenre,consistingofcontinoussequencesof
5minuteseachand40seconddecisionwindow.Combiningthe
evidence obtained from several complementary classifiers can
improveperformancebasedontheliteratureshownin[14]and
in[27].Initially,in[6]asurveyofaudiobasedmusicclassifica-
43
InternationalJournalofComputerApplications(0975-8887)
Volume 53-No.18,September2012
Fig.2. Melscalefilterbank
Fig.1. Combiningaudioandvideosegmentationandclassification
tionandannotationalgorithmisobtained.Then,in[26]asurvey
onvisualcontentbasedvideoindexingandretrievalshowshuge
informationonvideo.In[31]ahigh-accurancyaudioclassifica-
tionalgorithmisproposedbasedonSVM-UBMusingMFCCs
asclassificationfeatures.Aeffectivealgorithmforunsupervised
speakersegmentationusingAANNisdescribedin[10].In[1]a
robustspeakerchangedetectionalgorithmisproposed.Evalua-
tionofclassificationtechniquesforaudioindexingisdescribed
in[3].In[5]ahybrideapproachispresentedforaudiosegmen-
tation. Acoustic, strategie
剩余内容已隐藏,支付完成后下载完整资料
基于SVM和AANN的音视频分割和分类
概述
在本文中,我们提出了一种结合音频和视频分割与分类的方法。细分的目的是检测变化点的范畴例如广告中的新闻。分类系统分类的音视频数据到一个预定义的类别,如新闻、广告、体育、串行和电影。Mel频率倒谱系数(MFCC)作为声学特征和颜色直方图作为图像的分割与分类的视觉特征,支持向量机(SVM)和自联想神经网络(AANN)模型用于分割和分类,音频和视频的证据相结合使用加权总和规则的分割和分类。
一般条件:
音频和视频分割 音频和视频分类
关键词:
支持向量机(支持向量机),自动联想神经网络(AANN),Mel频率倒谱系数,颜色直方图,音视频分割,音视频分类,加权求和规则。
1.介绍
在这个信息技术不断发展的时代,关于音频,视频,文本和视听形式的信息在泛滥。实时广播和商业广播是启用了设备来轻松广播和存储多媒体内容。此数据,一旦广播和存储, 对于任何情况都没有改变。由于它的体积越来越大,这一数据的人工处理是不切实际的实时运动的应用程序。因此,针对和商业广泛的传播应用程序的基础上的多媒体内容,它是重要的是有一个自动索引的多媒体数据的方法。数据分割和分类是建立这样的系统的一个重要步骤。本文的主要目的是结合个人视频分割和分类结果。音频和视频检测和分类是新兴的研究领域。
1.1相关工作
近几十年来,有许多研究自动音频和视频分类和分割使用的几种功能和技术。在[ 13 ],描述的是一个通用的音频分类方法为了达到多媒体索引和检索。一种无监督的说话人分割与残差相位和MFCC特征是[ 10 ]。在[ 17 ]中描述的方法是利用支持向量机实现基于内容的音频分类与分割。[ 2 ]的工作是在一个隐马尔可夫模型的分类框架中,语音/音乐分割使用的熵和动态特性。该技术在[ 9 ]描述了开发的一个通用的音频分类的参考平台。在[ 20 ]的音频分类系统,提出了基于SVM和RBF神经网络。感性的方法是使用基于[ 15]谱和倒谱特征的音乐风格自动分类。基于层次结构的基于树的RBF网络视频分类方法是在[ 8 ]。在[ 11 ]提出了一种用于视频分类的方法,使用标准化的信息距离。在[7]里描述了可视化数据库可感性和分为不同的类型。在[ 23 ]中所描述的技术相结合的多个证据的视频分类技术。在[22]中作者解决问题的视频类型分类的五个类具有一组的视觉特征,和支持向量机用于分类。在[4]中可以获得巨大的文献报告的自动视频分类。几个视听功能已被描述为度量的语义内容的多媒体在[ 25 ]。基于边缘的特征,即边缘像素的百分比,从每个关键帧提取特定的体育视频分类为五类,即,羽毛球,足球,篮球,网球和花样滑冰技术[ 30 ]中的解释。一个特征,称为运动纹理,来自于视频帧之间的运动场,无论是在光流场或在运动矢量场中在[ 18 ]中。在[ 28 ] GMM模型对五个不同的类别,即分类的低级别的音频/视频功能的体育,动漫,新闻,商业,和音乐。分类正确率平均为86:5实现每1小时记录类型,由每5分钟和40秒的连续序列决定窗口。结合从几个互补的分类获得的证据可以提高性能的基础上的文献显示在[ 14 ]和[ 27 ]。最初,在[ 6 ]调查的音频为基础的音乐分类和注释算法。然后,在[ 26 ]的视觉内容为基础的视频索引和检索的调查显示巨大的信息视频。在[ 31 ]的一个高精度的音频分类算法是基于MFCC作为分类特征svm-ubm提出。利用基于无监督说话人分割的有效算法是描述在[ 10 ]。在[ 1 ]中提出了一种鲁棒的说话人变化检测算法。在[ 3 ]中描述的音频索引分类技术的评价。在[ 5 ]提出了一个混合的音频分割方法。声学,自动分割的策略在[ 12 ]。在[ 16 ]中无监督说话人变化检测,利用支持向量机误分类率描述。在[ 21 ]中给出了广播新闻音频的自动分割、分类和聚类。
图1
1.2工作大纲
在本文中,音频和视频相结合的分割与分类。图1显示了音和视频的分割与分类。该文件被分为以下内容:在第2节中描述的是声学特征提取和视觉特征提取。在第3节介绍建模技术用于分割和分类。分割、分类方法分别在第4节,第5节。实验结果在6节中解释。最后,结论部分在第7节。
2.特征提取为了分割与分类
2.1声学特征提取
MFCC是感性的动机表示,定义为一个窗口短时信号的倒谱。一个非线性的Mel频率尺度是用接近听觉系统的行为。MFCC是基于信号能量的提取与临界频带由一系列三角形滤波器组成,如图2所示。其中心频率间隔根据Mel。Mel倒谱利用听觉原理以及相关属性的倒谱[ 10 ]。图3。阐述了一段音频信号被描述为MFCC特征参数计算如下:Mel频率倒谱已被证明是在音乐信号的识别结构的高效建模的主观的音调和频率的音频信号的内容。心理物理学研究发现梅尔音高和临界频带的频率规模翘曲现象,导致对Mel倒谱域表示。梅尔频率定义为:
Fmel是正常频率范围内的对数尺度。
Mel倒谱特征,可以采用MFCC的说明,这是从快速傅里叶变换(FFT)的功率系数的计算。功率系数由一个三角形的带通滤波器组过滤。当公式中的C在250—350范围内,三角滤波器,落在频率范围200 - 1200 Hz的数量(即显性音频信息的频率范围)高于C,因此其他的值,它是有效的,C的值范围计算MFCC。表示滤波器组的输出由SK(k = 1;2;hellip;;K),MFCCs计算
为了评估工作的相对表现,我们比较了它与著名的MFCC特征。MFCC是短期的光谱特征,如以上,广泛应用于音频和语音处理领域。得到的MFCCs ,音频信号进行分段的256个样品的短帧窗口。幅度谱是每一帧使用快速傅里叶变换(FFT)计算和转换成一组Mel滤波器组输出。对数应用于滤波器的输出由离散余弦变换得到的MFCC。对于每一个音频信号,我们到达了39个特点。这个数字,39,计算从参数化的静态向量13的长度,加上三角洲系数13,再加上的加速度系数13。
图2 图3
2.2视觉特征提取
颜色直方图是表示在表示图像中颜色分布的颜色分布,通过计算每个给定在一个典型的二维的色彩范围设置像素数派生(2D)颜色空间。一个图像的直方图是生产的第一个图像中的颜色数据离散化为若干箱,计数每个容器的图像像素数。直方图提供了一个紧凑的数据的分布在一个图像中的汇总。
图像的颜色直方图是相对不变的,与有关的视图轴的事务和旋转,并且可能随视角的角度变化很慢。此外,它们是计算微不足道的计算。此外,小的变化,相机的角度上的颜色直方图。因此,它们被用来比较在许多应用中的图像。这项工作使用颜色直方图作为视觉特征。RGB颜色空间量化为64箱,由N.64从图像中提取的直方图,如图4。
图4
3.建模技术用于分割和分类
3.1支持向量机
支持向量机是基于结构风险最小化原则的支持向量机方法,在有限样本信息的基础上,找到了模型的复杂性和学习能力之间的最佳平衡点。基本的思想是找到最佳的可分离超平面不仅在范围内两个分类没有错误,但他们之间有最大间隔。SVM的输入向量变换到一个高维特征空间的非线性变换‑,然后做一个线性分离的特征空间,如图5所示。支持向量机(SVM)可使得到的数据分类。支持向量机是一组相关的监督学习方法用于分类和回归。
它们属于广义线性分类器的一个家族。让我们为一个特征向量(称为模式)x =(x1;x2; ;XN)和类标签的y,y ={ 1,-1}的。
图5
换句话说,从两个不同的类的训练样本的超平面分离发现,导致最大的分离决策函数值之间的两类超平面。现在两边缘的总宽度是2型,这是要最大化。
3.2自动关联神经网络(AANN)
自联想神经网络模型是对前馈神经网络进行身份的映射。方式是拥有解决结垢问题的能力。该系统是用来捕获的输入数据和学习规则的分布在[ 19 ] [ 29 ]中。让我们考虑五层网络模型,其中有三个隐藏层。在第一和第三个隐藏层的处理单元是非线性的,并且在二次压缩/隐藏层中的单位可以是线性的或非线性的。由于实际和期望的输出向量之间的误差是最小化的,点在输入空间聚类决定通过投影得到的曲面形状到低维空间。一个五层的自联想神经网络模型是用来捕获的特征向量的分布。二四层网络有更多的单位比输入层。第三层有较少的单位比起第一或第五层。第二、第三、第四层的激活函数是非线性的。每个单元的非线性输出函数tanh(s),其中s是该单元的激活值。标准的反向传播学习算法是用来调整网络的权重,以减少每个特征向量的均方误差。AANN捕获取决于网络的结构限制输入数据的分布,如高斯混合模型的情况下做的混合物和高斯函数个数。高斯混合模型。
4音频视频分割
4.1使用支持向量机的音视频分割
建议的音频(视频)分割使用一个滑动窗口的约2秒,假设类别变化点发生在中间的窗口。滑动窗口是最初放置在右端的音频信号(视频)。支持向量机是在窗口的左半训练的分类特征向量,并在窗口的右半边的特征向量。所有这些特征向量的支持向量机进行了测试。低误分类率或较高的正确分类率的显示类别变化点,如新闻广告由于SVM是能够区分这两个类。支持向量机的训练和测试都重复用80毫秒移动窗口到音频的右端(视频)信号。
图6
4.2使用AANN的音视频分割
建议的音频(视频)分割使用的滑动窗口的约2秒,假设类变化点发生在中间的窗口。滑动窗口是最初放置在右端的音频信号(视频)。自联想神经网络模型进行训练,在窗口的左半部分捕获的特征向量的分布,并在窗口的右半边的特征向量用于测试如图8所示。
平均置信度得分为右半的窗口。低置信度得分表明,在窗口的右边一半的音频(视频)信号的特点是不同的窗口中的信号,因此,中间的窗口是一个类别变化点。上述过程是由一个以上的进步移动窗口反复重复用的移动窗口80毫秒直到它到达右端的音频信号(视频)。
4.3音频视频混合分割
利用支持向量机(神经网络)使音频和视频分割的证据采用加权求和规则。加权求和规则规定“如果类变点检测在T1和T2的音频是一个阈值T内,然后将类别更改点固定在(T1 T2)/2”
5 音视频分类
5.1基于支持向量机的音视频分类
支持向量机被用来训练区分声分布(视觉)的特征从所有的类别里。一个支持向量机为每个类别创建。为了测试,声(视觉)特征输入到SVM模型和距离的特征向量和SVM超平面之间求出。每个模型的平均距离计算。音频的类别是基于最大距离决定的。
5.2音频和视频分类中的应用研究
自联想神经网络是用来捕获声音分布(视觉)的一个类别特征向量。独立的系统模型训练捕捉声分布(视觉)各类别的特征向量。对于测试,每个声(视觉)的特征向量作为输入到每个模型。模型的输出与输入计算的归一化平方误差。归一化均方误差转移到一个置信度得分在6.1节描述。每一个模型的平均置信度得分计算。该类描述的基础上最高的信心得分。
6实验结果
为了验证所提出的音视频性能使用的分割和分类系统。用在了广播电视节目视听收藏各种渠道,包括不同时间的视听范围从五秒到一小时。记录包括体育等新闻等。在我们的工作中,音频序列应切成短的音频片段。多通道音频信号的预采样多个输入采样率,他们8000khz和16位单声道的PCM格式。每个音频剪辑,特征提取每20ms以上,具有30毫秒的重叠。本节分析了两阶段提出的音视频分类性能。最初,用于分类和组合的结果进行评估的音频和视频类型的个人分割。进行实验,视频数据在25帧每秒的电视调谐卡记录,240times;320像素大小的图像从各个电视频道在不同的时间以确保各种数据。所有的世代都是从不同的区域语言渠道收集的。第一阶段,音频和视频的帧类型的个体进行实验。对于所有的训练和测试帧的分割的视觉和声学。然后,加权求和规则匹配是用来寻找距离分割在4节。利用支持向量机和基于样本分割分别显示在7和8。整体分割性能的报告在9。利用实验并且结合音频,视频和视听得到帧转移4:1的音频和视频帧。在我们的工作中,分析帧被设置为2秒的数据集的音频和视频。该方法的性能进行比较的音频和视频。分类的样本表现为10。
图7
图8、9、10
7结论
在本文中,提出了音频和视频数据结合的分割和分类方法。在这项工作中分别采用倒谱系数和颜色直方图来表示听觉特征和视觉特征。支持向量机(SVM)和自联想神经网络(AANN)模型用于特征建模。声学和视觉特征的证据相结合使用加权总和规则来用于分割和分类。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[29299],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
