基于Hilbert–Schmidt独立性准则的多元信息融合识别膜蛋白类型外文翻译资料

 2023-04-08 23:04:45

英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料


基于Hilbert–Schmidt独立性准则的多元信息融合识别膜蛋白类型

王浩a,丁漪杰b,lowast;,唐吉军a,c,d,郭飞a,lowast;

a、天津大学智能与计算学院计算机科学与技术学院,天津300350,中国

b、苏州科技学院电子与信息工程学院,中国苏州

c、南卡罗来纳州大学计算机科学与工程系,哥伦比亚市,SC 29208,美国

d、天津大学系统生物工程教育部重点实验室

摘 要

膜蛋白具有多种对生物体生存至关重要的功能,如氧化还原酶、转移酶或水解酶。如果能检测出膜蛋白的类型,就能迅速确定蛋白质的功能。现有的计算方法不仅利用了氨基酸疏水性指数的自相关函数,而且考虑了蛋白质序列的进化保守性信息。本研究采用平均块(AvBlock)、离散小波变换(DWT)、离散余弦变换(DCT)、定向梯度直方图(HOG)和伪PSSM (PsePSSM)等方法从位置特异性得分矩阵(PSSM)中提取演化特征。然后,我们从五个相应的特征集构造五个核。最后,我们提出了一种基于Hilbert Schmidt independent Criterion (HSIC)的多核支持向量机(MKSVM)分类器来整合5个核来识别膜蛋白。在性能评价方面,我们的方法在膜蛋白的四个基准数据集上进行了测试。对比结果表明,我们的预测模型在所有现有的优秀方法中取得了最好的效果。

1、介绍

所有细胞都被膜包裹,膜主要由脂质和蛋白质组成。腔室由膜脂形成通透性屏障。我们称膜的基本蛋白质为膜蛋白,它们嵌入在脂质双分子层中。膜蛋白的不对称性在不同的生物化学功能中起着非常重要的作用。膜蛋白可分为8类:(1)type1单跨度膜蛋白;(2) type2单跨度膜蛋白;(3) type3单跨度膜蛋白;(4) type4单跨度膜蛋白;(5)多跨度膜蛋白;(6) 脂连接膜蛋白;(7) GPI锚定膜蛋白和(8) 周边膜蛋白。确定每一种膜蛋白的种类需要冗长而昂贵的实验。氨基酸序列可以决定膜蛋白是在膜相关的或自由的多聚核糖体上合成的。因此,膜蛋白的一级序列可能包含与脂质双分子层相互作用类型的信息。许多计算方法已经被研究出来进行蛋白质类型的检测[1-6]。这些方法通常从蛋白质序列中提取特定的特征,并使用不同的机器学习(ML)方法进行膜蛋白类型的分类。

现有的方法大多采用Chou的PseAAC算法,该算法已被广泛应用于膜蛋白类型和亚细胞定位。其蛋白质分类性能优良。Chou和Elrod[7]首先采用协变判别算法(Covariant Discriminant Algorithm, CDA)和氨基酸组成(Amino Acid Composition, AAC)构建膜蛋白类型预测器。Wang等人[8]利用Pseudo Amino Acid Composition (PseAAC)从蛋白质序列中提取特征,并将PseAAC特征输入分类器。Cai等[9,10]利用功能域组成和PseACC建立膜蛋白类型预测模型。Liu等人[11]结合低频傅里叶频谱分析和PseACC对蛋白质序列进行特征提取。Hayat和Khan[12]将复合蛋白序列表示(CPSR)整合到PseACC中提取蛋白质序列特征,并利用分裂氨基酸组成Split Amino Acid Composition (SAAC)和集成分类ensemble classification构建Mem-EnsSAAC预测器[13]。他们进一步提出杂交SAAC和位置特异性评分矩阵(Position Specific Scoring Matrix, PSSM)

构造MemHyb模型[14]。Uddin等人[15]提出EvoStruct-Sub,将预测的结构信息与直接从蛋白质序列中提取的进化信息结合起来。Han等[16]将氨基酸分类和理化性质整合到Chou的PseAAC的一般形式中,建立了两阶段支持向量机(SVM)模型来预测膜蛋白类型。Wang等[17]基于PseAAC利用 堆叠泛化来预测膜蛋白类型。Chen和Li[18]通过将蛋白质拓扑结构、结构域、信号肽和理化性质整合到Choursquo;s PseAAC的一般形式中,构建了膜蛋白类型预测器(predMPT)。

此外,还有一些方法将蛋白质序列编码成高维特征向量或矩阵,并利用多种模型从高维空间中提取不可或缺的特征。Qiu等人[19], Nanni等人[20,21] and Rezaei等人[22]利用离散小波变换(Discrete Wavelet Transform, DWT)从序列信息矩阵中提取特征。Chou和Shen[23]采用伪位置特异性得分矩阵Pseudo - Position-Specific Score Matrix (PsePSSM)和优化证据-理论K-最近邻optimization Evidence- theoretical K-Nearest Neighbor (OET-KNN)构建MemType-2L模型。Wang等人[24]利用二肽合成(Dipeptide Composition, DC)方法将蛋白质序列编码成高维特征向量,并应用邻域保持嵌入(Neighborhood Preserving Embedding, NPE)算法从高维DC空间中提取不可或缺的特征。为了通过计算方法预测膜蛋白的类型,一个主要的计算挑战是找到一种合适的方法来充分描述膜蛋白序列的重要信息。从机器学习的角度来看,膜蛋白类型的预测可以看作是一个传统的多分类问题。因此,最关键的步骤是从蛋白质序列中提取有效特征,并融合多个特征。在这里,我们利用ML算法结合以上信息建立膜蛋白类型的预测模型。

显然,进化保守性信息对膜蛋白类型的预测具有重要作用。蛋白质序列的进化守恒可以用Position-Specific Score Matrix (PSSM)来描述[25-28]。例如,进化过程中的序列守恒或变异是由许多因素决定的,为了保持三维结构和稳定性,减少淀粉样蛋白聚集,也为了发现功能守恒。在此,我们从PSSM中提取进化特征。然后,我们使用平均块(AvBlock)[29]、离散小波变换(DWT)[30,31]、离散余弦变换(DCT)[32]、梯度直方图(HOG)[33]和PsePSSM[23]从PSSM中提取有效特征。利用上述基于PSSM的特征构造相应的5个不同的内核。

对于多组信息处理,Ahmad和Dey [34], Parvin等人[35],Hamid等人[36]采用多信息融合来提高聚类算法的性能。Minaeibidgoli 等人 [37], Parvin 等人[38], Fatemeh 等人[39]提出了一种融合模型,对多元信息设置相应的权重,优化各信息的比例,提高模型的效率。Parvin等人[40]解决了不平衡数据集上的信息融合问题。由此可见,在多信息环境下,如何将它们组合在一起,表达各自的信息是解决问题的关键因素。本文采用基于Hilbert Schmidt Independence Criterion (HSIC)的多核支持向量机(MKSVM)分类器对5个核进行整合,构建一种新的膜蛋白分类模型。在性能评价方面,我们的方法在4个膜蛋白数据集上进行了测试,对比结果表明,我们的预测模型在所有现有的优秀方法中性能最好。

2、材料和方法

我们采用平均块(AvBlock)、离散余弦变换(DCT)、离散小波变换(DWT)、定向梯度直方图(HOG)和伪PSSM (PsePSSM)对膜蛋白的PSSM进行特征提取。利用这五种基于PSSM的特征构造了五种内核。为了集成以上五种核,我们提出了一种基于Hilbert Schmidt independent Criterion (HSIC)的多核支持向量机(MKSVM)分类器。最后,MKSVM-HSIC可以预测膜蛋白的类型。原理图如图1所示。

图1我们提出的方法的原理图

2.1 数据集

为了评估该方法的性能,我们在数据集1、数据集2、数据集3和数据集4上测试了所提出的模型。四个数据集的详细情况见表1。前三个数据集(Dataset 1、2、3)包含8种膜蛋白类型,后一个数据集(Dataset 4)包含5种膜蛋白类型。

数据集1直接取自Chou的工作[23],其中蛋白质最初从Swiss-Prot[41]检索。然后Chou等人采用百分比分布的方法对训练集和测试集进行随机分配,以保证两个集之间序列的数量是平衡的。训练集和测试集都包含8种膜蛋白类型。

数据集2由Chen和Li[18]通过去除数据集1中的冗余序列收集。他们使用CD-hit[42],得到了非冗余的蛋白序列,没有两个序列的同源性超过40%。

为了更新和扩展数据集的大小,Chen等人构造了一个新的数据集dataset 3[18],其过程如下:他们利用蛋白质亚细胞定位注释,从Swiss- Prot[41]中收集膜蛋白序列。然后,采用以下排除标准:(1)排除长度小于50个氨基酸残基或注释为片段的蛋白质;(2)去除拓扑结构中非实验限定符标注或多个拓扑结构的蛋白质;(3)如果同源序列与数据集中的任意序列具有较高的序列一致性(大于40%),则使用CD-hit去除同源序列。

数据集4取自Chou前期工作[7],其中包含2059(训练集)和2625(测试集)蛋白序列,包含5种膜蛋白。

2.2 提取进化保守性信息

蛋白质序列的进化守恒可以用位置特异性得分矩阵(Position-Specific Score Matrix, PSSM)来描述[29,43,44],该矩阵由PSI-BLAST [45] (BLAST [46] options: - num_iterations 3 -db nr -inclusion_ethresh 0.001)生成。来自PSSM的进化信息存储在一个Lx20维度矩阵中

元素pi,j的计算公式如下:

表1四种不同的膜蛋白数据集的训练和测试样本的大小。

式中omega;(i,k)为第k个氨基酸类型出现在第i位的频率,D(k,j)为第k个氨基酸类型与第j个氨基酸类型之间的Dayhoff突变数据矩阵(替换记分矩阵)值。

2.2.1 平均块

平均块(AvBlock)广泛用于蛋白质[47]的矩阵描述符。我们将PSSM矩阵按行划分为20个block,每个block的大小为n = L。在这里,将每个block(块)转化为PSSM矩阵的20维特征向量。AvBlock描述符定义如下:

其中b = 1,2,hellip;, 20.

最后,提取特征向量FPSSMminus;AvBlock 尺寸为20 times; 20 = 400维。

2.2.2 离散余弦变换

离散余弦变换(DCT)[32]是将信号转换为基频分量的线性可分变换。在图像压缩中得到了广泛的应用。在这里,我们使用二维DCT (2D-DCT)压缩蛋白质的PSSM。二维dct变换定义如下:

其中0le;i lt; M且0le;j lt; N。

离散余弦变换的一个主要特征是信息密度由均匀分布向不均匀分布的转换。大部分自然信号集中在压缩后的PSSM的低频部分,分布在左上角。PSSM - DCT的原理图如图2所示。

图2 PSSM - DCT特征提取的原理图。

最后,保留前20 times; 20 = 400维,提取特征向量FPSSMminus;DCT。

2.2.3 离散小波变换

采用离散小波变换(Discrete Wavelet Transform, DWT)提取蛋白质氨基酸序列的有效信息特征,该方法最早由Nanni et al.[20]提出。小波变换(WT)定义为信号f (t)在小波函数上的投影,如下:

其中m为尺度变量,n为平移变量。表示分析小波函数。T(m,n)是变换系数。假设离散信号f(t)为x[n],其中n为离散信号的长度,则系数计算如下:

其中g为低通滤波器,h为高通滤波器。因此,表示近似系数,表示详细系数。

就像之前的一些方法[20]一样,我们使用4级离散小波变换来处理PSSM矩阵。对于每一层,我们得到每一列的近似和详细系数。然后提取近似系数和详细系数的最大值、最小值、均值和标准差,以及近似系数的前5个离散余弦系数。总的来说,对于20个列维度中的一个,每个级别有4 4 5个特征。

最后,提取(4 4 5)times; 4 times; 20 = 1040维的特征向量FPSSMminus;DW T。

2.2.4 方向梯度直方图

面向梯度直方图(Histogram of Oriented Gradient, HOG)是计算机视觉中用于行人检测的一种特征描述符。这里将PSSM视为一个特殊的图像矩阵,可以通过HOG进行处理。首先,我们利用PSSM的水平梯度值和垂直梯度值计算梯度幅值矩阵和梯度方向矩阵;其次,将梯度大小矩阵和梯度方向矩阵分别划分为25个子矩阵;每个子矩阵包括梯度大小和方向。然后,根据梯度方向我们创建10个不同的直方图通道。每个子矩阵由10个直方图通道生成。

最后,提取25 times; 10 = 250维的特征向量FPSSMminus;HOG。

2.2.5 PsePSSM

lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[590253],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付