1. 研究目的与意义
膜蛋白对于许多生物过程来说非常重要,例如细胞内膜蛋白的接触,表面识别,信号传导,酶的活性等。给定一个特定的膜蛋白,知道它属于哪种膜类型至关重要,因为这个信息可以提供线索以更好地理解其功能。在基因组数据中,我们估计在大多数基因组中约占所有基因的20%* 30%编码膜蛋白,与先前的估计一致。用X射线和核磁共振方法很难判断出膜蛋白的三维结构。由于膜蛋白和生物膜构成共同稳定的自然构象,在过去的实验中,只成功的探测到小部分膜蛋白的结构。因此,我们如何从小部分已知的膜蛋白结构去预测大量知的膜蛋白结构变成了预测膜蛋白类型的重要内容。最近,许多统计预测方法已经提出了用于预测膜蛋白类型的方法,例如致密的比对表面,人工神经网络,隐藏Markov模型(HMM),基于HMM的跨膜(TMHMM)等方法。在开创性工作中,在1982年,Kyte和Doolittle 最初提出,利用氨基酸序列的疏水性可以预测膜蛋白的结构。在1999年,基于氨基酸的组成,Chou和Elrod 引入了协变判别算法来预测膜蛋白的类型。随后,在2001年,为了整合蛋白质顺序效应他们提出将“伪氨基酸组成”用一组离散数表示。基于此概念,产生了一种新颖的方法——傅里叶光谱分析和伪氨基酸来组成来预测膜蛋白的类型[16]。
支持向量机(SVM),作为一种效果很好的机器学习方法,由于其扎实的统计学习理论和吸引人的特征(包括有效避免过度拟合)处理较大特征空间的能力以及缺少局部最小值而在生物信息领域的研究中得到了应用[1]。但是,作为机器学习技术,SVM需要固定长度的模式;假如太短或太长的模式使用这种方法是不可行的。这些问题可以通过小波分析得以解决。作为信号分析的最新工具,小波分析自1980年出现开始一直广泛应用于许多科学领域。与傅立叶相反,仅阐明频谱信息的变换,小波变换最吸引人的特点是同时阐明频谱和时间信息。因此,小波变换已经应用与从序列中提取特征向量来预测膜蛋白的类型。
2. 研究内容和预期目标
研究内容:
本文探讨的是基于蛋白质序列的蛋白质识别研究中dna结合蛋白识别的研究成果。我们针对这个问题设计出特征提取算法,这些提取算法均是基于序列进行提取特征,并构建相应的机器学习模型。
膜蛋白执行多种对生物生存至关重要的功能,例如氧化还原酶,转移酶或水解酶。如果可以检测到膜蛋白的类型,则可以快速确定蛋白的功能。 现有的许多计算方法不仅对氨基酸的疏水性指数使用自相关函数,而且还考虑了一级蛋白质序列的进化保守性信息。
3. 研究的方法与步骤
在本课题中,所采用的方法:
1.掌握基于离散小波变换、离散余弦变换、自相关方差系数、字符三元组频率和伪氨基酸组分函数的序列特征提取方法。
2.掌握支持向量机和多特征融合的方法,并能熟练使用libsvm的相关软件包接口。
4. 参考文献
[1] j. qiu, x. sun, j. huang, et al.,prediction of the types of membrane proteins based on discrete wavelettransform and support vector machines, the protein journal 29 (2) (2010)114{119.
[2] l. nanni, s. brahnam, a. lumini,wavelet images and chous pseudo amino acid composition for protein classification,amino acids 43 (2) (2012) 657-665.
[3] l. nanni, s. brahnam, a. lumini,high performance set of pseaac and sequence based descriptors for proteinclassification, journal of theoretical biology 266 (1) (2010) 1{10.
5. 计划与进度安排
(1) 2022年1月10日 — 2022年1月30日
接受毕业设计任务,查阅资料并完成开题报告;
(2) 2022年2月1日 — 2022年2月8日
