1. 研究目的与意义
1.1研究的背景
目前,蛋白质序列数据库的数据积累的速度非常快,但是已知结构的蛋白质相对比较少。尽管蛋白质结构测定技术有了较为显著的进展,但是通过实验方法确定蛋白质结构的过程仍然非常复杂,代价较高,因此实验测定的蛋白质结构比已知的蛋白质序列要少得多。另一方面,随着dna测序技术的发展,人类基因组及更多的模式生物基因组已被或将被完全测序,dna序列数量将会急增,而由于dna序列分析技术和基因识别方法的进步,我们可以从dna推倒导出大量的蛋白质序列。这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量(如蛋白质结构数据库pdb中的数据)的差距将会越来越大。人们希望产生蛋白质结构的速度能够跟上产生蛋白质序列的速度,或者减小两者的差距。那么要缩小这种差距不能完全依赖现有的结构测定技术,需要发展理论分析方法,这对蛋白质结构预测提出了极大的挑战。
其中dna 结合蛋白是一种非常重要的蛋白质,它通过与 dna 结合而在多种生物分子功能上起着至关重要的作用。[2]在 dna 结合蛋白的识别研究中,要完成的任务是对未知的蛋白质序列进行判断它是否属于 dna 结合蛋白。最初采用的是生物实验的方法,这些方法包括过滤器结合位点测定、基因分析、微阵列上的染色质免疫沉淀以及 x-射线晶体学。这些方法虽然具有较高的精度,但是也有一些缺点,例如造价昂贵与费时费力。特别是在现在蛋白质数据信息迅猛增长的当今,生物实验方法进行所有的dna 结合蛋白识别工作已经变得不现实,这限制了基于生物实验方法对于 dna结合蛋白识别的研究工作。[7]于是使用造价便宜、省时省力的计算方法进行相关的研究越来越受到研究人员的青睐。现在已经有很多研究人员开始使用基于机器学习算法以及统计学习模型对蛋白质信息进行建模。[1]近些年来机器学习方法用于 dna 结合蛋白识别研究取得了非常不错的成绩,所以基于机器学习方法的相关研究更加流行。
2. 研究内容和预期目标
2.1 研究内容
dna序列信息决定着蛋白质的物理结构。 本课题探讨的是基于蛋白质序列的蛋白质识别研究中 dna 结合蛋白识别的研究成果。本课题将针对这个问题设计出特征提取算法,这些提取算法均是基于序列进行提取特征,并构建相应的机器学习模型。在dna 结合蛋白识别的研究中中,提出特征提取算法,它们使用到的信息是氨基酸的物化属性预计蛋白质序列的位置特异性矩阵(pssm)。[5]本课题将使用了六种物化属性并采用了自协方差的计算方法提取特征,在位置特异性矩阵的特征提取方法上本文采用了离散余弦变换以及离散小波变换对它进行压缩并提取相应的特征向量,最终线性组合这三种特征并使用结合了支持向量机递归特征消除算法进行特征选择,然后建立了相应的支持向量机预测模型。最后将用课题的方法与其他现存的方法通过留一法以及独立测试方法进行结果比较。
2.2 预期目标
3. 研究的方法与步骤
3.1研究方法
本次系统开发采用的开发方法为蛋白质特征提取法,[4]采用卷积神经网络和和门控循环单元的内容构建结合蛋白预测系统。并将开发过程分为可行性分析、需求分析、系统设计(概要设计、详细设计)、编码、测试、运行维护等几个阶段。
以下是本课题实验的流程图
4. 参考文献
[1]babak alipanahi, andrew delong, matthew t weirauch brendan j frey. predicting the sequence specificities of dna- and rna-binding proteins by deep learning[j].nature biotechnology,33,831-840,2015(8)
[2]identification of dna-binding proteins using structural, electrostatic and evolutionary features[j] . guy nimrod,andrás szilágyi,christina leslie,nir ben-tal. journal of molecular biology . 2009 (4)
[3]dnabp:identification of dna-binding proteins based on feature selection using a random forest and predicting binding residues. ma x,guo j,sun x. plo sone . 2016
5. 计划与进度安排
(1)2022.1.5 ---- 2022. 2.28 查阅资料, 撰写开题报告
(2)2022.3.1 ---- 2022.3.15 需求分析,熟悉开发工具
(3)2022.3.15 ---- 2022.3.20 概要设计
