1. 研究目的与意义
背景:
随着由美国率先提出,美国、英国、法国、德国、日本和中国六个国家的科学家共同参与的人类基因组计划的测序工作的完成,我们正式迈进了后基因组时代。在这一时期,生物分子信息爆发式的增长,也促进了生物信息学的迅猛发展。生物信息学是当前的前沿研究领域之一,主要的任务是使用计算机挖掘大量生物信息,并对它们进行处理与分析。最主要研究的是dna和蛋白质序列,也就是所谓的基因组学与蛋白质组学。
生物分子信息中蛋白质数据的暴增,使得从中挖掘有用的信息变得更加困难但也更有价值。蛋白质在多种生理功能包括载体运输、酶的催化、激素调节、抗体免疫等关乎生命正常运作的关键功能上发挥着不可或缺的作用,为了弄清楚由基因产生的蛋白质的结构与功能,相关的研究也愈发火热,蛋白质识别研究便是生物信息领域非常重要的一个研究分支,且其中关于dna结合蛋白的识别研究也是得益于它们的重要性而得到了极大的关注。
2. 研究内容和预期目标
研究内容:
本文探讨的是基于蛋白质序列的蛋白质识别研究中dna结合蛋白识别的研究成果。我们针对这个问题设计出特征提取算法,这些提取算法均是基于序列进行提取特征,并构建相应的机器学习模型。
3. 研究的方法与步骤
在DNA结合蛋白识别的研究中中,本课题提出了六种特征提取算法,它们使用到的信息是氨基酸的序列,氨基酸的物化属性和蛋白质序列的位置特异性矩阵(PSSM)。我们对氨基酸的序列信息使用全局编码和多层次编码(MCD),依据氨基酸的物化属性信息采用了自协方差的计算方法提取特征向量,依据蛋白质序列的位置特异性矩阵(PSSM)采用离散小波变换压缩,伪位置特异性矩阵以及平均块的计算方法。提高支持向量机预测 DNA结合蛋白结果准确性的关键在于如何准确描述蛋白质的信息,单核支持向量机只可以采用某一种蛋白质的序列信息,而多核支持向量机可以整合来自序列和进化特征的多种信息,我们使用的MKL算法是基于中心核对齐理论,通过计算不同特征矩阵的高斯核与理想核矩阵之间的差异来寻找最佳整合方法,整合后的核矩阵可以更准确的描述蛋白质序列信息。我们通过算法将六种特征矩阵有机结合,再建立相应的支持向量机预测模型。最后把我们的方法与其他现存的方法通过留一法以及独立测试方法进行结果比较。
再建设一个网站,前端利用html5 javascript jqery,后端通信使用Flask搭建服务器,Jinjia2模板引擎。能够对用户提交蛋白质序列进行预测计算,并且该网站能够对用户友好。4. 参考文献
[1] zou c, gong j, li h. animproved sequence based prediction protocol for dna-binding proteins using svmand comprehensive feature analysis[j]. bmc bioinformatics, 2013, 14(1): 90.
[2] lou w , wang x , chen f ,et al. sequence based prediction of dna-binding proteins based on hybridfeature selection using random forest and gaussian nave bayes[j]. plos one,2014, 9.
[3] alhamdoosh m, wang d.modelling the transcription factor dna-binding affinity using genome-widechip-based data[j]. biorxiv, 2016: 061978.
5. 计划与进度安排
(1) 2022年1月10日—2022年1月30日接受毕业设计任务,查阅资料并完成开题报告,翻译1篇相关的外文资料;
(2) 2022年2月1日—2022年3月8日选择开发工具,并配置其环境,掌握开发工具的使用;
(3) 2022年2月24日—2022年4月1日完成基于蛋白质序列的特征提取算法,完成机器学习模型的构建和模型效果的计算;
