基于序列信息的蛋白质结晶预测系统开发与实现开题报告

 2022-05-15 22:42:05

1. 研究目的与意义

在21世纪随着人类在生物研究中对基因组计划的完成,伴随着生物大分子的结构与功能等方向的研究成为人类对生命科学关注的热点,其中晶体学作为结构生物学的基础,培养出高质量的单晶,对于蛋白质、核酸等生物大分子三维空间结构的测定是至关重要的。因此在解析蛋白质的三维结构具有重要的生物学意义,更是蛋白质功能研究和理性药物设计的基础。目前解析蛋白质结构最重要的方法是X-射线衍射晶体学解析技术。但是运用该技术解析蛋白质结构的关键是获得高质量的蛋白质晶体。然而,据统计仅有42%的可溶纯化蛋白质能够得到晶体,即不同蛋白质的可结晶性表现不同。由于实验方法验证蛋白质的可结晶性耗时耗力,因此,有研究者运用计算机模拟的方法预测蛋白质的可结晶性,从而节省资源与成本并且提高实验的成功率。

2. 研究内容和预期目标

研究内容:

本文探讨的是基于蛋白质序列的蛋白质识别研究中dna结合蛋白识别的研究成果。我们针对这个问题设计出特征提取算法,这些提取算法均是基于序列进行提取特征,并构建相应的机器学习模型。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

在蛋白质结晶识别研究中,我们根据蛋白质的氨基酸组成、物化属性、二级结构信息以及位置特异性矩阵进行特征提取,基于序列信息的蛋白质结晶预测工作的整体流程。首先,我们对训练集提取六个特征:AVBlock-PSSM、AVBlock-SS、GE、PsePSSM、Protscale和DWT-PSSM,把提取的特征进行线性组合作为特征向量用于训练一个SVM模型,并通过五折交叉验证得到相应的实验结果,接下来对测试集提取相同的六个特征并线性组合,通过线性组合后建立预测模型,把测试集的特征向量输入到已经训练好的SVM模型后便可以得到模型所预测的测试集标签,通过对比预测的标签与真实的测试集标签后可以获得独立测试的预测结果。比较了多种机器学习算法模型的实验结果来选去机器学习算法,我们的方法与其他现存方法通过五折交叉检验和独立测试进行实验结果上的对比。

再建设一个网站,前端利用html5 javascript jqery,后端通信使用Flask搭建服务器,Jinjia2模板引擎。能够对用户提交蛋白质序列进行预测计算,并且使该网站能够对用户友好。

4. 参考文献

[1] lin w z, fang j a, xiao x, et al. idna-prot: identification of dna binding proteins using random forest with grey model[j]. plos one, 2011, 6(9): e24756.

[2] kumar k k , ganesanpugalenthi, suganthan p n. dna-prot: identification of dna binding proteins from protein sequence information using random forest[j]. journal of biomolecular structure and dynamics, 2009, 26(6):8.

[3] dong q , wang s , wang k , et al. identification of dna-binding proteins by auto-cross covariance transformation[c]// ieee international conference on bioinformatics biomedicine. ieee, 2015.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 计划与进度安排

(1)2022年1月10日—2022年1月30日接受毕业设计任务,查阅资料并完成开题报告;

(2) 2022年2月1日—2022年2月8日选择开发工具,并配置其环境;

(3) 2022年2月9日—2022年2月 23日完成算法的设计和机器学习模型的选择,以及网站软件需求分析和概要设计;

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版