基于深度学习的蛋白质残基接触位点预测系统设计与实现开题报告

 2022-06-05 22:05:52

1. 研究目的与意义

1.1研究的背景

随着人类基因组计划的顺利实施,每天都会产生大量的基因和蛋白序列等数据,这些生物数据量随着时间的发展呈指数级增长,最终产生了海量的生物分子序列数据[1]。从 gold 数据库(网址:https://gold.jgi.doe.gov/statistics需要用google chrome浏览器打开)查询可知,截止 2019 年 12 月,已有近2万个基因组完成测序,图 1.1 显示了 1997年到 2019年被完整测序的基因组数目[2]。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

2.1研究内容

蛋白质一级结构是连续的氨基酸序列,并且决定这蛋白质的物理结构和功能特性。深度学习的方法去预测蛋白质与与特定配体的相互作用位点有很多,本课题研究内容主要涉及蛋白质数据集的选择,蛋白质多特征融合,深度学习算法的选择,构建训练集与预测集,模型训练与评价。

1)蛋白质数据集的选择

选择 Zhao 等人[10]研究中的数据集(Zhao_dataset)作为本实验的训练集,Passerini 等人[11]用的数据集作为测试集。

2)蛋白质多特征融合

特征融合有无数种组合方式,没有唯一正确的方法。融合的底线就是尽量保持“准确性”和“多样性”间的平衡。本课题主要选取氨基酸序列的离散型编码、特异性打分矩阵(PSSM)以及位氨基酸组成(PseAAC)[4]等特征进行组合。

3)算法模型的选择

卷积神经网络[8]是近年来深度学习领域的研究热点。这里我将蛋白质序列特征抽象成图像数据作为卷积神经网络的输入。

4)构建训练集与预测集

数据集特征选取氨基酸序列的离散型编码、特异性打分矩阵(PSSM)以及位氨基酸组成(PseAAC)[4]等特征进行组合。

5)模型训练与评价

运用选择的算法构建预测模型,对模型进行优化、训练,最后用模型进行蛋白质与Zinc相互作用位点的预测。通过在不同条件下互作用位点预测的准确率大小,来确定哪种算法训练出的模型更可靠。

2.2预期目标

1)将蛋白质一级结构序列作为原始数据集,进行数据的ETL,获得卷积神经网络的输入,并且通过加入Attention等机制改进网络模型的预测准确率,传统的机器学习方法作对比,通过实验来说明卷积神经网络模型与人工神经网络、支持向量机、决策树、随机森林以及聚类算法等一系列的方法的优缺点。

2)将训练好的网络模型部署到服务器端,提供B/S架构的预测服务

3)通过分析实验结果,完成论文撰写,不少于10000字,并翻译外文文献。

3. 研究的方法与步骤

本课题选择 zhao 等人[10]研究中的数据集(zhao_dataset蛋白质与金属离子zinc相互作用位点数据集)作为研究数据来源,选取不同窗口大小对氨基酸序列进行定长截取和不定长补零的方式对数据进行统一维度的处理。然后使用深度学习中的cnn方法与etl处理后的数据集进行模型构建后预测,并且人工神经网络、支持向量机以及聚类算法等一系列的方法的优缺点,最后根据预测出正确率的实际情况判断算法适用的条件。以下是本课题实验的流程图

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1]李慧.蛋白质功能位点预测方法研究[d] .南京航天航空大学. 2018.10

[2]陈震.基于序列信息的蛋白质功能位点预测的算法开发[d].中国农业大学. 2014.6

[3]王菲露.基于机器学习方法的蛋白质相互作用位点及二级结构预测出[d].安徽大学. 2009.5

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 计划与进度安排

  1. 2022年12月10日-2022年12月11日windows 7环境下安装PyCharm开发环境
  2. 2022年12月17日-2022年1月18日收集数据,并为它构建原始数据
  3. 2022年3月10日-2022年3月22日制定研究方案、送交指导老师审核
  4. 2022年3月28日-2022年4月8日对各种深度学习算法进行分析研究,完成初稿
  5. 2022年4月28日-2022年5月9日在老师的指导下,对论文多次修改
  6. 2022年5月10日-2022年5月20日论文最终定稿,由指导老师审核并打印

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版