基于随机森林的蛋白质结构聚类优化方法开题报告

 2022-05-10 08:05

1. 研究目的与意义

随机森林是Bagging与随机子空间的一种结合,通过将多个决策树进行合,共同实行决策,以求获取一个客观的分类模型。如图所示,构造每棵决策树所使用的样本集均为原始数据集的一个子集,这个样本子集是通过随机向量在原样本空间中随机抽取的。对于某棵决策树,分类时使用的特征也是随机的选取原有特征空间中的一个特征子空间。使用样本子集在特征子空间上构造一棵决策树,随机选择的过程导致每棵决策树所体现的决策信息均不相同,从而通过最终组合各个决策树,综合其所表达的信息,通过投票方式获取最终的决策。

聚类算法作为一种有效的数据分析方法被广泛应用于数据挖掘、模式识别、机器学习、图像分割、语音识别、生物信息处理等领域。聚类算法还可以应用于商业分析。它可以帮助市场决策人员从消费者数据库中区 分出不同的消费群体,并且概括出每一类消费者的消费模式或习惯。本质上说,聚类算法是将总体中的个体分类以发现数据中的结构,希望一个类中的个体彼此接近或相似,而与其他类中的个体相异。这样就可以对划分出来的每一类进行深入的分析,从而概括出每一类的特点。

2. 研究内容和预期目标

蛋白质结构预测是指由蛋白质的氨基酸序列出发,采用计算的方法预测该序列所对应的最合理的三维结构。文献提出的蛋白质天然结构具有最低自由能的热力学原理,是蛋白质结构预测的重要理论基础。因此,在预测蛋白质结构过程中对所生成模型的自由能进行评估是一个关键步骤。预测人员通常在某种能量函数指导下构建一条序列所对应的三维结构。而目前的能量函数对寻找最低自由能的构象而言存在2 个问题: (1) 由于有机分子及其内部微粒之间关系的复杂性,目前的能量函数并不能精确反映分子系统能量; (2) 最低自由能状态是由能与熵共同竞争所导致的一种平衡状态,而分子能量的减少仅是导向最低自由能的因素之一。因此,虽然能量函数在蛋白质结构预测中是寻找最低自由能构象不可或缺的指导信息,但仅靠能量函数仍不足以探寻最低自由能的构象。由于生理环境下的活性蛋白质具有动态的构象,也就是说蛋白质的天然构象并非固定状态,因此在蛋白质一维氨基酸序列所对应的各种可能结构中,最低自由能状态具有最大的出现概率。正是由于自由能的分布特性以及发现准确能量函数的困难性,结构预测人员通常生成一组尽可能多的候选结构 (candidate structures) ,通常称为 decoys 。从这组候选结构中通过聚类来发现最具代表性的结构是寻找最低自由能状态的合理手段,也是蛋白质结构预测中重要的后处理步骤。实际上,在聚类研究的文献中,针对各种不同的任务有许多聚类策略可供选择。就聚类方法的一般应用而言,也至少需要明确以下 3 个方面,即:采用哪种相似性度量标准,采用哪种聚类算法,算法的参数。本文结合蛋白质结构预测这一具体应用,实验了不同聚类算法与相似性度量标准的多种组合,以评估这些因素对聚类性能的影响。在聚类参数的选择方面,本文提出了一种适合蛋白质结构聚类的聚类中心选择算法,通过考查数据点稳定性、类的密度等属性,有效排除了离群点 [2] 的干扰因素。通过评估在不同蛋白质候选结构集合上采用不同相似性度量标准与不同聚类算法的实验结果,帮助在蛋白质结预测中选择最优的聚类方案。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

由于spicker算法聚类得到的蛋白质序列的排序结果不太理想,我们要利用随机森林来对聚类的各个特征进行一个二分类,从而提高蛋白质候选集序列的排序结果,从而可以得到排序效果,从而可以得到与天然蛋白质更接近的蛋白质序列。

1、实验目的:每一个天然蛋白质都有自己n多个候选蛋白质,我们需要在这些个候选蛋白质中找出最接近天然蛋白质的。(根据候选蛋白质与天然蛋白质之间的rmsd来确定,rmsd越小则表示两者之间越接近)

2、试验背景:在我们实验之前,已经有人研究了用聚类的方法来找出候选集中最接近天然蛋白质的,聚类选出了候选集中的按照聚类大小排序的前五个候选蛋白质(选择准则是:聚类得出的类的大小最大类中心所代表的候选蛋白质被选择为最接近天然蛋白质的,依次类推选出前五个)

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1]孙吉贵,刘杰,赵连宇.聚类算法研究.软件学报2008,19(1):48-61.

[2]钱卫宁,周做英.从多角度分析现有寨类算法软件学报,2002,13(8):1382—1394.

[3]王开军,张军英,李丹.自适应仿射传播聚类.自动化学报,2007,33(12):1242一1246.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 计划与进度安排

(1)2022.2.1----2022.3.1查阅资料,撰写开题报告

(2)2022.3.2----2022.3.15需求分析,熟悉开发工具

(3)2022.3.16----2022.3.25概要设计

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。