基于SVM的RNA结构预测方法开题报告

 2022-02-13 17:31:27

1. 研究目的与意义

核糖核酸rna (ribonucleic acid) 是细胞结构的生物体遗传信息发挥作用的中间载体,从而在生命研究和应用中具有重要意义。rna 的功能通常由其空间结构决定。rna 的空间结构通常分为三级。rna 的一级结构,即序列信息,相对容易获得。从计算的观点看,一级结构就是由4 种字母a, u, g, c 组成的字符串。除了序列上相邻的碱基,每个碱基还可以同不相邻的碱基相互作用而结对( 例如:a-u 和c-g 可以形成稳定的碱基对)。我们可以把相互作用的碱基对用一条边连起来。rna 的二级结构是指由非相邻的碱基作用而折叠成的平面结构。

rna 二级结构的预测是分子生物学领域中的重要研究课题。虽然利用x 射线可以直接对rna分子的结构进行测定, 但这种方法昂贵、低效, 无法对所有的rna 分子进行测定, 因此利用计算机进行结构预测成为该领域发展的必然趋势。事实上, 使用计算学的方法来预测rna 的二级结构已经有30 多年的研究历史了, 迄今为止, 比较典型的预测算法有最小自由能算法、随机上下文无关(scfg)算法等。这些算法普遍具有的缺点就是计算时间复杂性高, 预测长链的rna 分子较困难。

随着计算机技术的发展, 机器学习的方法在很多领域得到了应用, 目前, 已经有一些算法如scfg、遗传算法等来预测rna 的二级结构, 取得了不错的成效, 但是, 使用人工神经网络来解决此问题的文献相当有限。目前还未见到将支持向量机算法(svm)应用到该领域的文献报告。文中的方法较好地解决了bp 神经网络中输出端的结构描述问题,但是该方法不能对包含伪结结构的rna 分子进行预测, 同时由于bp 神经网络自身的局限, 算法较难达到理想精度。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

本文提出了nssel(new secondary structureelement label)标签, 这些标签可以表达简单的二级结构特征,但是不能标识伪结结构, 本文在旧标签定义的基础上, 去掉部分冗余标记, 增加了能表达平面伪结的标记, 为了便于理解新nssel 中的结构单元, 首先介绍正茎和负茎的概念:几个连续的碱基配对构成一段茎(stem)。直观地看, 这一段茎是由两段子序列构成的, 其中一段子序列在整个序列中位置比较靠近5′端, 称之为正茎, 另一段子序列比较靠近3′端, 称为负茎, 扩展后的nssel 标签(下文称之为e-nssel 标签)定义说明如下:

1) stem 表示正茎中的碱基子序列;

2) pseudoknots 表示靠近5′端的伪结碱基子序列(或单个结点);

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

支持向量机是建立在统计学习理论和结构风险最小原理基础上的, 根据有限样本信息在模型的复杂性(对特定训练样本的学习精度)和学习能力(无错误地识别任意样本的能力)之间寻求最佳折衷, 以期获得最好的推广能力。统计学习理论可绕过对rna 分子序列中的基本结构之间的物理、化学过程的分析, 直接从结果对rna 结构进行统计分析, 同时又克服了传统统计学理论对于先验信息要求过多的限制。在利用观测数据对依赖关系进行估计时, 只需知道未知依赖关系所属函数集的某些一般性质, 由于支持向量机专门针对有限样本, 并将问题转为一个二次型寻优问题, 这使它成为本次实验的一个很好的选择。支持向量机对不可分问题, 是通过核函数将输入空间映射到高维特征空间, 使得在高维空间中更好地反映rna 碱基序列和结构构象间的关系。

由于序列中的相关性和特征在很大的程度上是未知的,因此在有限的样本中, 利用适当的核函数进行特征转换, 是提高rna 结构预测的一个有效途径。

svm算法是典型的二分类算法, 本文涉及到的多分类算法采用的是一对多的策略。本文首先选取径向基核函数, 在惩罚系数c=100 时, 系统有较好的性能。在进行二级结构预测时, 可将rna 序列看作与二级结构相关的信号, 二级结构与碱基的长程和短程信息相关。多次实验表明窗口长度为15 时有较好的预测效果, 预测时选择一个碱基前后相邻的7 个, 共15 个碱基作为一个框架编辑输入, 通过移动中心位置得到多个样本输入。每一个窗对应一个样本, 用一个15 ×5b=75b 的0 — 1 编码来表示这个窗的输入, 编码的含义是:窗口中的每一位代表一个碱基, 用一个5b正交的0 — 1 编码来表示该碱基类型(acgu)中的一种, 除此之外, 还用一位标识一条序列的结束。各碱基字符和二进制编码之间的对应关系为:a — 10000,c — 01000,g — 00100,u— 00010,end —00001。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

1.陈翔.基于组合优化方法rna结构预测.[中国科学院研究生院博士文].2008:4-1340-63.

2.vapnikvn著.统计学习理论的本质[m] .张学工,译.北京:清华大学出版社,2000.

3.王明怡,等.生物信息学.北京:科学出版社,2005.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 计划与进度安排

1)2022.2.1----2022.3.1 查阅资料, 撰写开题报告

(2)2022.3.2----2022.3.15 需求分析,熟悉开发工具

(3)2022.3.16----2022.3.25 概要设计

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。