基于隐马尔可夫模型的基因编码区预测开题报告

 2021-08-08 21:52:49

1. 研究目的与意义

我的毕业设计的题目是《基于隐马尔可夫模型的基因编码区预测》。我决定用c 来实现这个项目。马尔可夫过程(MarkovProcess),它因俄罗斯数学家安德烈马尔可夫而得名,代表数学中具有马尔可夫性质的离散随机过程。马尔科夫过程就是一阶过程,每一个状态的转移只依赖于其之前的那一个状态。而隐马尔可夫(HiddenMarkovModel),就是含有隐状态的的一类马尔可夫过程(MarkovProcess)。它引入状态转换概率和生成概率。一段已知的状态链可以由多种生成链得到。而我们计算各生成链的可能性,得到最大的可能就是预测出的结果。

2. 国内外研究现状分析

自20世纪80年代以来,HMM被应用于语音识别,取得重大成功。到了90年代,HMM还被引入计算机文字识别和移动通信核心技术多用户的检测。HMM在生物信息科学、故障诊断等领域也开始得到应用.国内在基于HMM模式的多语种语音合成,音频场景分析技术,人脸识别方法,网络入侵误用检测,dna序列分析等方面都有大批技术人员进行研究。

3. 研究的基本内容与计划

基因组dna序列是可以观测到的符号串。我们把看做编码/非编码看成不能直接观测的隐状态。可以得到一个两种状态转换概率矩阵。而由a,c,g,t四个碱基的生成概率我们可以得到另一个生成概率矩阵。在研究中,这两种概率矩阵的数值可以通过大量穷举数据分析获得。

基于这两种概率矩阵和初始化概率向量,我们可以根据观测基因组序列反推出最可能的状态路径,即可能性乘积最大的那一条路径。而在利用计算机技术可以使这一过程快速准确。

二.研究计划

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

这个项目是基于前人不断的研究基础上开始进行的,我的工作仅仅是在理解前人的理论模型后应用到c 语言中去,从而对因编码区进行预测。虽然通过预测出来的基因编码区并非最终的基因编码区,虽然这种基于马尔科夫假设和隐马尔可夫模型的预测丢弃了很多前提条件,但是简化的系统可以有利于我们的分析。当引入多种不同的状态,比如对外显子,内含子以及UTR设置各自的独立状态(ChrisBurge提出的基因预测算法GenScan)。能更加提高预测的精度。我要做的这个模型虽然比较简单只是假定了2种状态,但是它是一种基础,很容易被继续扩展。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版