1. 研究目的与意义
生物信息学(Bioinfomratics)是生命科学、计算机科学、信息科学和数学等交汇融合所形成的一门交叉学科,成为当今研究热点。DNA序列分析研究是生物信息学的重要内容之一。生物由于进化等目的对基因进行复制,产生大量重复序列,在遗传分析中起重要作用。过去一直认为被称为垃圾DNA的非基因序列没有功能,近年来的研究揭示它们具有重要的功能,并且其中很大部分是重复序列。2003年5月,Makalowski在 《Science》上发表文章表示重复序列在进化过程中可以用于帮助形成新基因, HumanGenomeSequencingConsortium在 《Nature》上的文章中提到很多人类疾病是由重复序列的突变所引起的。如Williams综合症、CharcotMarie-Tooth病(肌骨肌萎缩症)等研究和寻找DNA序列中的重复序列对于了解基因的演化、进化历史和基因变异的原因有重要意义。
因此,这次毕业设计对于DNA重复序列的研究很有意义,对于生物信息学的研究很有所帮助,我将从算法方面来研究DNA重复序列。
2. 国内外研究现状分析
生物信息学是20 世纪80 年代末,随着人类基因组计划的不断发展,基因序列和蛋白质数据的急速增加,以及信息理论和计算机技术的不断发展而逐渐形成的。在过去的十几年中人类对生物信息学,特别是DNA 和人类基因序列的研究取得了长足的发展.海量DNA 序列的测试完成和发布使人们可以利用计算机技术对包括DNA 、RNA 和蛋白质等生物序列进行分析,为生物学家提供更多有价值的信息。在DNA 序列分析中,重复序列研究是一个重要的基础性词题。人类DNA 序列50%以上是由重复序列组成的,这些重复序列隐含了大量的生物进程信息,其中包含丰富的古生物记录,并提供许多关键的生物进化线索。目前,重复序列作为一个重要的遗传标记,已广泛运用于精密遗传连锁作图、肿瘤生化研究、法医学个体识别、亲子鉴定和群体遗传学分析等领域。由于重复片段在人类基因组中大量存在,且它具有等位基因多,杂合度大,多态性高等特点,使得它比传统的蛋白质遗传标记更适合个体识别和亲子鉴定。临床实验表明,使用重复片段基因做联合检测时,个体识别率和非父排出率比传统方法都有很大的提高。同样,由于在不同人群的基因中出现重复片段的等位片段的种类及频率各不相同,这些差异代表着特定种族或人群的生物特征,反映他们各自的遗传特点,所以运用重复片段基因识别技术就能深入了解人类种群的基因流动和遗传差异。
DNA重复序列是指组成生物的DNA序列中,重复出现的序列片段。Beason的TRFinder是最有影响力的串联重复序列发现算法,TEIRESIASE、CONSENSUSr、 WINNOWERE等方法限于查找DNA序列中长度较短的重复序列;RepeatMasker调用已知重复序列的RepBase数据库,实现字符串匹配算法来检查用户提交的序列中所包含的重复序列;Dotter程序采用点阵法在同一序列中查找重复序列,具有形象化优点,但也只适用于不太长的序列;Kurtz 等提出的REPuter基于后缀树算法克服了输入序列大小限制,但它基于子序列两两比对,难次数较高的重复序列。以找到DNA序列中出现序列模式挖掘问题最早由Agrawal和srilLant在分析交易序列数据的基础上提出,他们指出:给定序列集和一个用户指定的支持度阈值,序列模式挖掘就是找到在序列集中出并分析DNA重复序列是必要的持度为包含序列模式的交易个数(或百分比),对于一条序列,支持度仅为1,因此基于单支持度的序列模式挖掘算法不适用于分析序列数据集中各序列中的频繁模式,或当序列数据集中仅单条序列的情况。文中提出了一种基于多支持度的序列模式挖掘框架,可同时挖掘多序列中的多种序列模式(存在型序列模式、局部序列模式、总体序列模式)。更合适生物领域中DNA重复序列挖掘、提供个性化服务的Web访问选择,DNA序列中长度为probelen的所有不同模式数目应是字模式挖掘等。
3. 研究的基本内容与计划
1.基于多支持度的dna重复序列挖掘算法
定义三种有意义的序列模式;在一条指定序列中频繁出现的局部序列模式、在所有序列中具有足够出现频率的总体序列模式和在足够多序列中出现的存在型序列模, 本节介绍基于多支持度挖掘单dna重复序列的算法dnaresm,算法可扩展到挖掘多个dna序列中的其他序列模式。算法目的挖掘单dna序列中的重复序列,即局部序列模式。
问题定义
4. 研究创新点
建立一个网络平台对相关研究信息进行连接,对于DNA重复序列的挖掘算法我学习使用DnmReSM算法来研究,另外对于DNA重复序列的查找算法研究,我学习基于后缀树的LPR 查找算法来研究最大片段重复片段的精确查找,学习SATR算法来研究相似性重复片段的查找。
