1. 研究目的与意义
随着生物信息学的迅速发展,越来越多的实验数据需要利用计算机去处理分析。
在高等植物细胞内除了起主要遗传作用的细胞核染色体携带遗传信息外,还有两个具有半自主遗传体系的细胞器-线粒体和叶绿体携带相关的遗传信息,并且这些叶绿体或者线粒体基因组具有很多特性,使其在系统发育研究中引用广泛。
因此,高效快速的从植物混合测序的数据中(核基因组、线粒体基因组、叶绿体基因组 dna 混合测序的数据)组装出细胞器(叶绿体、线粒体)基因组,组装出的叶绿体基因组大小一般几十 kb 到一百多 kb,线粒体基因组大小一般几百 kb。
2. 国内外研究现状分析
随着基因组学习的日益加深,尤其是大规模测序技术的不断发展,植物叶绿体和线粒体基因组的研究。
从首次获得烟草和地钱叶绿基因组的完整序列以来,叶绿体基因组数据库迅速增加。
这其中包括同一种的不同亚种,例如水稻,就有野生稻,粳稻和粕稻三个不同亚种。
3. 研究的基本内容与计划
本软件将基因组测序获得的454数据通过组装获得较大的contig序列,通过从newbler的组装结果 (主要是454contiggraph.txt)判断contig之间的连接关系最终得到较为完整的细胞器(主要是线粒体、叶绿体)基因组,为第一部分:首先从植物混合测序的454数据(reads)(核基因组、线粒体基因组、叶绿体基因组dna混合测序的数据)使用newbler装配获得contig数据。
第二部分:利用已经测序的细胞器基因组作为reference,从454数据中挑选出与该细胞器相关的contig进行组装。
第三部分:开始选出一个contig作为seed,然后用bb.454contignet这个脚本,从newbler组装的结果中(主要是454contiggraph.txt)找出与seed相连的contig,然后将那些与原始seed相连的contig进一步作为seed,递归地找下去。
4. 研究创新点
随着生物科学和技术的迅速发展,生物数据积累速度不断 加快,因此也就对生物数据的科学分析方法和实用分析工具提出了更新、更高的要求。
充分利用这些基因组测序数据,通过对数据进行分析、处理,揭示这些数据的内涵,得到对人类有用的信息。
该方法的优势在于可以利用覆盖度信息对来自核基因组、叶绿体基因组、线粒体基因组进行大致区分,然后去掉明显属于核基因组上的contig分支,以及其他从覆盖度上能明显区分不属于该细胞器基因组的分支,经过几轮不断修正得到完整的线粒体contig连接图。
