1. 研究目的与意义、国内外研究现状(文献综述)
随着二十世纪以来自然科学的迅猛发展,生物科学和计算机信息技术成为两个热点领域。生物信息学是利用计算机科学的技术手段来研究生物学数据的一门学科。由于测序技术的不断进步与测序成本的不断下降,越来越多的生物物种被测序。基因组测序数据量的暴增使得研究人员手工管理非常困难。因此,有必要设计开发自动化的注释管理工具。
1995年,owen white设计出了第一套基因组注释软件系统。该系统能够自动识别基因、转录基因和其他生物学特征,并能够初步的分析它们的功能。如今大多数注释系统与之类似。基因组注释主要是基于相似序列具有相似功能的假设,利用计算机程序与已知功能的数据库如nr、swissprot、kegg、go等进行序列比对,获得未知基因序列的功能信息。如今在已经解序的生物基因组中,仍存在大量未知功能的基因序列。确定未知基因的功能是后基因组时代面临的具有挑战性的任务之一。在基因组数据库方面,有大型的综合型基因组数据库如ncbi、ensembl、ddbj、ucsc等。也有比较小型的单一物种基因组数据库如flybase、silkdb、monarchbase、dbm-db和chilodb等。他们的共同点是,管理基因集需要专业生物信息人员的参与,一般的生物研究人员很难管理。另外,这些数据库或者是大型综合型数据库,或者是某物种的专有数据库。根据文献检索结果,目前尚无可自动化注释,支持多物种的基因组数据库。
随着基因组序列数据的不断积累,基因组学、转录组学、蛋白质组学的通量在不断提升。生物数据信息越来越丰富,对于基因组注释的可靠性会不断提高,而范围也会不断扩大。自动化基因组注释管理系统可以帮助广大的生物研究人员在获得第一手实验数据后,及时更新基因组数据。多物种的支持也方便新测序物种的基因组数据可以快速及时提供在线服务,方便相关研究人员及时获取数据。相信在不久的将来,我们会得到更多关于生物进化历程的信息,一个具有完整功能注释的生物基因组也会呈现在全人类面前。
2. 研究的基本内容和问题
研究目标
用基因组序列及gff3注释文件的基本信息进行自动化基因序列提取、翻译和功能注释。在线实现基因的增删改功能,降低管理难度。提供序列比对、注释信息搜索等功能。
研究内容
3. 研究的方法与方案
研究方法
注释原理基于相似序列具有相似功能的假设。例如得到一个数据库里没有的物种,通过把这个物种的基因序列和数据库中别的物种基因进行序列比对,如果序列相似,一般就认为这个未知物种序列也具有相似序列的相似功能。
技术路线及实验方案
4. 研究创新点
研究者上传某一物种的基因组和 gff3注释文件,便可得到该物种的 cds、蛋白、注释等信息,同时支持基因信息的增删改,支持多种搜索功能。
本数据库使整个过程自动化,提高研究效率。
5. 研究计划与进展
研究计划及预期进展
2015年12月-2016年1月20日:完成前期准备工作。
2016年1月20日-2月20日:参考一些基因组注释网站,确定系统需求。
