1. 研究目的与意义
生物学科已逐渐成为21世纪最富有活力的研究领域之一。计算机技术的发展和并行算法的应用使得生物信息学科得以迅速发展。通过本课题的研究,能进一步改进并行计算的效率,促进基因序列比对,推测新序列的结构和功能信息,对该学科的发展起积极作用。
2. 国内外研究现状分析
利用并行计算手段缩短序列分析的时间是当前国内外的研究热点。SGI公司针对生物计算提出了高吞吐率计算环境(high throughput computing environment,简称HTC),并将HMMER作为典型应用,用来衡量SGI Origin 300的性能。苹果公司采用AltiVec技术,针对他们的处理器实现了HMMER的向量化加速版本。这些公司主要针对他们的硬件结构而不是从算法角度来优化程序,目前只给出了小规模系统上的性能。全球最大的网格软件开发商Platform计算公司利用网格计算环境运行HMMER程序,宣称他们使用5000个Platform ActiveCluster节点,用序列数据库SWISS-PROT(大约80000条序列)在PFAM(包含2866个HMM模型)上搜索约需2个小时,但是,作为商业秘密,该公司并没有公布程序优化的细节。国内对此课题研究尚处起步阶段。
3. 研究的基本内容与计划
通过将新测定的序列和数据库中已知功能的序列进行相似性比对,找出具有相同残基的功能位点,确定新测定序列与数据库中已知结构和功能的序列间的相似性关系,从而在一定可信度的情况下确定新序列的结构和功能信息。
本课题要求测试、比对hmmscan在linux环境下的单机和多机并行计算的效率,并尝试找出计算瓶颈,便于日后改进算法或提出新的算法。
本课题须掌握的主要知识有1.熟悉linux操作系统,熟悉在linux环境下的c/c 语言编程 2.熟悉并行计算程序设计,如mpi 3.具有一定的生物信息学的基本知识。
4. 研究创新点
本课题要求测试、比对hmmscan在Linux环境下的单机和多机并行计算的效率,并尝试找出计算瓶颈,便于日后改进算法或提出新的算法。
