1. 研究目的与意义
随着新一代测序技术的发展,一些新的全基因组组装算法应运而生,特别是针对第三代高通量测序仪产生的海量短序列的组装软件被不断开发出来,这些组装软件渐渐走向市场。
但是,由于这些组装软件的适用性和其性能的差别,选择一款性能优良的组装工具或者开发并行高吞吐的组装工具成为了当前面临的一大难题。
由于新一代测序技术产生的序列很短,从而使得采用第一种 olc 算法的组装软件 (如:phrap、 tigr、cap3、celera、arachne、 phusion) 大部分无法使用了,而其他软件如 ssake 、 vcake 和 sharcgs 等,在基因长序列组装中更占有优势,并不完全适用于基因短序列组装。
2. 国内外研究现状分析
目前,已有部分研究人员对组装软件做出了系统的介绍和比较。
其中 suying bao 使用了两组测序数据对 qsra、ssake、edena、velvet、 soapdenovo 和 abyss 6 个组装软件做了性能和组装结果质量的简单分析,结果表明 soapdenovo 性能优异。
jason r. miller 主要从算法的角度对组装算法进行了分类,然后对使用 de brujin 图算法 的 5 个组装软件 euler、velvet、abyss、 allpaths、soapdenovo 分别进行了算法阐述和 分析。
3. 研究的基本内容与计划
需要完成是在linux下拼装软件的安装配置,然后利用拼接软件将结果进行拼接,最后完成可视化接口的开发,即设计一个网站,将拼接的结果显示出来,界面友好,数据准确,结果真实,能够为生物学者提供技术上的帮助。
1、 配置canu的运行环境canu 是专门用来组装三代reads的,三步走:校正、修剪、组装。
需要在linux环境下安装canu1.3,并配置canu1.3的运行环境。
4. 研究创新点
1、 目前拼接软件在linux下可用性差,通适性不强,此项目提高了linux下使用软件的便捷程度,方便清楚的显示研究结果。
2、 方便在其他平台对研究结果的查看阅读以及分析。
3、 可视化接口的开发,更加方便的读取软件的数据。
