黄瓜(Cucumis sativus L.)基因组
原文作者:Sanwen Huang 单位:中国农业科学院
[摘要]:黄瓜是一种重要的经济作物,也是植物性别决定和维管生物学研究的模型系统。本文报道了黄瓜(Cucumis sativus var. sativus L.)基因组序列的草图,利用传统Sanger测序技术与下一代Ⅰllumina GA 测序技术的新型组合进行测序,获得了72.2倍的基因组覆盖。最近研究认为:缺乏全基因组复制,以及很少出现串联复制,解释了黄瓜中基因数量很少的现象。我们的研究表明:黄瓜的7条染色体中有5条来自于黄瓜属分化后的10条祖先染色体的融合。测序得到的黄瓜基因组序列为进一步研究其性别表达、抗病能力,葫芦素生物合成和“鲜绿”气味等性状提供理论依据。我们还鉴定了686个与韧皮部功能相关的基因簇。黄瓜基因组为培育优良品种和研究植物维管系统的进化和功能提供了宝贵的资源。
葫芦科植物,俗称葫芦,包括几种重要的经济栽培植物,比如:黄瓜(C.sativus L.),甜瓜(C.melo L.),西瓜(Citrullus lanatus (Thunb.)和南瓜(Cucurbita spp.)。瓜类的农业生产每年用地900万公顷,并产出1.84亿吨蔬菜,果实和种子。瓜科植物也表现出丰富多样的性别表达,而黄瓜也已成为性别决定研究的主要模型系统[1]。瓜类也是维管生物学研究的模型植物,由于其木质部和韧皮部的汁液易于收集,可用于研究长距离的信号转导通路[2,3]。
尽管瓜类在农业和生物学上都很重要,但目前对于它们的遗传学和基因的了解非常有限。因此我们测序了家养黄瓜(C. sativus var. sativus L.)的基因组。
所有先前的植物基因组序列都是利用传统的Sangr测序技术[4-9]。最近发展的下一代测序技术已经显著提升了测序量,并显著降低花费[10]。然而,下一代测序技术的一个内在特点是读取长度较短(~50bp), 这导致了不能直接用于从头合成的大的基因组。在使用这些新技术时,通常通过映射来进行组装这些短的阅读到一个已知的内参基因组[11,12]。对于黄瓜的基因组,我们第一次采取了一种新组合的从头测序策略,利用Sanger测序技术的长阅读量和克隆长度,以及Ⅰllumina GA技术的高测序深度和低单位成本。
结果
测序和组装
我们选择现代黄瓜育种常用的“中国长”自交系9930进行基因组测序[13]。一共获得了265亿个高质量碱基对,即72.2倍的基因组覆盖率,其中Sanger阅读的覆盖率为3.9倍,Ⅰllumina GA阅读的覆盖率为68.3倍(补充表1)。GA阅读的长度从42bp到53bp不等。
我们比较了用Sanger阅读,Ⅰllumina GA阅读和二者结合阅读获得的组装集。二者结合的方法在重叠群和支架方面,明显获得了更长的N50(上面列出的序列总长度一半的尺寸可以找到)。所以,我们用这个组装结果做进一步的分析(表1和补充表2)。基因组组装的总长度是243.5Mb,比通过流式细胞仪用碘化丙啶染色分离细胞核(367Mb)[14]估计的和通过K-mer深度分布的测序阅读(350Mb;补充图1)的基因组长度小了约30%。数据集中发现了几种类型的卫星序列,包括23.2%的Sanger 阅读和76.2%未组装阅读(补充表3)。荧光原位杂交分析表明,这些序列主要位于着丝点和端粒区[15]。黄瓜基因组也包含大量的rRNA序列,约3.3%的Sanger阅读匹配45SrRNA。这些结果表明,其余30%的基因组未组装区域大部分可能是异色的卫星序列或rRNA序列。
利用EST,fosmid和BAC序列也证实了该组合对黄瓜基因组的高覆盖率。该系列包含350,000个Roche 454-ESTs序列组装的63,312条黄瓜序列的96.8%,6,952条NCBI沉积的EST黄瓜序列的99.3%,、50,441条NCBI沉积的甜瓜EST序列的91.2%,以及6条完成的fosmid和BAC序列的98.7%(补充表4)。
表1:黄瓜基因组组装统计
a N50指序列集总长度一半以上的大小
利用北美加工市场型黄瓜品种Gy14和印度黄瓜品种PI183967的亚种间杂交重组自交系,构建了77个重组自交系的遗传图谱。该图谱全长581厘米,包含1,885个标记,包括995个微卫星标记[16]和890个多样性阵列技术标记(标记序列可在http://cucumber.genomics.org.cn上访问)。利用这张图,我们能够将72.8%的组合序列固定在7条染色体上。在这1885个标记中,有1763个标记(93.5%)单独排成一列,被用于构建假染色体。大多数标记(98.7%)与序列组装共线(图片1a)。比较标记之间的遗传距离和物理距离,揭示了4号染色体两端的两个10Mb区域,5号染色体上的一个20Mb区域和7号染色体上的一个8Mb的区域之间的重组抑制。通过使用高分辨率的荧光原位杂交技术(FISH),我们证实了之前在5号染色体Gy14 和PI183967之间抑制区域内发现的片段倒置[16](图1b),这为这些区域里的重组抑制提供了一个解释。此外,这些重组抑制区还有助于研究黄瓜在驯化过程中的进化。
在排除了16个基因位置不明确的标记之后,我们检查了这剩下的6个在基因图谱和我们的汇编有冲突的区域。检验后,我们发现克隆配对信息在所有的这些区域里都支持我们的装配(补充图2)。我们也发现在被6个精巧的福斯质粒或者BAC序列所覆盖的区域里没有错误装配(补充图3)。这个冲突可能是发生在测序基因型9930和用来产生定位群体的基因型之间染色体重排的结果;或者这些标记已经被错误的放在基因图谱上。测序深度分布显示我们在超过97.5%的装配上获得了超过10X的覆盖(补充图4)。
12-7
12-2
图1:黄瓜综合遗传与物理图谱
(a)七条黄瓜染色体的遗传距离-物理距离图谱。利用家养黄瓜Gy14和野生黄瓜PI183967亚种间杂交重组自交系构建遗传图谱。
(b)用高分辨率FISH检测黄瓜5号染色体上Gy14与PI183967之间的片段反转(12-2和12-7指各自的福斯质粒克隆)低分辨率的FISH分析最近也有报道[16]。比例尺为1mu;m。
代表性序列和转座子
黄瓜基因组中包含了大量的可转座元件,但先前仅有少数被鉴定出来。因此,我们用多种从头合成的方法构建重复库,得到了一个包含1566个序列的组合重复库(补充表5),其中469(29.9%)个序列是人工分类的(补充表6)。然后我们利用该重复库进行黄瓜基因组的重复标注。我们共鉴定出54.4Mb的重复序列,约占基因组的24%。其中,51.5%能够基于已知重复序列进行分类。长末端重复序列逆转座子(gypsy 和 copia)构成了可转座元件的绝大多数,并且组成基因组的10.4%(补充表7)。重复差异率(在构建的基因库中匹配区域与一致重复序列相比的替换百分比)分布在 20%处显示峰值。相近起源的一小部分长末端重复序列逆转座子,长散布核酸元件和DNA转座子(分别组成基因组的2.3%,0.4%和0.2%)是相对较新的起源,序列差异率低于5%(补充图5)。
基因注释
我们用了三种基因预测的方法(cDNA-EST,基于同源性和从头合成)来鉴定蛋白质编码基因,然后通过整合所有的结果来建立一套共识基因集(补充图6)。我们预测了26,682个基因,平均编码序列长度为1046bp,并且每个基因约含有4.39个外显子(补充表8)。在80%的序列重叠的情况下,我们发现26.7%的基因得到了三种基因预测方法的支持,25%的基因得到了从头合成预测和基于同源性的证据,以及7.4%的基因得到了从头开始预测和cDNA-EST预测的证据;而剩下的基因主要来源于从头合成的预测,但是这些基因的绝大多数得到了多种基因发现者的支持(补充表9)。约81%的基因在TrEMBL蛋白数据库中有同源性,并且66%能够被InterPro分类。总之,82%的基因要么有已知的同源基因,或者能够进行功能分类(补充表10)。除了蛋白质编码基因,我们还在黄瓜基因组中鉴定了292个rRNA片段,699个tRNA,238个核仁小RNA,192个小核RNA和171个miRNA基因(补充表11)。
基于蛋白质序列两两配对的相似性,以水稻作为一个外群,我们在测序植物的所有基因中展开了一个基因家族簇分析。黄瓜基因由15669个家族所组成。在这些家族中,4362个是独特的家族,3784个是单基因家族(补充表12)。这些独特的单拷贝基因的EST证实率比所有预测基因的平均水平要低得多(分别是33.4%比72.3%)。因此,这种分类可能包含了许多假阳性的预测。在木瓜里,有4622个独立的家族,但是真实的基因数被估计为24746,比预测的28629个基因数要低。因此,黄瓜中真实的基因数目应该比26682要低,并且跟木瓜中的类似。黄瓜(1.71)和木瓜(1.77)中平均基因家族大小较小,支持了这一结论(图2a)。在所有我们比较的植物中,黄瓜基因组中串联复制基因最少,而葡萄最多(5382;图2a)。这可能是造成黄瓜基因数量少的部分原因。
近期全基因组复制的缺乏
全基因组复制(WGD)在被子植物中普遍存在,为基因起源提供了大量的原料。先前的研究表明,在拟南芥和葡萄的共同祖先中,单子叶植物跟双子叶植物发生分化后,发生了古六倍体事件。随后,拟南芥17中出现了两个全基因组复制(alpha; 和 beta;),白杨8出现了一个全基因组复制,而葡萄和木瓜中最近未出现全基因组复制。证据表明水稻经历了一个古老的全基因组复制18。我们在黄瓜基因组上开展了一个共线基因序列分析,发现没有全基因组复制,而只有小部分的重复事件(补充图7)。我们还利用四倍退化位点的距离颠换率(4DTv方法)来分别对拟南芥和黄瓜中同一条染色体上的位点之间的同源基因对进行分析。拟南芥中的两个峰值(大约0.06 和0.25)支持这两个最近的全基因组复制(图2b)。在黄瓜中,分析显示古老的重复事件(峰值大约在0.60),却并未揭示最近的全基因组复制。在这小黄瓜基因组中全基因组复制周期性的缺乏,对葡萄和木瓜基因组的原始形式和植物基因排列研究提供了一个重要的补充。
图2:黄瓜基因组与其它测序植物基因组的比较
- 预测基因的数目,串联复制基因的数目以及六种测序植物基因组的基因家族的大小。
- 黄瓜和拟南芥中复制基因对的4DTv分布,基于HKY替代模型的密码子校准计算
与开花植物基因组的共性
鉴于黄瓜与其他植物基因组之间基因排列的相似性,我们鉴定了共线位点包括有5,473, 6,525, 9,842, 8,439和3,992个黄瓜基因分别与拟南芥,木瓜,白杨,葡萄和水稻基因共线(补充表13和补充图8-12)。
共线基因的数量与其他植物跟黄瓜之间的遗传距离相一致。在共线位点内部,我们发现黄瓜跟葡萄的共线基因密度最高(每Mb90.5个基因),其次是木瓜(76.1,基因组组装的近距离可能部分降低了该值),白杨(68.8),水稻(55.6)和拟南芥(43.5;补充表13)。这揭示了拟南芥的基因洗牌与重排最严重,而葡萄跟木瓜的基因组更加保守,可能因为它们自祖先的古六倍体以来没有进行全基因组复制过。
大量涉及染色体进化的融合事件
甜瓜与黄瓜是同一个属,尽管黄瓜有7条染色体而甜瓜有12条。西瓜,它们共同的远亲,有11条染色体。为了研究葫芦科染色体的进化,我们将甜瓜19和西瓜的基因图谱跟黄瓜的基因组做了比较。总计,522条甜瓜标记中的348条(66.7%)和232条西瓜标记的136条(58.6%)在黄瓜的染色体上共线(补充表14)。这个比较揭示了黄瓜的7号染色体上没有大量的重排,这与甜瓜1号染色体和西瓜7号群相符。
用西瓜作为一个外群,我们发现黄瓜的第1,2,3,5和6号染色体分别与甜瓜的2和12,3和5,4和6,9和10以及8和11号染色体共线,表明在物种形成后,这些黄瓜染色体每条都来自两条祖先染色体的融合。我们也发现黄瓜的6号染色体和甜瓜的3号染色体有一个共线片段,说明在物种形成后染色体间重排现象发生在两个基因组中的一个。
黄瓜4号染色体很大程度上相当于甜瓜的7号染色体,尽管甜瓜8号染色体的一部分与黄瓜4号染色体共线(穿过着丝点)。这些数据表明在黄瓜和甜瓜分化之前,基因重排很可能就已经发生了。除了染色体融合与染色体间重排,比较还揭示了一些染色体内重排现象的发生。
黄瓜-甜瓜的微共线性
为了估计序列分化率,我们比较了四种已测序的甜瓜BACs跟黄瓜的基因组(图3b和补充图13)。在甜瓜BACs中有56个基因,其中52个与黄瓜基因组共线。在编码区的平均序列相似度是95%。尽管基因区的相似度非常高,但两个基因组之间的重复内容差异却相当大。新的可转座元件频繁插入到两个基因组的基因间区域。因此,在平均序列同源性为88%的情况下,却只有54%的BAC序列能够与黄瓜基因组同源。尽管如此,两个物种之间高度保守的基因量跟基因排列,使得黄瓜的基因组对于甜瓜的遗传分析非常有用。利用四个甜瓜BACs的注释基因,我们在水稻,黄瓜,甜瓜,拟南
剩余内容已隐藏,支付完成后下载完整资料


英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[271437],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
