适用于表型预测的生物数据集应用分析开题报告

 2022-02-02 09:02

1. 研究目的与意义、国内外研究现状(文献综述)

课题意义:

表型预测在生产生活中起到了至关重要的作用,如疾病风险控制,进行作物育种或是禽畜培育等方面。它可以根据样本数据进行定向筛选,从而降低研究成本。然而其所分析的生物基因数据特点是样本少而维数巨大,这意味着许多传统方法在表型预测上不再适用,我们需要一些更加合适且高效的方法用于对基因数据的统计分析。以疾病风险控制为例,全基因组关联分析是指在全基因组层面上,开展多中心、大样本、反复验证的基因与疾病的关联研究,是通过对大规模的群体dna样本进行全基因组高密度遗传标记(如snp或cnv等)分型,从而寻找与复杂性状相关的遗传因素的研究方法,它可以全面揭示疾病相关的遗传基因。在本课题中我们目的是确定适合用全基因组关联分析做表型预测的生物数据特征。在确定了这些特征后,有利于做表型预测时的样本群体筛选并用来进一步提高表型预测精度。研究进展:在全基因组关联研究中最广泛使用的模型为混合线性模型。经过长时间的发展与实践,尤其是在对snp的处理上,基于混合线性模型产生了许多较为成熟的方法:1.fastmremma[1]是一种我们为实现了快速多位点随机snp效应emma模型,是两阶段gwas方法,它在第一阶段中认为snp效果是随机的,并在事先假设大多数snp对数量性状没有影响的前提下挑选出其中的一小部分;在第二阶段中,将所有在已选择的snp效应放入一个多基因座模型中,然后通过期望值和最大经验贝叶斯(emeb)[2]进行估算来进行定量性状核苷酸(qtn)识别。对模拟数据和真实数据的分析结果表明,与现有的单位和多位点方法(例如经验贝叶斯方法)相比,fastmremma在qtn检测和模型拟合方面功能更强大,在qtn效果估算中的偏差更小,并且所需的运行时间更少,它提供了多场所gwas的替代方案。2.e-bayes是由sas程序实现的一种多场所贝叶斯方法[3],常被用来作为多场所模型比较的最佳标准,其思想是同时估计所有snp效应方差。3.lasso方法在计算上较为简便,它已被广泛用于大型模型的回归分析中。4.有效的混合模型关联(emma)同cmlm[4]和ecmlm[5]是一种用于gwas的现有单基因座基因组扫描方法[6]和原始lmm的固定模型版本,emma可以纠正模型生物关联映射中的种群结构和遗传相关性,这使我们能够大幅提高结果的计算速度和可靠性,但emma中qtn效应被视为固定效应,并且不指定先验分布。5.fast-lmm [7]是gwas中最新开发的算法,该算法可在运行时和内存使用中随队列大小线性缩放,可以有效解决混合线性模型的计算问题,但其缺点是要求snp的数量少于个人的数量才能得出降级的关系,所以为了克服其缺点,super提取样本中一小部分snp用于fast-lmm中。所以super[8]不仅保留了fast-lmm的计算优势,而且显着提高了统计能力。

6.gemma[9]不仅是为标准混合线性模型及其一些近亲用于gwas的全基因组有效混合模型关联算法的软件,还是一系列新型的计算算法,它适合用于单表型的标记关联测试的混合线性模型时,以说明种群分层和样本结构,并通过类型化的基因型估算表型解释的表型(pve)的方差比例[10]。前景:对生物数据特征的筛选可以用在很多方面,如疾病风险控制,作物育种和禽畜培育等。在通过模拟数据筛选了生物数据集特征后,便可在应用的领域找到更合适的样本进行预测,大大提高预测精度和效率,从而提高生产力或是降低成本。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

目标:通过模拟数据进行表型(数量性状)预测,并计算出反应预测精确度的指标,最后通过指标确定适合用全基因组关联分析做表型预测的生物数据特征。

内容:1.基于样本数据针对数据集不同特征的不同参数对snp效应值进行模拟,并使用基于全基因组关联分析的方法计算出预测的表型。

2.将预测的表型与真实表型进行对比,从而计算出反应精确度的指标。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

研究方法和技术路线:获得实验样本数据,包括10000个snp和表型值,使用r语言进行数据模拟来基于不同特征的不同参数产生预测表型。

其中参数的选取通过查找文献与做初步的预实验选取。

此外,对于数量性状在使用基于混合线性模型的某种算法进行表型预测后,表型值与预测值在数值上将会有一些出入,而如何评价不同算法之间的结果或是不同数据在同一算法下预测结果的好坏就要用到指标。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

特色与创新:以我们现有能力难以在混合线性模型方法上进行创新,而在数据集上进行研究同样可以实现方法的改进。

所以本课题从生物数据本身入手,确定数据集的某些特征来匹配最合适的方法。

更进一步,对同一个方法(如gemma),寻找最适合它的生物数据特征所选取的不同参数取值范围。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 研究计划与进展

研究计划及预期进展:11月至1月:结合自身能力与查阅资料,寻找合适的课题,并进行初期准备。

2月:利用网上资源查阅相关文献资料,搜集已有的关于生物表型预测的相关论文,并仔细研读。

探索目前在该领域使用的主流统计学习方法,并就其精确度、方法复杂度和适用范围进行对比,完善准备工作与研究路线构思,确定预测方法。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。