基于聚类算法和主成分分析的多性状关联分析方法开题报告

 2022-02-02 09:02

1. 研究目的与意义、国内外研究现状(文献综述)

课题意义:

全基因组关联分析(genome-wideassociation studies, gwas)是探究遗传变异与表型相关性的一个有力工具,目前已成功应用于人类,植物和动物遗传学等研究当中,辨别出数千种与表型或疾病相关的基因遗传变异。研究结果表明,4.6%的与疾病相关的单核苷酸多态性(snps)和16.9%的与这些基因相互关联的表型有显著的相关性[1]。由此可以推断,基因的多效性可能对相互关联的表型的分子机制起着关键的作用。目前,常用的统计学方法仅测试单个表型与基因之间的关系[2,3],也即每次只分析一个表型。与分析单个表型相比,联合分析可以通过利用表型之间的相关性来提高检验的功效[4],但直接使用所有数据进行相关统计检验会使得准确率降低。聚类分析将变量根据相似程度进行划分,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。经过聚类后的数据不仅维数降低,分析更加简单快速,更重要的是它所得到的同一簇内表型相关性较强,不同簇之间表型相关性较弱,使得统计分析效果更显著,结果更准确。主成分分析将原变量重新组合成一组新的综合变量,根据实际需要从中可以选取较少的综合变量尽可能多地反映原来变量,从而达到降低维度的效果。因此,聚类算法和主成分分析在多性状关联分析中具有重要的意义。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

研究目标:

本课题主要研究如何将聚类算法和主成分分析的思想运用于多性状联合分析之中,使其能够在某一类遗传结构下,相比较于传统的单性状分析和多性状分析,可以具有统计功效更强和运算速度更快的特性,并且在实际数据分析中也能具有良好的表现。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

研究方法:

选取目前主流的聚类算法和代表表型,如k-means、clara、pam、agnes等聚类算法以及平均数、中位数和主成分等代表表型,对表型数据进行降维。对比传统的单性状分析和多性状分析方法,例如方差分析(anova)和多元方差分析(manova),探究是否存在一种组合方法在模拟数据和实际数据分析中都具有良好的表现。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

特色或创新之处:

1、将聚类算法和主成分分析思想运用于多性状关联分析之中,对表型数据进行降低维度的处理并且尽可能地提取表型相关结构信息;

2、经过数据处理的分析方法相比于传统的单性状分析和多性状分析,前者的分析结果在统计功效、运算速度以及检测显著snp和候选基因的能力等方面具有良好的表现。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 研究计划与进展

研究计划及预期进展:

2019年1月—2020年2月

利用图书馆和网络等资源查阅相关文献资料,搜集已有的关于全基因组关联分析和多性状关联分析的相关论文,并仔细研读。探索目前在该领域使用的主流分析方法,并就其适用范围、统计功效、运算速度等方面进行对比。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。