主成分分析在人类遗传基因学的研究
主成分分析(PCA)是一种统计方法,探索和理解与大量的测量数据集(可以认为是维度)通过减少尺寸的几个主要组件(pc)解释的主要模式。因此,第一个PC是数学的组合测量,占最大数量的变化数据。在这里,我们给出了一个解释关于主成分分析的原理和其原始的数学算法,奇异变量分解(计算)。PCA可用于研究基因表达;也PCA人口遗传学解释,可以用来识别祖先种群之间的差异和样本,通过有一定的局限性,由于微进化的动力和历史过程,出现的分子技术,PCA在Y chro——mosome DNA,核DNA比古典标记给我们更准确的解释。进而,我们列举一些新的扩展和主成分分析的局限性。
主成分分析(PCA)涉及数学过程,将一些可能相关的变化,可以转换成一个小数量的不相关的变量称为pri - ncipal组件。第一主成分占尽可能多的变化的数据,和每个以后继任组件占尽可能多的剩余的可变性。根据不同的应用领域,也为离散Karhunen-Loeve变换(K.L.T.),霍特林转换或适当的正交分解(POD)。
主成分分析是在1901年被发明的卡尔培生(Pearson,1901)。现在主要是作为一个工具在探索性数据分析和预测模型。主成分分析涉及到的计算数据协方差矩阵的特征值分解或数据矩阵的奇异值分解,通常意味着定心后每个属性的数据。主成分分析的结果通常是组件的角度讨论分数和载荷。
PCA在数学上定义为一个正交线性变换,将数据转换到一个新的坐标系统,数据的方差最大的投影来躺在第一个坐标(称为第一普林斯顿-主要的组件),第二大方差在第二个坐标,等等。PCA是真正的eigen-vector-based最简单的多变量分析。通常情况下,其操作可以被认为是揭示数据的内部结构的最佳解释的方差数据。如果多元数据集形象地表现为一组坐标high-dime——nsional数据空间(1轴/变量),PCA向用户提供一幅罢了,“影子”的对象从其(在某种意义上)最有益的观点。
卢卡和他的同事们最初的洞察力,主成分分析可以应用到人类遗传变异(Menozzi et al .,1978),和他们最终分析了大约100蛋白多态性,测量在很多人类popu——颁布(Cavalli-Sforza et al .,1994)。几十年来,PCA已经被用于研究人口迁移:检测人口子结构,纠正分层在疾病研究和对人类历史做出合格的推论。宽在最近的基因组关联研究(GWAS),主成分分析用于显式模型祖先之间的差异情况和控制,由于人口stratification-allele频率不同病例和管制系统的祖先之间差异会导致虚假的疾病研究协会(价格et al .,2006)。PCA也广泛用于微阵列表达数据分析、控制代理变量,如不同的研究比较,批处理效果和时间进程安娜-溶菌作用(改变et al .,2000年,2003;改变amp; Golub 2006;Omberg et al .,2007;Yeung amp; Ruzzo,2001)综述,我们首先解释主成分分析的主要算法,它如何与奇异值分解(计算数学,这两种方法之间的区别是什么,在第一节,第二节,我们讨论了学报的主成分分析和计算在现代遗传学、群体遗传学等人类学和说明性的应用基因表现。最后,在第三节,我们列举一些限制的主成分分析和主成分分析的新扩展。
群体遗传学
11月和史蒂芬斯指出分析遗传数据的主成分分析是一种工具。PCA仍然有用的遗传分析在许多情况下,不需要历史解读,如探测人口结构的存在或纠正分层在疾病研究中(2008年11月amp; Stephens)。另一方面,如果目标是学习他的保守党和文档迁移,重要的是要开展附加的来研究相关的主成分分析的结果与其他的证据。通过叠加取样数量的地理上的电脑,他们获得“合成图”显示卓越的梯度变异的跨洲的历史迁移(皮尔森,1901)。例如,第一个欧洲个人电脑地图显示的东南向西北克莱恩解释为反映新石器时代农业从地中海东部地区的蔓延整个欧洲9000至6000年前。假设人的扩散的新石器时代农业已经支持额外的基因和考古资料(Pinhasi et al .,2005;Semino et al .,2004;Sokal et al .,1991)。
人口结构和分层在疾病研究
PCA人口遗传学解释和部分可用于识别不同的祖先在数量和样本。特别是,通过评估是否比例的方差解释第一个PC是足够大,就可以获得一个正式的野生动物子结构和P值来确定数量的电脑统计学意义(帕特森et al .,2006)。PCA也很有用的方法来解决这一问题人口strati-fication-allele频率差异情况和控制由于血统的差异或在选择可以导致疾病关联研究虚假关联。我们和其他人都描述了一个如何正确分层结构化种群如欧洲美国人通过调节基因型和表型的数量由祖先沿着顶级pc(价格et al .,2006;朱et al .,2008)。amp; 11月11月和斯蒂芬斯(Stephens,2008)理念,这种方法是适当无论电脑出现由于迁移,隔离距离或两个。主成分分析是一种工具,用来推断人口结构基因数据几十年来,之前的时代GWA研究(11月amp;史蒂芬斯,2008;帕特森et al .,2006;皮尔森,1901;价格et al .,2006)。应该注意的是,前主成分并不总是反映人口结构:他们可能反映了家庭亲缘(帕特森et al .,2006),远程连锁不平衡(LD)(例如,由于反演多态性)或测定工件(克莱顿et al .,2005)。这些影响通常可以通过指相关样品,未述及删除、消除地区远程LD或低质量数据,分别从数据用于计算主要的组成。此外,主成分分析可以突出微分偏见的影响,需要额外的质量控制(价格et al .,2006)。
对人类历史上合格的推论
11月的结果和史蒂芬斯(2008),什么信心我们应该使用PCA推论关于人类历史吗?为了说明这一点,大卫bull;里奇等人转向从53 940人人口类型的数据集~ 650000个snp作为人类基因组的一部分多样性项目(李et al .,2008;帝国et al .,2008)。他们使用EI-GENSOFT(帕特森et al .,2006;价格,et al .,2006)发现遗传变异的轴七个撒哈拉以南非洲人口在这个数据集,然后投影上的所有样品产生的个人电脑。另一个例子魁北克人口研究中,孟德尔疾病的分布指向本地创始人效应表明分层的当代法国加拿大基因库。他们通过分析人口结构特征的遗传贡献7798移民创业者识别的家谱在八个地区2221例分区。检测人口层从家谱资料,他们提出了一种基于主成分分析的方法(PCA)移民创业者的遗传贡献。结果显示不同的证据和东部地区和东北部的身份分层区域人口与geo-graphical位置沿圣劳伦斯河。ofearly PC-correlated创始人说明了微分的影响分析与后者创始人与特定地区的遗传模式一致。这些结果强调的重要性考虑样品的地理起源ge-netic流行病学研究设计中在魁北克(Claude amp; Bherer,2011)。另一个例子来自巴西组:他们利用SNP数据从1129人到1129年城市人口的圣保罗,巴西,和991年人类基因组单体型图计划从11个人口。PCA进行snp常见的这些数量,确定组成和单核苷酸多态性的数量需要捕捉他们的遗传变异。掺合料和当地的祖先推理都是在个人的巴西示例表。
然后从巴西样品发现个体下降之间的欧洲人,墨西哥人,非洲人。巴西人建议最高内部采样种群的遗传变异。他们从爱斯基摩人巴西样品分析结果表明下,非洲、欧洲和/或祖先,但是个人不同的种族之间的通婚的起源在生成有重要作用广泛的遗传变异在当今人口。这些例子强调PCA方法如何提供重要的迁移活动的证据。解释结果作出可靠的历史预言,然而,需要进一步的遗传分析和集成从考古学与其他的信息来源,人类学、语言学和地理。
限制
主成分分析的优势和劣势是,它是一种非参数分析。只需要使一个假设,然后计算出相应的答案,虽然是相同的人口和基因表达数据分析。没有参数调整和没有系数调整基于用户体验,答案是独特的和独立的用户。同样的力量也可以看作是一个弱点。如果人知道先验的结构系统的一些功能,那就把这些假设成一个参数的或一种算法与选定参数。在基因表达研究中,大多数的实现PCA,很难准确定义的精确边界明显的集群的数据,或定义基因(或实验)属于每个集群。在群体遗传学,主成分分析的一个限制是他们不模型家庭结构或神秘的羁绊。这些因素可能会导致通货膨胀在测试数据如果不显式地建模,因为样品相关的假定是不相关的。和协会统计,明确的占家庭结构或神秘的关系可能会获得更高的权力由于改善数据的权重。
另一个缺点是有时虽然假设自己太严格。人们可能想象的主要组件的情况下不需要正交。此外,分布在每个维度(xi)不需要高斯。最大的方差不对应于有意义的轴;Diagonalzing协方差矩阵可能不会产生令人满意的结果。最严格的形式消除冗余是统计独立。P(y1,y2)= P(y1)P(y2)P(·)表示的概率密度。因此PCA失败。然而,主成分分析仍然是一个强大的技术分析时,1)使用另一种分类技术,如k - means聚类或索姆,要求用户指定集群的数量。更加频繁,这种非线性变换之前有时被称为一个内核转换和整个参数算法称为内核PCA。其他常见的内核转换包括傅里叶和高斯的转换。这个过程参数,因为用户必须结合先验知识结构区前面的内核,但也更优,更简明地描述结构。2)这个少驱使组问题不是微不足道的,最近才被解决通过独立分量分析(ICA)充分(Hyv Rinen amp; Oja,2000)。ICA分解表达数据为一组统计独立的模式,我们任期“ICA特征”。之间的统计独立性模式估计通过优化对比功能,如峭度或互信息(比et al .,2008)。不像圣言,ICA组件可能基于不同的对比功能和数量的潜在来源,这下负责生成模型的变化数据。
重要的是要注意,应用奇异值分解和主成分分析对现代人类学遗传学是相对近期的,,目前发展的方法。目前,现代遗传学分析一般倾向于由迭代的应用程序执行的交互分析方法。任何给定的详细路径分析取决于具体的科学问题被解决。随着新发明的出现,进一步技术和见解,得到来自其他学科,我们进展的目标一个集成的、理论上声音现代遗传学方法。
剩余内容已隐藏,支付完成后下载完整资料
Principal Component Analyses in Anthropological Genetics
Xingdong Chen, Chao Chen, Li Jin
Principal component analyses (PCA) is a statistical method for exploring and making sense of datasets with a large number of measurements (which can be thought of as dimensions) by reducing the dimensions to the few principal components (PCs) that explain the main patterns. Thus, the first PC is the mathematical combination of measurements that accounts for the largest amount of variability in the data. Here, we gave an interpretation about the principle of PCA and its original mathematical algorithm, singular variable decomposition (SVD). PCA can be used in study of gene expression; also PCA has a population genetics interpretation and can be used to identify differences in ancestry among populations and samples, through there are some limitations due to the dynamics of microevolution and historical processes, with advent of molecular techniques, PCA on Y chro- mosome, mtDNA, and nuclear DNA gave us more accurate interpretations than on classical markers. Further-more, we list some new extensions and limits of PCA.
Keywords: Principal Component Analysis, Singular Value Decomposition, Human Genetics
Principal component analysis (PCA) involves a mathematical procedure that transforms a number of possibly correlated vari- ables into a smaller number of uncorrelated variables called pri- ncipal components. The first principal component accounts for as much of the variability in the data as possible, and each suc-ceeding component accounts for as much of the remaining variability as possible. Depending on the field of application, it is also named the discrete Karhunen-Loegrave;ve transform (K.L.T.), the Hotelling transform or proper orthogonal decomposition (POD).
PCA was invented in 1901 by Karl Pearson (Pearson, 1901). Now it is mostly used as a tool in exploratory data analysis and for making predictive models. PCA involves the calculation of the eigenvalue decomposition of a data covariance matrix or singular value decomposition of a data matrix, usually after mean centering the data for each attribute. The results of a PCA are usually discussed in terms of component scores and loadings.
PCA is mathematically defined as an orthogonal linear transformation that transforms the data to a new coordinate system such that the greatest variance by any projection of the data comes to lie on the first coordinate (called the first prin- cipal component), the second greatest variance on the second coordinate, and so on. PCA is the simplest of the true eigen-vector-based multivariate analyses. Often, its operation can be thought of as revealing the internal structure of the data in a way which best explains the variance in the data. If a multivari-ate dataset is visualised as a set of coordinates in a high-dime- nsional data space (1 axis per variable), PCA supplies the user with a lower-dimensional picture, a “shadow” of this object when viewed from its (in some sense) most informative viewpoint.
Luca Cavalli-Sforza and colleagues had the original insight that PCA could be applied to human genetic variation (Menozzi et al., 1978), and they eventually analyzed about 100 protein polymorphisms that had been measured in many human popu- lations (Cavalli-Sforza et al., 1994). For several decades, PCA has been used to study human population migrations: detecting population substructure, correcting for stratification in disease studies and making qualified inferences about human history. In the recent genome wide association studies (GWAS), PCA is used to explicitly model ancestry differences between cases and controls, due to population stratification-allele frequency dif-ferences between cases and controls from systematic ancestry differences-can cause spurious associations in disease studies (Price et al., 2006). PCA is also widely used in microarray ex-pression data analysis, to control surrogate variables, such as different studies comparison, batch effect and time course ana- lysis (Alter et al., 2000, 2003; Alter amp; Golub, 2006; Omberg et al., 2007; Yeung amp; Ruzzo, 2001)
In this review, we first interpreted the principal algorithm of PCA, how it related to singular value decomposition (SVD) mathematically, and what is the difference between these two methods, in section 1; and in section 2, we discussed applica-tions of PCA and SVD in modern genetics, such as population genetics on anthropology and illustrative gene expression ap-plications. Finally, in section 3, we list some limit of PCA and new extensions to PCA.
Population Genetics
Novembre and Stephens pointed out PCA is a tool for ana-lyzing genetic data. PCA remains useful for genetic analysis in many contexts that do not require a historical interpretation, such as in detecting the presence of population structure or in correcting for stratification in disease studies (Novembre amp; Stephens, 2008). On the other hand, if the aim is to study his-tory and document migrations, it is important to carry out addi-tional research to correlate the PCA results with other lines of evidence.
By superimposing the PCs on the geography of the sampled populations, they obtained “synthetic maps” that showed re-markable gradients of variation across continents suggestive of historical migrations (Pearson, 1901). For example, the first European PC map shows a southeast-to-northwest cline that was interpreted as reflecting the spread of Neolithic farming from the Levant throughout Europe between 9000 and 6000 years ago. The hypothesis of a demic diffusion of Neolithic farming has since been supported by additional genetic and archaeological data (Pinhasi et al., 2005; Semino et al., 2004; Sokal et al., 1991).
Population Structure and Stratification in Disease Studies
PCA has a population genetics interpr
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[287107],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料