Affymetrix数据表达水平计算方法的对比分析研究开题报告

 2021-08-08 01:53:17

全文总字数:2904字

1. 研究目的与意义

基因芯片的原型是80年代中期提出的,基因芯片的测序原理是杂交测序方法,即通过一组已知序列的核酸探针杂交进行核酸序列测定的方法,在一块基片表面固定了序列已知的靶核苷酸的探针,而随着人类基因组(测序)计划的完成以及分子生物学相关学科的迅猛发展,越来越多的动植物,微生物基因组序列得到测定,基因序列数据正以前所未有的速度迅速增长。特别是近十多年来基于杂交技术的基因芯片技术在生命科学研究领域中得到广泛的应用,但是基于Affymetrix的基因芯片实验是一个繁复的过程并且由于基因芯片原始数据中的非特异性的特点使得实验结果具有很大的噪声和不确定性,解决的方法是通过不同的算法构建模型对原始数据进行模拟,

通过以上六种数据表达水平计算方法的对比分析研究,在不同的样本数量以及不同的样本大小的情况下,测算不同算法模型对数据模拟在不同情况下的精确度以及时间复杂度,通过散点图显示,从而找出在不同的情况下最有效的降低噪声的算法模型。

2. 国内外研究现状分析

基因芯片技术最早是由俄罗斯和美国的科学家最早提出来的,发展至今,基因芯片这种集分子生物学,微电子技术,高分子化学合成技术和计算机科学于一身的技术已经得到很大的完善。而其中技术最全面的的基因芯片生产厂家就是美国公司affymetrix,国内同类研究也基本是基于affymetrix公司的芯片。如在金圣华的《affymetrix 基因芯片原始数据噪声分析与应用》中就是基于genechip对原始实验数据进行分析研究,首先利用 affymetrix 公司提供的一 个标准的拉丁方spike-in 数据集,分析原始数据的噪声特征,研究芯片的物理结构和噪声之间的关系,归纳出相应的表示方式,将此对应关系应用到概率模型mmgmos中;最后采用拉丁方spike-in 实验数据集及一个真实的老鼠胚胎数据 集,对改进的mmgmos模型进行实验验 证。实验结果显示,考虑了芯片物理结构和数据噪声的关系,可以有效地提高 mmgmos方法对基因表达水平计算的精度和效率。

对于不同的算法模型对同一个数据集或者不同的数据集会得出不同的结果,那么怎样才能找到降低噪声最好的算法呢,因此需要对不同的算法构建模型对原始数据进行模拟,对结果进行对比分析研究,从而找到最好的降低噪声的算法。

mbei是由哈佛大学的li和wong开发的基于模型的表达索引方法,考虑到了探针特异性的影响。mbei提出一个非线性的乘法模型处理实验数据,把探针特异性的影响作为模型中的一个乘法要素来计算原始数据中的基因表达水平,为了减少负探针值,需要排除所有的负探针对或仅仅使用pm探针值。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的基本内容与计划

affymetrix为基因芯片技术中使用最为广泛的一种芯片,了解其数据的处理与分析;在affymetrix数据分析中最基本的一个工作表达水平计算,通过选择表达水平计算方法中经典算法来对比分析研究,从而了解不同方法之间的优劣性;

具体要求如下:

1) 了解基因芯片技术的原理和affymetrix测序数据的处理与分析。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

Affymetrix为基因芯片技术中使用最为广泛的一种芯片,为如今大多数对于基因芯片在生命科学领域的研究都是基于Affymetrix制备的芯片,因此需要了解其数据的处理与分析。而在Affymetrix数据分析中最基本的一个工作表达水平计算,通过选择表达水平计算方法中的经典算法对比分析研究,从而了解不同方法之间的优劣性。本次基因表达水平对比分析研究的重点在于选取六种经典算法(MBEI:基于模型的表达索引方法,考虑到了探针特异性的影响,利用一个不变的探针组来归一化探针数据;RMA:鲁棒多芯片平均算法,仅仅是利用PM探针的灰度值来计算基因表达值;GCRMA:是在RMA的基础上改进的模型;BGX:贝叶斯基因表达索引模型,是一个多层贝叶斯的概率模型;gMOS:核苷酸信号的伽马模型,仅考虑在单芯片单条件情况下;multi-mgMOS:多芯片多条件的伽马模型),并且对于数据的分析,统计在不同情况下的结果的精确度和时间复杂度,不仅是同一个样本在不同算法之间得到的结果差异,还有同一个算法对于同一种样本但大小不同情况下的结果差异,通过散点图和R语言中简单的计时程序得到结果进行对比分析研究,找到降低噪声最有效率的方式。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版