质谱数据处理的算法研究开题报告

 2021-08-09 01:02:56

1. 研究目的与意义

生物基因组基本上是固定不变的,但是只从基因组DNA 序列尚不能回答某基因的表达时间、表达量、蛋白质翻译后加工和修饰的情况以及它们的亚细胞分布等等。从DNA到 mRNA 再到蛋白质,存在三个层次的调控,即转录水平调控,翻译水平调控,翻译后水平调控。从mRNA 角度考虑,实际上仅包括了转录水平调控,并不能全面代表蛋白质表达水平。蛋白质是生理功能的执行者,是生命现象的直接体现者,对蛋白质结构和功能的研究将直接阐明生命在生理或病理条件下的变化机制。这就决定了必须从蛋白质组水平研究这些问题。 进入后基因组时代,研究蛋白质组具有重大意义。包括注释基因,阐述细胞分裂、生长、凋亡具体过程,诊断和治疗疾病。蛋白质组学的研究一般包括前期的样本提取与纯化;中期的蛋白质分离、分析鉴定和定量分析;后期的数据处理与分析。样本的制作一般取整个细胞或组织的所有蛋白质。而蛋白质的分离 ,双向凝胶电泳一直是实验室的主要方法。但是它的繁琐、不稳定和低灵敏度等问题需要新的方法来弥补或代替。液相色谱质谱(LC-MS)联用技术使快速、准确、高通量的分析和鉴定蛋白质成为可能。随着对大规模蛋白质相互作用研究的重视,质谱法越来越来显的重要,已经成为蛋白质组学的一种必不可少的工具。 1906年,J。J。Thomson发明了质谱。到20世纪20年代质谱才逐渐成为一种分析手段,被化学家采用。40年代时,质谱广泛用于有机物质分析,知道80年代发现新软电力技术后,能用于分析高级性、难挥发和热不稳定样品之后,生物质谱才发展起来。近年来有关生物质谱的国际会议频频举行,生物质谱成为现代科学前沿的热点之一。 质谱成为分析生物活性分子的重要手段,是由于它具有以下特点:

1、高灵敏度,可测10-8mol以下物质的量;2、快速,数分钟内即可完成测试;3、能同时提供样品的精确分子质量和结构信息;4、既可用于定性分析,也可用于定量分析;5、能有效地与各种色谱联用,如GC/MS,HPLC/MS,TLC/MS及CZS/MS等,用于复杂体系分析。以上这些特点是其他分析方法难以达到的。生物质谱,不同于其他质谱,如无机、有机质谱,顾名思义是研究生物分子的,而生物分子,大多数以其高相对分子质量而区别于其他分子。就质谱而言,以往的质谱只要求测定几十到2000的相对分子质量,而生物质谱则要求测定上万甚至是上百万的。质谱的特点可归纳为几个S,即灵敏、快速、专一,充分展示了质谱比其他方法优越,同时,质谱在测定中为生物样品分子提供了准确的化学计量信息。在过去20年中,生物质谱的主要进展在于解决如何测定大质量分子荷比m/z及其相关的问题,主要的研究领域包括:如何扩大质谱仪器的质量范围;如何使生物大分子电离和使其怠惰电荷;如何解释达致良分子质谱;如何发展生物大分子质谱测定方法。到目前为止,上述4个方面的问题基本上得到解决。因此许多利用生物质谱的分析方法现在正逐渐成为一种常规工具和手段,促使研究人员去认识与掌握它。

2. 国内外研究现状分析

在MS技术发展过程中,由于电离技术的制约,在相当长的一段时间内,MS只能对小分子的分子质量进行准确、灵敏的测定,但随着快原子轰击(FAB)、电喷雾电离( ESI)、基质辅助激光解吸电离(MALDI) 以及大气压化学电离(APCI)等电离技术的出现,MS的测定范围大大提高。特别是ESI-MS和MALDI-MS在高极性、难挥发性和热不稳定性生物大分子(如蛋白质和核酸)的分析研究中极具应用潜力,其能在甚至的水平上准确地分析分子质量高达几十万的生物大分子,从而开拓了质谱学中一个崭新的领域生物MS,促使MS技术在生命科学领域获得广泛应用和发展。生物MS技术在分析生物大分子方面,具有灵敏度和准确度高、易操作、分析速度快等优点,且易与色谱联用,适于复杂体系中痕量物质的鉴定或结构测定。下面介绍几种常用的生物MS技术。电喷雾质谱技术和基质辅助激光解吸附质谱技术是诞生于80年代末期的两项轨电离技术。这两项技术的出现使传统的主要用于小分子物质研究的质谱技术发生了革命性的变革。它们具有高灵敏度和高质量检测范围,使得在 ( )甚至的水平上准确地分析分子量高达几万到几十万的生物大分子成为可能,从而使质谱技术真正走入了生命科学的研究领域,并得到迅速的发展。近年来,生物MS技术已经取得了长足的进展,为蛋白质结构研究提供了强大的技术支持,被认为是生命科学研究的首选工具。将生物MS技术与蛋白质分离纯化技术及蛋白质化学修饰等技术相结合,可对蛋白质结构进行深入研究。正是蛋白质结构研究的不断发展,要求生物MS技术向更快、更灵敏、更可靠的方向发展。 2002年的诺贝尔化学奖授予了三位研究人员,其中包括美国科学家芬恩和日本科学家田中耕一,以表彰他们在生物质谱领域中里程碑的贡献。富于戏剧性的是,田中耕一的诺贝尔奖的奠基文章发表在1987年中日质谱双边研讨会上,但田中耕一博士的突破性进展在当时并没有引起中国科学家的足够重视。美国质谱学会年会在20世纪80年代初开始专门设立了大分子质谱的分会场,以适应美国科学家开始解决生物大分子的质谱分析难题的潮流。可惜的是,中国科学家也没有对这一潮流给与应有的关注。 我们在生物质谱研究领域的落后也和我们当时的教育科研体系有内在的联系。中国的大学教育在交叉领域的教学不能适应科学迅速发展的趋势,化学学科的学生和研究生对生物学界的迅猛发展及存在的问题和解决问题的途径一无所知,对解决这些问题的技术基础没有安排合宜的教学内容,如生物化学、仪器测量基础(分子离子化过程、光学与离子光学、信号测量与处理、真空与机械等)。化学和生物学科的研究人员基本没有可以自己组建大型试验仪器的技术基础,由此,我们在当时并不具备在生物大分子质谱分析方面做出突破性成果的能力。 另外,我国在研究科学一起方面落后的状态造成了生物质谱仪依赖进口的局面。20世纪90年代以后,生物质谱仪的进口逐年上升,特别是1998年蛋白质组学热潮来后,生物质谱仪的进口达到了一个高潮。不可否认,生物质谱仪的引进极大的改善了我国生物大分子分析落后的状态,我国利用先进的生物质谱仪器已经在国际一流杂志上发表了不少有影响的文章,但是对进口仪器的依赖限制了我们创新技术的发展,我们仪器放免的性能一直比国际水平要晚2-3年。 1994年,蛋白质组学第一次被提出,生物质谱被建议用来测定生物大分子结构、坚定组成及进行痕量分析。令人鼓舞的是,生物大分子质谱在1995年后确实越过了化学和物理的边界,融入到生物化学和生命科学领域。1996年生物质谱被确认为蛋白质组学技术平台的重要组成部分,科学家此时已认识到生物质谱另一吸引人之处是可以取代降解测序方法,了解蛋白生成的早期结构领域,以及当时显示出来的可以鉴定翻译后修饰的能力。更有甚有,生物质谱还可以用来测定非共价键作用作用如抗体-抗原体结合作用。2001年以后,随着基因组测序计划的完成,蛋白质组学的规模化已成定局,生物质谱正在发挥着其不可取代的中坚作用。 可以预计生物质谱今后的发展是令人振奋的,也可能会继续早就诺贝尔奖级的科学家。事实上,质谱技术因解决各种前沿难题而屡次获奖,今后还将会获奖。主要因为发展质谱技术和方法而获诺贝尔奖的科学家有好几位,他们是:J.JThompson,F.W.Aston,W.Paul,R.F.Curl,R.E.Smalley和H.W.KrotoK.Tanaka和J.B.Fenn。 我国已有不少科学家正在开展生物质谱方法学的研究,以期生物质谱在测定生物大分子方面发挥更大的作用。同时,我们也要鼓励有能力的科学家从事生物质谱技术的研究,因为对生物质谱技术的研究将是我们有跨越式的发展,可以在某些方面做一些商品仪器难实现的信息获取工作。 后基因组学的蛋白质组学,目前显得相当活跃。利用蛋白质组学可以分离和分析细胞与组织的全部蛋白,并直接找到一组或几组功能蛋白,并研究它们与功能基本的内在联系。在目前功能基因上部很不清楚的情况下,直接发现功能蛋白组有重要的意义。最近,《自然》及相关自然生物领域杂志、《科学》以及其他一些重要杂志,接连刊登和评论有关蛋白质组学的文章,表明了蛋白质组学作为后基因组学中的重要组成部分的地位正在得到加强,蛋白质组学正在成为21世纪科学研究的前沿。蛋白质组学也正在成为分析化学研究领域的最前沿研究,并已经成为匹兹堡分析化学年会的热点和焦点。蛋白质组学的科学研究之所以能够取得蓬勃的发展,主要依赖于高通量分离和分析技术的突破性进步。首先是质谱技术,尤其是软电力技术的发展和双向凝胶电泳技术的完善,使得蛋白质的大范围、高通亮分析成为可能。世界各主要国家都不惜巨资进行蛋白质组的研究,建立越来越多的蛋白质组数据库,蛋白质的分离和检测技术也在不断完善,在这种形势下,继续发展生物质谱技术有着重要的意义。

3. 研究的基本内容与计划

模拟退火算法(sa):模拟退火算法来源于固体退火原理,将固体加温至充分高,再让其徐徐冷却,加温时,固体内部粒子随温升变为无序状,内能增大,而徐徐冷却时粒子渐趋有序,在每个温度都达到平衡态,最后在常温时达到基态,内能减为最小。sa的计算步骤:①初始化,任选初始解,i∈s,给定初始温度t0,终止温度tf ,令迭代指标k=0,tk=t0。 注:选择t0时,要足够高,使ei/k→0②随机产生一个邻域解,j∈n(i),(n(i)表示i的邻域)计算目标值增量 f=f(j) f(i)③若f〈0,令i=j,转步④(j比i好无条件转移);否则产生ξ∈u(0,1),若exp(-f/tk) 〉ξ,则令i=j(j比i好,有条件转移)。④若达到热平衡(内循环次数大于n(tk))转步⑤,否则转步②。⑤k=k 1降低tk,若tk〈tf停止,否则转步②。sa特点:编程最容易,理论最完善。测试软件:退火模拟算法vc 下载网址:http://download.csdn.net/source/2433649遗传算法(sga):是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法,它最初由美国michigan大学j.holland教授于1975年首先提出来的,并出版了颇有影响的专著《adaptation in natural and artificial systems》,ga这个名称才逐渐为人所知,j.holland教授所提出的ga通常为简单遗传算法(sga)。sga的一般算法:①创建一个随机的初始状态  初始种群是从解中随机选择出来的,将这些解比喻为染色体或基因,该种群被称为第一代,这和符号人工智能系统的情况不一样,在那里问题的初始状态已经给定了。 ②评估适应度  对每一个解(染色体)指定一个适应度的值,根据问题求解的实际接近程度来指定(以便逼近求解问题的答案)。不要把这些解与问题的答案混为一谈,可以把它理解成为要得到答案,系统可能需要利用的那些特性。 ③繁殖  繁殖(包括子代突变)   带有较高适应度值的那些染色体更可能产生后代(后代产生后也将发生突变)。后代是父母的产物,他们由来自父母的基因结合而成,这个过程被称为杂交。 ④下一代  如果新的一代包含一个解,能产生一个充分接近或等于期望答案的输出,那么问题就已经解决了。如果情况并非如此,新的一代将重复他们父母所进行的繁衍过程,一代一代演化下去,直到达到期望的解为止。⑤并行计算非常容易将遗传算法用到并行计算和群集环境中。一种方法是直接把每个节点当成一个并行的种群看待。然后有机体根据不同的繁殖方法从一个节点迁移到另一个节点。另一种方法是农场主/劳工体系结构,指定一个节点为农场主节点,负责选择有机体和分派适应度的值,另外的节点作为劳工节点,负责重新组合、变异和适应度函数的评估。测试软件:遗传算法工具包 下载地址:http://www.onlinedown.net/soft/15994.htm无标记定量算法:在定量蛋白质组学中,鸟枪法是常用的实验策略,通常情况下,由于物理化学特性的不同,由蛋白质酶切得到的肽段混合物会在不同时间流出液相色谱,进入质谱仪进行质谱分析,得到包含肽段定量信息的一级图谱(ms spectrum)和包含肽段序列信息的二级图谱(ms/ms spectrum)。计算流程:无需鉴定结果的定量方法以一级图谱数据为处理对象,其定量数据处理主要由以下6步完成:1)数据预处理及谱峰检测(peak detection)。主要目的是从含有大量噪声的单张一级图谱中提取真实的肽段信号峰。2)基于信号强度(intensity)提取肽段定量信息。在保留时间(retention time, rt)轴上,构建肽段的离子流色谱峰(extracted ion chromatography, xic),并根据xic计算出肽段的丰度表征。3)保留时间对齐(rt alignment)。目的是为了消除不同实验中同一肽段的色谱保留时间偏差。4)数据归一化(normalization)。消除不同实验之间肽段信号强度的系统误差。5)肽段/蛋白质序列匹配。无序列信息的目标肽段可以通过精确质量时间标签(accurate mass and time, amt)进行数据库搜索或通过靶标式lc-ms/ms分析匹配到肽段/蛋白质序列。6)蛋白质丰度比计算及统计学分析。由肽段的定量值推断出对应蛋白质的丰度比,然后通过统计学分析找出显著性差异表达的蛋白质,从而确定候选生物标志物。值得注意的是,在临床诊断中可能不需要肽段和蛋白质的序列信息,而是构建特定生物样品的质谱分析特征矩阵,利用数据特征直接刻画或者表征样品。需要鉴定结果的定量方法是针对lc-ms/ms策略的实验数据处理方法,其数据处理步骤包括:1)数据库搜索及结果质量控制。利用二级图谱,通过数据库搜索和结果质量控制,得到高可信度的肽段和蛋白质的鉴定结果。2)定量信息提取。有两种不同方法信号强度法和图谱计数(spectral counting)法。方法①利用肽段的鉴定信息返回到一级图谱中提取肽段的xic,并根据xic计算肽段的丰度表征。;方法②则把蛋白质中肽段的鉴定图谱总数作为定量指标,只能定量蛋白质3)蛋白质丰度比计算及统计学分析。基于信息论的蛋白质数据库搜索鉴定算法:为了有效地利用蛋白质串联质谱数据,提高蛋白质鉴定的准确性,提出了一种基于信息论的蛋白质数据库搜索鉴定算法itpia(information theory based protein identification algorithm)算法。针对多肽串联质谱质量低、噪音多等问题,itpia算法利用了信息论中的熵理论提出了一种有效的实验串联质谱和多肽的理论质谱的匹配打分算法。该算法更大程度上从多肽串联质谱中获得蛋白质的结构信息。实验结果表明,itpia 算法有效地提高了蛋白质鉴定的准确性。算法步骤:首先,多肽母离子的质量被用于对蛋白质数据库中的多肽序列进行过滤,然后对剩下的多肽序列进行打分,得到最有可能的多肽序列。具体步骤如下:1) 过滤。设mi (1≤ i≤ k)表示第i 个实验串联质谱测得的多肽的质量。通过均值估计多肽的质量:计算蛋白质数据库中每条多肽的质量m,保存满足m- m ≤ε的所有记录,其中ε为预先给定的质量误差范围。2) 打分,多肽(长度为n)的理论谱打分转化为多肽的n - 1 个离子组打分的和。即其中,p 表示蛋白质数据库中多肽序列,为了避免理论谱中的离子峰被重复打分,上面提出的互不相交离子组被用于打分的基本局部结构。策略软件操作系统数据类型数据格式备注链接specarraylinuxft-ltq, orbitrap,qtofmzxml整合在tpp中http://tools.proteomecenter.org/wiki/index.php?title=software:specarray流msinspectlinux,osx,windowsesi-tof, orbitrap, ft-ltq, qtofmzxml用户界面,命令行http://proteomics.fhcrc.org/cpl/msinspect/index.htmlmapquantlinux,windowslcq, ft-ltqmzxml,mzdata,hmsxml用户界面http://arep.med.harvard.edu/mapquant/superhirnlinux, osxft-ltq, orbitrap, qtofmzxml整合在tpp中http://tools.proteomecenter.org/wiki/index.php?title=software:superhirndeepquantrwindowslc-maldi-mstxt, mzxmlmzdata用户界面http://www.pharma.ethz.ch/institute_groups/biomacromolecules/deepquantr/indexsievewindowsms data from thermoraw用户界面http://www.thermo.com/censuswindowsft-ltq, ltq, etcmzxml,pepxml, ms命令行http://fields.scripps.edu/census/index.phpideal-qwindowsesi-tof, orbitrap, ft-ltq, qtofmzxml用户界面http://ms.iis.sinica.edu.tw/ideal-q/程peptidequantwindowslc-esi-msmzxmlmatlab工具箱http://bioinformatics.ust.hk/peptidequant/peptidequant.htm测试软件:

肽序列从头测序算法:目前,常用的从头测序算法主要是图论和动态规划算法,这一类算法比较成熟,被广泛应用。还有一类基于概率模型的算法,这一类算法比较复杂,但效果较好。其基本算法是质谱图的构建,离子类型的确定,测序算法和打分算法。质谱图的构建:质谱图的构建是从头测序算法的基础,基于图论的从头测序算法都要对串联质谱图进行谱图的构建。设肽段p的质量为w,在串联质谱中产生k个质量为w1 , , wk的碎片离子i1 , , ik ,则质谱图g的构造如下。首先生成两个顶点z0和zm 。z0和zm分别表示零质量和肽段p的质量w - 18 (除去一个氧和两个氢) ,其中m = 2k 1。顶点z0和zm由一条直线连接起来, z0和zm之间的线段长度表示肽段p的质量。对于每个ij ,因为不知道它是n 端离子还是c端离子, 所以要生成一对质量互补的顶点zj和zm -j与之相对应,它们分别表示质量为wj - 1和w - wj 2的n 端离子或c端离子。如果ij是n 端b离子,则zj表示质量为wj - 1的b离子;如果ij是c端y离子,则zm -j表示与它互补的质量为w - wj 2的b离子。在实际质谱图中, zj和zm -j二者之间只有一个可能表示真实的b离子。 质谱中的每个峰都被表示成图g中的一对顶点,这些顶点都分布在z0和zm之间的直线上。每个顶点到z0的距离表示它所代表的碎片离子的质量。对于两个顶点zi和zj,如果zj-zi是某些氨基酸残基的质量之和,则zi和zj之间由一条方向从zi至zj的边连接起来。最后,生成的图g是一个有向无环图。离子类型的确定:基本的质谱释图方法是:先在质谱中的低质量区找到亚氨离子( immonium ions) ,再找到a2离子/b2离子对,然后由同种类型的两个碎片离子(如b离子或y离子)的质量差往往是一个氨基酸质量或几个氨基酸质量之和的规律依次推断出质谱图中的b离子和y离子。sherenga算法用偏移概率函数( offset frequency function ) 来确定离子类型。pr ime算法运用图论方法专门区分串联质谱中的b离子和y离子。pr ime算法把质谱图分成3个部分,即b离子, y离子和其他类型离子3个部分,把离子类型区分问题转化为图的划分问题。测序算法:质谱图构建完毕后,肽段测序问题就转化为在有向不循环图中寻找最优路径的问题。常用的测序算法都是基于动态规划的,如lutefisk, pr ime, sherenga等从头测序软件使用的测序算法都是通过对动态规划算法做了不同改进来完成的。而另外一些软件如seqms是用迪杰斯特拉算法(dijkstraalgorithm)寻找n端到c端的完全序列的。虽然动态规划算法能很好的解决图论问题,但它只能找出一个最优解。ma等的工作则解决了这一问题,使得测序结果从一个最优解扩大到一个序列列表。打分算法:打分算法是从头测序算法中最重要的一个部分。质谱图经过测序分析后,会得到多条路径,需要对这些路径进行打分来衡量这些路径对质谱解释的好坏。打分算法的目的是从多条候选肽段中找到一条能对质谱图做出最合理解释的肽段。打分算法有基于概率模型的算法如sherenga,pepnovo,基于权重矩阵的如audens。如果p ( p, s )是肽段p产生质谱s的概率,那么对于给定质谱s,使p ( p, s )取值最大的肽段p 即为对质谱s 做出最佳解释的肽段。sherenga算法用概率模型计算p ( p, s )值,采用了对质谱中存在的碎片离子(顶点)使用奖分制,对没有出现的碎片离子(顶点)实行罚分制的做法。测试软件:名称方法链结seqms图论http://www.protein.osaka-u.ac.jp/rcsfp/profiling/seqms/seqms.htmlpr ime图论http://csbl.bmb.uga.edu/downloads/prime/prime.htmllutefisk图论http://www.hairyfatguy.com/lutefisk/audens启发式算法http://www.ti.inf.ethz.ch/pw/publications/software/audens/peaks动态规则http://www.bioinformaticssolutions.com/products/peaks/index.phppepnovo假设检验http://proteomics.ucsd.edu/software/pepnovo.html

seldi质谱预处理算法:质谱技术在生物标志检测上有着重要的意义。为了从质谱数据中检测生物标志,必须对质谱数据进行预处理以提取谱峰特征。本算法是一种基于混合模型建模的质谱数据预处理及谱峰特征提取方法。算法的实现:在处理中风疾病预测的seldi 质谱数据中,我们首先利用常规的去噪技术(例如基于小波变换的去噪)从质谱数据中移除噪声,并粗略估计质谱中谱峰的信息(谱峰的个数以及谱峰的宽度)。然后根据得到的估计量,我们将谱峰的形状采样区间设置成 ρmin 等于3,000, ρmax 等于20,000。亚采样区间hj 设置成为对应谱峰μj 位置m/z 大小的1%,其中j = 1, 2,。。。, k 。这样设定的原因在于,在通常情况下,低m/z 区域的谱峰宽度较窄,而高m/z 区域的谱峰宽度较宽。kmax 设置为估计谱峰个数的两倍。 μ1, μ2,。。。。。。, μkmax 初始值随机从以区间[ min(x1:n) max(x1:n)]的均匀分布中生成。 由于计算量的限制,从一条完整的质谱数据估计所有谱峰信息的运算速度很慢。因此我们采用了近似的方法对质谱数据进行分段处理。事实上质谱数据的噪音分布是不均匀的。噪声信号在低m/z 区间强度更大(对应一个大的标准方差σ ),而在高m/z 区间强度相对较低(对应一个小的标准方差σ )。因此,相对于对整条质谱进行去噪处理,基于分段的质谱去噪能更够更加精确的对质谱进行平滑。从seldi质谱数据中检测谱峰的算法可以通过如下表述:1。 将整条质谱数据进行分段。2。 初始化:i=0;设置 k ( 0 ) 为kmax ,对(μ1:k (0) ,ρ1:k (0) )根据其先验分布采样。3。 while i = t2 随机根据决策做出一个前进方向(birth /death /merge /split /update/random walk)。根据这个决策,执行各个可逆翻转的采样步骤。根据公式计算k(i),μ1:k(i)对于每个μj(i)在它的邻近区域采样并根据公式计算ρj(i)。 i←i 1。蚁群算法:蚁群算法(ant colony algorithm)是由意大利学者dorigo于20 世纪90 年代初提出的,它是根据蚂蚁觅食原理而设计的一种群体智能算法。算法思想:(1)一群蚂蚁随机从出发点出发,遇到食物,衔住食物,沿原路返回。(2)蚂蚁在往返途中,在路上留下外激素标志。(3)外激素将随时间逐渐蒸发(一般可以用负指数函数来描述)。(4)由蚁穴出发的蚂蚁,其选择路径的概率与各路径上的外激素浓度成正比。这样,每只蚂蚁经过n 次迁移后就得到一条一定长度的回路,再根据相关公式重新计算各条路径的外激素浓度,可进行下一步搜索。利用同样原理可以描述蚁群进行多食物源的觅食情况。测试软件:蚁群算法建模工具 下载网址:http://download.csdn.net/source/2378627质谱数据库kdd预处理算法:kdd(knowledge discovery in database,简称kdd)在数据库的基础上进行从数据库中发现知识的研究,使得数据库不仅能存放和任意检索库中的信息,而且可以得到对数据库中数据的整体特征的认识,获得一些与数据吻合的、蕴涵的、预先未知和潜在的有用信息。这不仅有利于数据库自身的增长和管理,而且大大提高了数据库的利用率,被应用到越来越多的领域,取得了很好的效果。算法步骤:现有的相似系数计算方法各有特点。class5000的算法直接利用丰度值进行计算,在实际检索过程中花费的时间最少,但效果略差。kain-sze kwok等人的算法充分利用质谱知识来构造匹配因子,效果较好但耗时太多。demen等人的算法涉及的参数过多也导致其速度较慢。朱大模等人的算法实际上与class5000的算法没有本质区别。在对这些算法进行仔细研究后,我们发现class5000的算法最为简捷,公式如下:。其中,si是相似系数,is和ir分别是样本谱和参考谱的丰度值。常用的数据预处理方法有:(1)数据集成:主要是将多文件或多数据运行环境中的异构数据进行合并处理,解决语义的模糊性。该部分主要涉及数据的选择、数据的冲突问题以及不一致数据的处理问题。(2)数据清理:数据清理要去除源数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏数据,去除空白数据域和知识背景上的白噪声,考虑时间顺序和数据变化等,主要包括重复数据处理和缺值数据处理,并完成一些数据类型的转换。(3)数据变换:主要是找到数据的特征表示,用维变换或转换方法减少有效变量的数目或找到数据的不变式,包括规格化、归约、切换、旋转和投影等操作。(4)数据简化:有些数据属性对发现任务是没有影响的,这些属性的加入会大大影响挖掘效率,甚至还可能导致挖掘结果的偏差。因此,有效地缩减数据是很有必要的。数据简化是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标表达数据的有用特征,以缩减数据规模,从而在尽可能保持数据原貌的前提下最大限度地精简数据量。它主要有两个途径:属性选择和数据抽样,分别针对数据库中的属性和记录。对质谱库数据库进行知识发现的主要目的是,通过特定方法从大量谱图数据中发现数据的整体结构特性和数据间的函数或其他相关关系,并根据统计特征推断实际数据间存在的规律性。kdd系统:dbminer和quest。网址:http://www.cs.bham.ac.uk/~anp/thedatamine.html http://www.ics.uci.edu/ai/ml/machine-learning.html http://www.gmd.de/ml-archive http://www.cosmic.uga.edu/maincat.html#45 http://www.neuronet.ph.kcl.ac.uk http://wwwipd.ira.uka.de/~prechelt/faq/neural-net-faq.html9、模糊聚类算法:模糊聚类分析是依据客观事物间的特征、亲疏程度和相似性,通过建立模糊聚类相似关系对客观事物进行分类的方法。l.a.zadeh在1965年创立了模糊集合论,随后bellman和kalabaff.zadeh提出了用模糊集来处理聚类问题。在1969年,著名的学者e.h.ruspin又引入了模糊划分的概念进行模糊聚类分析,第一个系统地表述并研究了模糊聚类。至今越来越多的学者将模糊聚类应用于各个领域,使得模糊聚类在运用于天气预报、气象分析、图像分割、模式识别、生物、医学诊断和化学分析等领域均时均取得了满意的效果和客观的效益。算法步骤:①随机初始化c个数据聚类中心;②用公式计算u阵;③用公式 计算c个新的聚类中心ci,i=1,,c;④根据公式计算目标函数,若小于某个确定的阈值,或相对上次目标函数改变量小于某个阈值,则算法停止,否则,返回步2。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

生物质谱,不同于其他质谱,如无机、有机质谱,顾名思义是研究生物分子的,而生物分子,大多数以其高相对分子质量而区别于其他分子。就质谱而言,以往的质谱只要求测定几十到2000的相对分子质量,而生物质谱则要求测定上万甚至是上百万的。质谱的特点可归纳为几个S,即灵敏、快速、专一,充分展示了质谱比其他方法优越,同时,质谱在测定中为生物样品分子提供了准确的化学计量信息。本文详细向读者介绍生物蛋白质质谱各种算法,让读者对于生物质谱有一个深刻的认识以及与色谱技术的联用与对比。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版