1. 研究目的与意义(文献综述)
近年来,癌症的发病率不断增加,癌症的死亡比例占据世界上所有由疾病引发的死亡总数的八分之一,癌症因此成为对人类生命威胁最大的疾病之一。基因转录组学、蛋白质组学的实验技术和数据的涌现,为癌症研究提供了大量的实验数据,同时为癌症诊断标志物的研究打开了新的视角。
随着人类基因组计划的完成,生命科学进入到了后基因组时代。科学家开始探究疾病与基因关系,并把目光投向基因组上特殊的遗传标记位点—snp。snp多态性位点的差异有可能造成人们罹患疾病的不同风险和对药物的不同反应。发现这些与疾病相关的dna序列上的多态位点,是了解引起人类疾病的复杂原因和人类种族迁徙的最重要途径之一。
单核苷酸多态性(singlenucleotidepolymorphisms,snp)作为人类基因组数据中最常见的一种变异,成为新一代的遗传标记,它在致病基因定位,易感基因的检出,药物基因组学中发挥了越来越重要的作用,因此snp已经成为计算机学者和生物学者寻找疾病基因,进行疾病诊断和药物选择的重要研究对象。目前越来越多的疾病都是复杂性疾病,它们的发生不是单个基因作用引起的,而是由多个基因引起的,即snp之间存在着交互作用,而且现代随着高通量基因分型技术的诞生和快速发展,snp数据的规模也越来越大,进而到中级数据呈现出“高维度,小样本”的特征,数据挖掘成为研究snp数据的与复杂性的重要性技术手段。
目前snp的检测方法大致可以分为两大类:一大类是以单链构象多态性
2. 研究的基本内容与方案
1)基本内容:了解面向对象程序设计理论,掌握java语言的使用;分析、研究生物信息学的相关基础理论;学习研究几种常见的数据文件格式,使用sdk进行读取;掌握java开发技术,进行基本的程序框架设计;掌握收集的各种基本数据预处理算法,对数据进行简单和初步的调理;了解并研究多种滤波算法,比如高斯平滑,限幅,中值等
2)目标:利用java语言将采集到的染色体上的碱基对数据进行预处理跟滤波处理,方便之后对数据的分析与检测,发现copy number的改变
3. 研究计划与安排
第1周查阅相关文献,明确论文研究内容;
第2周搜集资料和辅导书籍,并完成开题报告;
第3周熟悉java开发环境,学习生物信息学相关基础理论;
4. 参考文献(12篇以上)
1.李刚,疯狂java讲义(第3版),电子工业出版社,20142.徐明远,郑越,俞朝晖,java常用算法手册,中国铁道出版社,2014
3.许家磊,snp检测方法的研究进展,2015
4.许必宵;陈升波;韩重阳;马梦环;宫婧,改进的数据预处理算法及其应用,《计算机技术与发展》2015
