深度学习预测及诊断体细胞变异诱发肿瘤文献综述

 2022-12-25 12:45:40

一、文献综述

癌细胞的基因组上往往会累计有大量与发育前体细胞不同的特征,这些特征被称为体细胞突变(somatic mutation),以区别于那些继承自双亲的生殖系突变(germline mutation)1。体细胞突变按照其在癌症产生和发展过程中重要性可以分成两类:1)驱动型变异(driver)能够大量提高携带这种变异的细胞的生存优势,因此对癌症的演化起着重要的促进作用,又被称为致癌突变;2)附带型变异(passenger),并无对癌细胞发育分化的促进作用,然而由于携带这种变异的细胞同时携带有驱动型变异,导致其在最终发育完成的癌细胞中富集。单个细胞内的体细胞突变的数量往往在十万甚至百万量级,因此区分数量较少但重要的驱动型变异和数量庞大但不重要的附带型变异对癌症的预测和控制有着关键作用。许多驱动型变异位于与癌症高度相关的基因周围(如TP53、KRAS),或者靠近一些已知的生殖系突变,但是更多的驱动型变异的位点并没有显著的特征来归纳2

随着技术的进步和相关费用的下降,DNA测序越来越多地被用作人类疾病的研究和诊断工具。据报道在所有测序策略中,全外显子组测序(WES)可能是最常用于鉴定新基因和导致遗传疾病的突变3。另外,众所周知的癌症基因组图谱计划(TCGA)使用最先进的测序技术和分析方法来鉴定位于61中不同原发组织位点的32555例癌症患者的体细胞突变,共集合了3百多万份与癌症有关联的变异位点信息。再者,2013年Cyriac Kandoth等人使用TCGA的数据信息,对12个癌症类型的3281个肿瘤病例的单核苷酸突变和小片段插入/删除突变进行了分析4。通过比对已知的和新发现的与癌症相关的细胞过程,他们界定了127个重要的变异基因。大部分的肿瘤病理仅会含有这些基因上的2~6个变异特征,说明肿瘤形成的过程仅需要很少的驱动型变异即可产生,而即使是同一类型的癌症,不同患者的致癌突变的共性很小而差异性很大。

近年来,深度学习炙手可热。深度学习方法是具有多级表达量的学习方法,通过组合简单但非线性的模块获得模型,每个模块都将一个级别的表达量(从原始输入开始)转换为更高级的稍微抽象级别的表达量5。 近两年,深度学习在医药诊断领域取得很多突破,如2018年由张康教授领衔的广州市妇女儿童医疗中心和加州大学圣地亚哥分校课题组基于深度学习开发出一个能诊断眼病和肺炎两大类疾病的人工智能系统,这项研究成果以封面文章登上了顶级期刊《细胞》6;2019年,张康团队联合广州医科大学夏慧敏教授利用利用深度学习建立了自然语言处理系统从海量电子病历数据中提取有关信息,从而成功模拟儿科医生做出临床诊断7。与传统的机器学习相比较,深度学习具有提取这种更复杂更抽象特征的能力,为基于体细胞突变的癌症预测提供了可能。

综上所述,由于体细胞变异在各种癌症病例中的大量广泛存在,而且不同个体之间的变异位点之间巨大的异质性,导致了使用传统的机器学习方法捉襟见肘。深度学习方法善于从稀疏的特征中训练得出准确的预测模型,启发我们使用更先进的深度学习算法来结合测序大数据,开发人工智能,预测每个临床个体的体细胞变异导致其未来患癌的概率。

二、技术路线

1、数据集收集及预处理

限于时间、能力,本项目以乳腺癌作为切入点,因为乳腺癌的体细胞变异数据相对来说最为全面,而且大量的研究也发现传统的机器学习算法对乳腺癌的发病几率预测的准确度较差。训练数据集、测试数据集的来源主要从一下两个方面获取:一、相关数据库,主要包括以下几个数据库:The Cancer Genome Atlas(TCGA)、International Cancer Genome Consortium(ICGC)、Collaborative Oncological Gene-environment Study(iCOGS)、 Genome-Wide Association Study Catalog (GWAS);二、从近年发表的相关癌症的高影响力文章中获取原始测序数据,如“Landscape of somatic mutations in 560 breast cancer whole-genome sequences, Nature 534, 47 (2016)”、“The somatic mutation profiles of 2,433 breast cancers refine their genomic and transcriptomic landscapes,Nature Communications 7, 11479 (2016)”、“Association analysis identifies 65 new breast cancer risk loci, Nature 551, 92 (2017)”等等。

2、模型的构建与训练

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版