抗T2D化合物的高频化学片段发现与骨架组装算法文献综述

 2023-02-23 22:38:24

抗T2D化合物的高频化学片段发现与骨架组装算法

开题报告

据统计,在2013年全球大约有3.8亿人患有糖尿病,预计在2035年这个数字会达到5.9亿[1],糖尿病已经成为备受世界关注的慢性疾病之一。糖尿病一般可以分为两大类:1型糖尿病和2型糖尿病。而超过90%的病例都为2型糖尿病(T2D,Type 2 Diabetes),是由于体内胰岛素抵抗以及细胞代偿性分泌不足所造成的 [2] ,严重时可引发如心血管疾病[3]等并发症,因此针对抗T2D新药的开发尤为重要。目前,计算机辅助药物设计已经成为新药研究的重要辅助手段,能显著提高临床前药物发现的效率。可以想象假设用实验的方法从海量的化合物中筛选出能作用于靶点的类药化合物有多困难,虚拟筛选可以大大地增加活性配体与靶标受体结合的几率。随着对T2D发病机制的深入研究,现在已有多个药物作用的靶点被发现,比如过氧化物酶增殖激活受体的alpha;亚型(PPARalpha;)[4],肝脏X受体的beta;亚型(LXRbeta;)[5]等。有了这些已知的靶标,在计算机筛选中仅仅考虑配体的方法是简单且高效的,这种只考虑配体小分子而不考虑靶蛋白结构的虚拟筛选方法称为基于配体的虚拟筛选。

药物设计是药物化学学科的重要分支。药物化学的本质是解决化合物小分子与靶标大分子之间相互作用关系的问题,而药物结构及其生理活性的研究,即构效关系(SAR,StructureActivity Relationship)是问题的核心。一旦掌握了SAR,我们可以通过计算机虚拟筛选的方法找到符合预期的活性配体并进行先导化合物优化[6]

化合物的结构复杂且不规则,为了将这种不规则的结构以规则的形式表示出来,许多方法都提到了分子描述符[7],每个结构用一组的向量表示,描述符的值反映了化合物的基本特性。相比较于一些需要数值计算的描述符,结构片段的描述符更容易获得,也更能直观地解释分子的性质特征。子结构片段就是一种结构描述符,它是一组化合物集的共同结构,对活性的贡献最大,因此构建SAR模型预测化合物活性的关键就是找到这样的子结构片段。从化合物中发现这样的子结构片段后,可以将其组成骨架新颖的新化合物,并应用于抗T2D药物的研究。

许多算法可以用于子结构片段的产生和特征搜索,如最大共同子结构算法(MCSS,Maximal Common Substructure)[8],基于骨架的结构分类方法(SCA,Scaffold-based Classification Approach)[9],原子中心片段法(ACF,atom center fragments)[10]等,但这些算法都有一个共同的问题:产生太多没有代表性的子结构。以ACF为例,ACF是把每个非氢原子作为片段中心,将分子分解成结构碎片,中心原子会受到邻近原子的类型和化学环境的影响[11],但碎片太多导致噪音太大(一些不符合化学意义或者冗余的碎片等)。

用于产生子结构片段的方法还有很多,比如MACCS structural keys[12],这是有监督的方法。相对而言,无监督的方法虽然考虑到了分子空间的所有子结构,但这种没有偏见的方法让我们更容易获取和挖掘出一些片段,这些片段可能隐含着一些未知的化学特性,再用频繁子结构搜索的方法可以找到在化合物集里出现频率最高的子结构,但随着化合物数目和大小的增加,频繁子结构的数目也会随之增大,使得它们在很多应用中受到限制。因此,开发出一种挖掘算法来减少频繁子结构的空间是必要的。

我们可以用支持度的约束控制子图的数目。gSpan[13]是一种深度优先搜索(DFS,Depth-First-Search)并按字母顺序排序的产生频繁子图集的方法。它为每个分子结构进行字母表排序,并映射为唯一的最小DFS编码。在一棵DFS编码树上,每个节点用DFS 编码表示(一个DFS编码代表一个频繁子图),每个子节点由父节点增加一条边得到。通过深度优先遍历这棵DFS编码树,可以遍历出所有潜在的频繁子图,并按DFS编码的顺序得到。

然而这棵树的大小可能会呈指数型增长,我们需要一种修剪策略来减少计算量与计算复杂度,为此我们引入一种子图删减算法:最大频繁子结构(MFS,Maximal Frequent chemical Substructures)算法,它是基于最大频繁子图建立的[1415]。这个算法的特征是在最大约束下挖掘出频率最高的子图而不是挖掘所有可能的子图。最大约束在这里的定义是,在同一个集合中不存在这样两个子图,一个子图是另一个子图的超图。这种带有最大约束的频繁子图搜索算法是高效的,当数据集变大时频繁子图的数目增长越来越缓慢,当数据集足够大时数目几乎收敛,相比于不带约束的算法,频繁子图的数目大大减少,更多有用的子图可以用很低的支持度辨别出来。因此,最大频繁子结构是具有统计意义的,它可以作为化合物库中的一种结构描述符,用于建立SAR 模型来预测生物活性。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版