Schauml;uble et al. BMC Bioinformatics (2017) 18:314 DOI 10.1186/s12859-017-1722-9
SOFTWARE Open Access
SBMLmod: a Python-based web
application and web service for efficient data integration and model simulation
Sascha Schauml;uble1dagger;, Anne-Kristin Stavrum2dagger;, Mathias Bockwoldt3dagger;, Paring;l Puntervoll4 and Ines Heiland3*
Abstract
Background: Systems Biology Markup Language (SBML) is the standard model representation and description language in systems biology. Enriching and analysing systems biology models by integrating the multitude of
available data, increases the predictive power of these models. This may be a daunting task, which commonly requires bioinformatic competence and scripting.
Results: We present SBMLmod, a Python-based web application and service, that automates integration of high throughput data into SBML models. Subsequent steady state analysis is readily accessible via the web service
COPASIWS. We illustrate the utility of SBMLmod by integrating gene expression data from different healthy tissues as well as from a cancer dataset into a previously published model of mammalian tryptophan metabolism.
Conclusion: SBMLmod is a user-friendly platform for model modification and simulation. The web application is available at http://sbmlmod.uit.no, whereas the WSDL definition file for the web service is accessible via http://
sbmlmod.uit.no/SBMLmod.wsdl. Furthermore, the entire package can be downloaded from https://github.com/
MolecularBioinformatics/sbml-mod-ws. We envision that SBMLmod will make automated model modification and simulation available to a broader research community.
Keywords: Web application, Web service, Data integration, Model simulation
Background
Theoretical models of complex biological entities are fundamental to systems biology and systems medicine research [1, 2]. They provide summaries of metabolic, signalling or gene regulatory networks including information on e. g. stoichiometry or kinetic rate laws. To gain new biological insights into pathways of interest it is nevertheless crucial to integrate experimental data. The type of appropriate data is context dependent: While dynamic signalling or metabolic pathway studies may require metabolome or time course data, gene regulatory networks commonly ask for gene expression datasets. Such data are increasingly available from data repositories such as the Gene Expression Omnibus (GEO) [3], the
*Correspondence: ines.heiland@uit.no dagger;Equal contributors
3Department of Arctic and Marine Biology, UiT The Arctic University of Norway, Tromsoslash;, Norway
Full list of author information is available at the end of the article
NCI-60 tumour cell line screens [4, 5] and The Cancer Genome Atlas (TCGA, https://cancergenome.nih.gov).
Theoretical model generation and distribution itself is commonly achieved via multiple toolboxes and databases. Pathway Tools [6] and CellDesigner [7] are examples of software packages for biological model construction. Whereas COPASI [8] and Data2Dynamics [9] are toolboxes for investigating dynamic behaviour, the COBRA toolbox [10] is suited for constraint-based model analyses. Theoretical models are stored in public databases such as the BioModels database [11], which mainly covers small to medium scale models, or the BiGG model database (http://bigg.ucsd.edu/) for genome-scale models. Model accessibility is achieved by model definition standards, such as the Systems Biology Markup Language (SBML) [12].
Both vast amounts of data and standardised models are readily available, yet integrating and analysing data with a
copy; The Author(s). 2017 Open Access This article is distributed under the terms of the Creative Commons Attribution 4.0 International License (http://creativecommons.org/licenses/by/4.0/), which permits unrestricted use, distribution, and
reproduction in any medium, provided you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons license, and indicate if changes were made. The Creative Commons Public Domain Dedication waiver
(http://creativecommons.org/publicdomain/zero/1.0/) applies to the data made available in this article, unless otherwise stated.
Schauml;uble et al. BMC Bioinformatics (2017) 18:314
given model can still be a discouraging task. Nevertheless, programmatic access is commonly necessary to perform more complex operations than loading and simulating the initial model.
In recent years software packages have been made available to simplify model manipulation and simulation tasks [10, 13–15]. A Taverna workflow published by Li et al. [14] focuses on reconstruction, model manipulation and simulation. Data integration is realised via accessing the enzyme kinetics database SABIO-RK [16], or via an in-house database for specific metabolomics and proteomics datasets. It does not, however, include the possibility to integrate gene expression data. Setting up the workflow itself requires programmatic configuration including resolving software dependencies on e. g. the libSBML package [17]. Yizhak et al. [13] introduced a method termed IOMA, which quantitatively integrates proteomic andmetabolomic data with genome-scale metabolic models and calculates steady state solutions. IOMA assumesMichaelis-Menten-like kinetics and delivers steady state flux distributions, but no metabolite concentrations. GAM presented by Sergushichev et al. [15] provides a convenient network analysis platform to analyse metabolic networks. So far it covers four pre-assembled models and is specifically tailored towards identification of the most regulated subnetwork between two conditions.
These toolboxes are appropriate ways to create, modify or simulate t
剩余内容已隐藏,支付完成后下载完整资料
软件 开放获取
一个基于python的web
用于高效数据集成和模型模拟的应用程序和web服务
摘要
背景:系统生物学标记语言(SBML)是系统生物学中标准的模型表示和描述语言。通过对多种系统生物学模型的集成,丰富和分析系统生物学模型
可用的数据,增加了这些模型的预测能力。这可能是一项艰巨的任务,通常需要生物信息学能力和脚本。
结果:我们展示了SBMLmod,一个基于python的web应用程序和服务,它自动地将高吞吐量数据集成到SBML模型中。后续的稳态分析很容易通过web服务访问
COPASIWS。我们通过将来自不同健康组织以及癌症数据集的基因表达数据集成到先前发表的哺乳动物色氨酸代谢模型中来说明SBMLmod的效用。
结论:SBMLmod是一个用户友好的模型修改和仿真平台。该web应用程序可从http://sbmlmod.uit获得。不是,但是web服务的WSDL定义文件可以通过http://访问
sbmlmod.uit.no / SBMLmod.wsdl。此外,整个包可以从https://github.com/下载
MolecularBioinformatics / sbml-mod-ws。我们设想,SBMLmod将使自动模型修改和模拟可用于更广泛的研究社区。
关键词:Web应用,Web服务,数据集成,模型仿真
背景
复杂生物实体的理论模型是系统生物学和系统医学研究的基础[1,2]。它们提供代谢、信号或基因调控网络的摘要,包括化学计量学或动力学定律的信息。尽管如此,为了对感兴趣的途径获得新的生物学见解,整合实验数据是至关重要的。合适的数据类型依赖于环境:虽然动态信号或代谢途径研究可能需要代谢组或时间过程数据,但基因调控网络通常需要基因表达数据集。这类数据越来越多地从基因表达组合(Gene Expression Omnibus, GEO)[3]等数据库中获得
*通信:ines.heiland@uit。没有带来平等的贡献者
3部门的北极和海洋生物学,外的北极挪威大学Tromsoslash;,挪威
完整的作者信息列表可以在文章的末尾找到
NCI-60肿瘤细胞系筛选[4,5]和癌症基因组图谱(TCGA, https://cancergenome.nih.gov)。
理论模型的生成和分发本身通常通过多个工具箱和数据库来实现。Pathway Tools[6]和CellDesigner[7]是构建生物模型的软件包的例子。虽然COPASI[8]和Data2Dynamics[9]是研究动态行为的工具箱,但COBRA工具箱[10]适合基于约束的模型分析。理论模型存储在公共数据库中,如主要覆盖中小型模型的BioModels数据库[11],或者基因组模型的BiGG模型数据库(http://bigg.ucsd.edu/)。模型可访问性是通过模型定义标准实现的,例如系统生物学标记语言(Systems Biology Markup Language, SBML)[12]。
大量的数据和标准化的模型都是现成的,但集成和分析数据与a
copy;作者(年代)。本文遵循知识共享署名4.0国际许可协议(http://creativecommons.org/licenses/by/4.0/)发布,该协议允许不受限制地使用、发布和使用
在任何媒介中复制,只要您给予原始作者和来源适当的信任,提供到知识共享许可的链接,并表明是否进行了更改。知识共享公共领域弃权
(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非另有说明。
给定的模型仍然是一项令人沮丧的任务。然而,为了执行比加载和模拟初始模型更复杂的操作,编程访问通常是必需的。
近年来,人们已经开发出了简化模型操作和仿真任务的软件包[10,13 - 15]。Li等人发表的Taverna工作流侧重于重建、模型操作和仿真。数据集成是通过访问酶动力学数据库SABIO-RK[16]实现的,或者通过内部数据库获取特定的代谢组学和蛋白质组学数据集。然而,它不包括整合基因表达数据的可能性。设置工作流本身需要程序化的配置,包括解决软件对libSBML包[17]的依赖关系。Yizhak et al.[13]介绍了一种称为IOMA的方法,它定量地将蛋白质组学和代谢组学数据与基因组级别的代谢模型集成,并计算稳态解。IOMA采用michaelis - menten -like动力学,提供稳态通量分布,但没有代谢物浓度。Sergushichev等人提出的GAM为代谢网络分析提供了一个方便的网络分析平台。到目前为止,它涵盖了4个预先组装的模型,并为识别两个条件之间最受监管的子网而特别定制。
这些工具箱是创建、修改或模拟理论模型的适当方法。然而,由于它们需要最低水平的编程能力,因此对于只有很少或没有计算生物学背景的科学家来说,它们都是有效的限制。
我们提出并描述了SBMLmod,一个苗条和容易访问的SBML模型加载,数据集成和模型仿真平台。SBMLmod可以在任何普通的web浏览器中访问,绕过安装或编程软件的需要。可以选择任何有效的SBMLmodel和用于参数化的数据集来执行模型修改和模拟操作。高级用户可以通过SBMLmod的Web服务描述语言(WSDL)接口以编程方式访问SBMLmod。WSDL接口绕过了解决软件依赖关系的需要,并允许将SBMLmod集成到分析管道中。最后,可以从任何Python shell提示符下载、安装、本地设置和访问完整的包。
实现
每一个SBMLmod任务都是基于编码在SBML中的理论生物模型,该模型可以从例如生物模型数据库[11]下载。用户可以提供单个或多个动力学速率定律或物种浓度的数据集。利用网络可以进行稳态仿真计算
第2页共8页
从COPASI[8]获得稳定状态下可行的全系统浓度和通量解。SBMLmod可以作为web应用程序访问,也可以作为定制工作流的web服务访问。各自的WSDL文件保证了与web应用程序相同的功能。
SBMLmod是用Python 2.7编写的。通过libSBML[17]可以访问和修改SBML模型。所有的模型修改和仿真特性都是根据数据集的数量和数据量进行动态和有效地计算的。
Web应用程序保证操作系统独立访问SBMLmod
SBMLmod的web应用程序的欢迎屏幕被组织成两个面板:A)选择输入文件;B)选择要执行的任务(图1a)。一般工作流程如图1b所示。
输入文件由强制SBML模型文件和可选数据文件组成。后者可以是反应速率定律的参数,也可以是模型中考虑的物质的初始浓度。当数据文件中给定的标识符与模型文件中相应物种或反应的标识符不匹配时,必须使用另一个映射文件。例如,如果模型和数据文件中使用了不同的标识符标准(例如,集成bl或entrez基因id),或者使用了相同物种或反应的不同同义词,那么情况可能就是这样。
用户还可以选择“批处理模式”选项来分析多个数据集。如果选中,则对给定数据文件的每一列进行单独处理,并生成单独的特定于数据的模型或模拟。
在选择必要的文件后,用户可以通过选择相应的选项来校准或模拟给定的模型(图1a, panel B)。校准模型参数是通过替换或缩放可用酶浓度总量等反应参数来完成的。替换和缩放反应参数可以在系统范围内(全局)完成,也可以在每个反应基础上(局部)完成。如果给定数据文件的多行与相同的反应相关联(例如,如果数据文件中考虑了同工酶,但模型中没有考虑),用户可以选择特定的合并模式。所有合并选项(例如最大值选择)在在线文档和附加文件1:S1中都有详细描述。模型种的初始浓度也可以修改。最近修改的模型总是可供下载。它们由数据文件中的相应列标头标识(关于数据文件格式的详细信息,请参见图1c和附加文件1:S1)。
一个警告反馈功能被建立,并确保模型被正确编码,所有的标识符
是可赋值的,映射是明确的。SBMLmod的web应用程序是使用Python Django[18]设置的,驻留在http://sbmlmod.uit.no上。为了演示数据格式和警告反馈,示例文件可在网站和附加文件2:S2中找到。
通过将web应用程序链接到COPASI web服务,可以计算稳态浓度和通量。我们的web应用程序返回生成的原始输出文件。此外,生成和模拟模型(批处理模式)的结果返回为
累积,制表符分开表的计算浓度和通量。为了允许对结果进行初始检查,web应用程序生成一个可定制的图,显示所有非恒定代谢产物浓度和通量(参见附加文件3:示例输出的图S3)。定制包括选择要显示的代谢产物种类和通量,还允许将不同的值分组(如果选择批处理模式)。有关自定义选项的详细信息,请参见附加文件1:S1。
Web服务可访问性支持自动化的高吞吐量数据集成和分析
在web应用程序的旁边,可以使用SBMLmod的web服务功能。可以通过WSDL接口访问它,也可以从http://sbmlmod.uit访问它。没有/ SBMLmod。或者从https://github.com/ molecular ularbioinformatics /sbml-mod-ws下载包含wsdl文件的整个包。web服务支持完整的分析工作流,包括前面提到的特性的模型修改和模拟操作的完整序列。通过提供WSDL文件,我们允许更高级的用户运行数据集成,而不需要安装软件包和解决软件依赖关系。因此,SBMLmod可以集成到其他现有或新开发的工作流中,用于模型操作或稳态模拟。或者,可以在本地安装和运行web服务(源文件和技术文档可在https://github.com/ularbioinformatics/sbml-mod -ws获得)。这使得处理速度更快,特别是对于大型数据集。仿真结果汇总在文本输出文件中。可以使用Python工具箱PyCopasi进一步处理这些文件,以解析和操作COPASI文件。PyCopasi的网址是https://github。com/MolecularBioinformatics/PyCopasi。
包的“testClient”文件夹中提供的文件演示了运行数据集成的可行模型操作和基本脚本。
结果与讨论
为了演示SBMLmod的使用,我们分析了两个公开可用的数据集,将它们集成到现有的色氨酸代谢模型[19]中(https:// www.ebi.ac.uk/biomodels-main/MODEL1310160000)。
色氨酸是一种重要的氨基酸,近年来受到越来越多的关注,因为它是多种生物活性代谢物的前体,如血清素、kynur - 9、褪黑素和NAD。因此,色氨酸代谢失衡与多种疾病有关,包括神经退行性变、胃肠道疾病和癌症。色氨酸代谢是组织特异性调节[20]的基础,导致代谢产物浓度和通量的显著差异。在我们早期的分析中,我们着重于两种人类组织(大脑和肝脏)中色氨酸通路活性的差异,以及这些组织之间的代谢物交换及其对神经退行性疾病的后果和潜在治疗方法[19]。我们实现了一种数据驱动的建模方法[21,22],方法是基于表达数据[19]缩放最大反应速度。通过整合来自组织特异性表达谱研究[23]的数据,我们表明我们能够定量重现体内测量的代谢物浓度,以及处理后报告的定性通量变化
第4页共8页
小鼠子通路酶特异性抑制剂。由于色氨酸分解代谢产物kynurenine与脑肿瘤中恶性肿瘤[24]的增加有关,我们最近利用癌症基因组图谱(TCGA: https://cancergenome)中的rna测序数据集,应用我们的模型计算了不同亚型乳腺癌患者的色氨酸代谢变化。nih.gov)。我们能够证明我们的预测与在患者[25]中测量的kynurenine浓度是一致的。因此,结合理论模型预测使我们能够预测患者特定的诊断标志物,这些标志物对进一步治疗非常重要,并强调需要易于访问的数据集成工具。
色氨酸代谢产物的组织特异性差异
Kynurenine和血清素是色氨酸代谢竞争分支的产物(见简化路径图2),它们的比例在抑郁症中被认为是重要的,尤其是在慢性炎症[26]的背景下。
在这里,我们扩展了之前的分析[19],以更好地理解胰蛋白酶-phan代谢的组织特异性活动。为此,我们从32个人体组织[23](数据集:https://www.ncbi.nlm)中整合了一个已发表的组织特异性基因表达数据集。(ni .gov/geo/query/acc.cgi?acc=GSE7905),计算了SBMLmod对kynurenine和血清素的稳态浓度。
我们的建模方法预测肝脏以及肺、脾等免疫活性组织具有高的kynurenine浓度(图2a)。在肺和脾中,kynurenine通路的活性取决于吲哚胺2,3-二氧合酶(indoleamine 2,3-dioxygenase, IDO)的诱导,尤其是在感染期间(参见文献[27,28])。胰蛋白酶途径在肝脏中的活性是通过胰蛋白酶2,3-二氧合酶(TDO)的表达来调节的,与IDO催化相同的反应。此外,当外周kynure- 9水平升高时,例如在感染[29]时,TDO被下调。妊娠期色氨酸代谢的变化,如胎盘中IDO的高表达可能与免疫耐受[30]有关。胎盘模型的计算浓度类似于这些观察
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[19629],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
