性能分析模型,用于云计算的大数据应用
原文作者 Luis Eduardo Bautista Villalpando1,2*, Alain April2 and Alain Abran
摘要
云计算的基础,是以最小的管理工作来共享计算资源和释放每个需求的。大部分时间,计算资源如处理器,存储器和存储通过商品硬件的虚拟化,这区别于其它云计算分配技术。另一个用这种技术的,目的是处理和存储非常大量的数据,其也被称为大数据。有时,云平台被的异常和缺陷会影响大数据应用的表现并导致在云的使用中的性能弱化。大数据的一个巨大挑战是如何分析大数据应用程序的表现,以确定影响他们的应用质量的主要因素是什么。性能分析结果是非常重要的,因为它们有助于检测的应用程序的退化以及云的来源。此外,这样的结果可在未来的资源规划阶段中使用,在服务级别设计方面,或只是简单地提高应用软件.这提出一种性能分析模型的大数据应用,其中包括ISO 25010集成软件质量的概念。这项工作的主要目的就是为了填补软件工程的质量概念定量(数值)表示和大数据应用的性能测量之间存在的差距。对于这一点,我们建议使用统计方法,建立测量从大数据应用云计算平台和软件工程的质量概念提取业绩之间的关系。
介绍
根据ISO小组委员会38号(CC研究小组),云计算(CC)是一个范例,能实现无处不在的,便捷的,按需的网络访问,通过访问服务配置的云资源,可以以最少的管理和服务提供商来快速配置和发布一滩可配置的云服务资源工作。
相互作用[1]。其中一个CC的挑战是如何处理并存储在一个高效率和可靠的方式大量数据(也称为大数据BD)。 ISO小组委员会32号,下一代分析和大数据研究组,指出大数据是从结构化资料与传统的分析对多种类型的复杂信息分析的过渡。此外,该集团还提到,大数据利用云资源来管理大量的数据量是从多个来源[2]中提取的。在2012十二月,国际数据公司(IDC)指出,到2012年年底,所产生的总的数据是2.8泽字节(ZB)(2.8万亿千兆字节)。此外,IDC预测,到2020年产生的总数据为40 ZB。这大约相当于5.2万亿字节的数据(TB)是由活在这一年[3]的每个人产生的。
大数据的应用程序(BDA)是由平台、工具的手段和机制,用于并行和分布式处理方式的方法去处理分开的这么大量的数据。 ISO32号小组中提到的BD分析已成为数据仓库的主要驱动应用中,其使用MapReduce外侧和数据库管理系统的内部和自助服务数据集市[2]。 MapReduce是由谷歌开发的,处理和生成大型数据集的用于开发BDA的编程模型之一。
有时,在云计算系统(CCS)的平台上发现的异常和缺陷会影响BDA的表现而影响整个分析模型。平台分析模型(PAM)为BDA分析表在CC中应该提出来识别和量化的手段吗?或者是正常的应用程序的行为? 这可以作为在软件中检测和预测可能发生的异常(即在一个大数据平台的应用程序)的基线可能影响BDA本身。为了能够设计这样PAM进行BDA,需要方法来收集特定性能的必要措施,并且一个性能框架必须被用来确定这些措施中存在的关系。
一个在设计PAM进行BDA的挑战是如何确定的国际标准,例如ISO25010中定义的各种基措施和性能质量概念之间存在什么样的关系[4]。例如,什么是物理内存使用的BDA和软件工程的性能品质的概念,如资源利用率或容量量之间的关系有多大?所以,这项工作提出了利用统计方法,以确定如何密切性能参数(基本措施)都与软件工程的性能概念。
本文的结构如下。相关工作andbackground部分介绍有关BDA的性能测量的概念,并介绍了MapReduce编程模型。此外,背景技术部分给出的性能测量框架云计算(MFCC),它描述了关键的性能的概念和子概念的最好代表的CCS的性能。分析模型部分,给出了方法的研究跻身于PMFCC确定的性能概念的关系。基于实验设计的Taguchi法的实验方法,用于和提供改善的产品性能的质量的装置。实验部分提供了一个实验,其中分析BDA的性能因子之间的关系的结果,云计算平台(CCP)和性能的概念中标识的PMFCC。最后,结论部分提出了一个综合本研究的结果,并提出了今后的工作。
BDA的措施,CCP的性能和软件工程的质量概念之间的关系
为确定性能度量BDA,以及性能的概念和在PMFCC定义的子概念之间的关系的程度(图4)。
首先,有必要映射测量从BDA和中共性能上预先定义的性能质量的概念。对于这一点,措施需要通过从MapReduce的日志文件和系统监控工具提取的数据的装置,被收集(见表1)。这个数据是从一个Hadoop集群,这是在其中在CCS运行云平台获得。
一旦被收集措施的性能,它们被映射到由在ISO 25023. ISO 25023中定义的式的装置中PMFCC定义的性能的概念 - 系统和软件产品质量的测量,提供了一组质量措施的特性可用于指定要求,测量和评估系统/软件产品质量[17]系统/软件产品。它提到,这样的公式,适于根据测量从BDA和中共为了表示在相干形式的不同概念收集到的不同的性能是重要的。表2列出的措施被映射到PMFCC概念和子概念后,不同的BDA与CCP的性能。
选择的关键PMFCC概念来表示BDA的性能
一旦测量从BDA和中共提取的性能被映射到的性能质量概念(见表2),下一个步骤是选择一组PMFCC的键子概念,最能代表BDA的性能。对于这一点,两种技术的特征选择被使用,以确定最相关的.
从数据set.According到坎塔尔季奇功能(MFCC子概念)[18],特征选择一组选择构建健壮的学习模型相关的功能(PMFCC子概念)从data.Kantardzic移除最不相关和冗余功能技术规定,特征选择算法通常分为两类:功能的排名和子集选择。功能排名中居所有功能由特定的基础措施,消除不达到足够的分数,而子集选择,搜索一套在选定的功能没有被排名最佳的子集所有功能的所有功能。下一小节呈现特征排名其用于在PAM进行BDA,以确定最相关的性能的子概念(功能),该最能代表BDA的性能两种技术。
特征选择基于对装置的比较和方差基于的均值和方差的比较的特征选择是基于值的分布一个给定的功能,在此,有必要计算的平均值和对应的方差。在一般情况下,如果一个特征描述不同类别的实体,两个不同的类的样本可以被检查。特征值的装置由它们的方差归一化,然后进行比较。如果手段是相距甚远,在功能增加的兴趣:它有潜力,在其两个类之间的区分使用条款。如果手段是无法区分的,感兴趣的阴晴圆缺的该功能。
要素的平均值相比,在这两种情况下,没有考虑到关系到其他功能。在接下来的等式正规化了测试,其中A和B是集合的特征值的测量为两个不同的类,并且n1和n2是样本的相应数目:
在这种方法的特征选择,假定一个给定的功能是独立于其它的。手段比较通常是天作之合分类问题。对于k类,K成对比较可以做,每个班有它的补比较。的特征被保留,如果它是为任何的成对比较显著如式2。
结论
本文介绍了我们的研究,其中提出了一个性能分析模型大应用的结论是什么? PAM的BDA。本性能分析模型是基于一个测量框架用于CC,这已经由研究人员验证和practitioners.Such框架定义必要测量使用软件质量概念的CCS的性能的元素。该框架的设计是基于计量的概念,以及软件质量方面直接相关的性能的概念,这在ISO25010的国际标准得到满足。
该措施的性能是相关的,以及它们在的BDA性能分析影响的程度。这意味着,关键的设计问题是确定哪些性能措施是相互关联的,多少他们的每一个在PMFCC定义的性能的概念贡献。为了应对这一挑战,我们建议使用基于实验的设计结合传统的统计方法田口?的方式方法的。
进行了实验,以分析测量的几个MapReduce的应用程序的性能,并表现概念最好代表CCP和BDA的性能,例如CPU的处理时间和时间行为之间的关系。我们发现,当一个应用程序正在开发中的MapReduce编程模型将在实验中共执行时,在实验的性能是通过两个主要性能的概念来确定;时间行为和资源利用率。性能分析的结果表明,措施涉及这些概念的主要表现是:处理时间,作业周转和硬盘字节写入。因此,这些措施,必须考虑到,为了提高应用程序的性能。
最后,预期这将是可能的,在此基础上工作,提出了一种稳健的模型在未来的研究,这将能够分析Hadoop集群行为在生产环境中的CC由所提出的分析模型的装置。这将允许实时检测影响CCP和BDA表现异常。
外文文献出处:
http://link.springer.com/article/10.1186/s13677-014-0019-z
附外文文献原文:
Performance analysis model for big data
applications in cloud computing
Luis Eduardo Bautista Villalpando1,2*, Alain April2 and Alain Abran2
Abstract
The foundation of Cloud Computing is sharing computing resources dynamically allocated and released per demand with minimal management effort. Most of the time, computing resources such as processors, memory and storage are allocated through commodity hardware virtualization, which distinguish cloud computing from others technologies. One of the objectives of this technology is processing and storing very large amounts of data, which are also referred to as Big Data. Sometimes, anomalies and defects found in the Cloud platforms affect the performance of Big Data Applications resulting in degradation of the Cloud performance. One of the challenges in Big Data is how to analyze the performance of Big Data Applications in order to determine the main factors that affect the quality of them. The performance analysis results are very important because they help to detect the source of the degradation of the applications as well as Cloud. Furthermore, such results can be used in future resource planning stages, at the time of design of Service Level Agreements or simply to improve the applications.This paper proposes a performance analysis model for Big Data Applications, which integrates software quality concepts from ISO 25010. The main goal of this work is to fill the gap that exists between quantitative (numerical) representation of quality concepts of software engineering and the measurement of performance of Big Data Applications. For this, it is proposed the use of statistical methods to establish relationships between extracted performance measures from Big Data Applications, Cloud Computing platforms and the software engineering quality concepts.
Keywords: Cloud computing; Big data; Analysis; Performance; Relief algorithm; Taguchi method; ISO 25010;Maintenance; Hadoop MapReduce
Introduction
According to ISO subcommittee 38, the CC study group,Cloud Computing (CC) is a par
剩余内容已隐藏,支付完成后下载完整资料
性能分析模型,用于云计算的大数据应用
原文作者 Luis Eduardo Bautista Villalpando1,2*, Alain April2 and Alain Abran
摘要
云计算的基础,是以最小的管理工作来共享计算资源和释放每个需求的。大部分时间,计算资源如处理器,存储器和存储通过商品硬件的虚拟化,这区别于其它云计算分配技术。另一个用这种技术的,目的是处理和存储非常大量的数据,其也被称为大数据。有时,云平台被的异常和缺陷会影响大数据应用的表现并导致在云的使用中的性能弱化。大数据的一个巨大挑战是如何分析大数据应用程序的表现,以确定影响他们的应用质量的主要因素是什么。性能分析结果是非常重要的,因为它们有助于检测的应用程序的退化以及云的来源。此外,这样的结果可在未来的资源规划阶段中使用,在服务级别设计方面,或只是简单地提高应用软件.这提出一种性能分析模型的大数据应用,其中包括ISO 25010集成软件质量的概念。这项工作的主要目的就是为了填补软件工程的质量概念定量(数值)表示和大数据应用的性能测量之间存在的差距。对于这一点,我们建议使用统计方法,建立测量从大数据应用云计算平台和软件工程的质量概念提取业绩之间的关系。
介绍
根据ISO小组委员会38号(CC研究小组),云计算(CC)是一个范例,能实现无处不在的,便捷的,按需的网络访问,通过访问服务配置的云资源,可以以最少的管理和服务提供商来快速配置和发布一滩可配置的云服务资源工作。
相互作用[1]。其中一个CC的挑战是如何处理并存储在一个高效率和可靠的方式大量数据(也称为大数据BD)。 ISO小组委员会32号,下一代分析和大数据研究组,指出大数据是从结构化资料与传统的分析对多种类型的复杂信息分析的过渡。此外,该集团还提到,大数据利用云资源来管理大量的数据量是从多个来源[2]中提取的。在2012十二月,国际数据公司(IDC)指出,到2012年年底,所产生的总的数据是2.8泽字节(ZB)(2.8万亿千兆字节)。此外,IDC预测,到2020年产生的总数据为40 ZB。这大约相当于5.2万亿字节的数据(TB)是由活在这一年[3]的每个人产生的。
大数据的应用程序(BDA)是由平台、工具的手段和机制,用于并行和分布式处理方式的方法去处理分开的这么大量的数据。 ISO32号小组中提到的BD分析已成为数据仓库的主要驱动应用中,其使用MapReduce外侧和数据库管理系统的内部和自助服务数据集市[2]。 MapReduce是由谷歌开发的,处理和生成大型数据集的用于开发BDA的编程模型之一。
有时,在云计算系统(CCS)的平台上发现的异常和缺陷会影响BDA的表现而影响整个分析模型。平台分析模型(PAM)为BDA分析表在CC中应该提出来识别和量化的手段吗?或者是正常的应用程序的行为? 这可以作为在软件中检测和预测可能发生的异常(即在一个大数据平台的应用程序)的基线可能影响BDA本身。为了能够设计这样PAM进行BDA,需要方法来收集特定性能的必要措施,并且一个性能框架必须被用来确定这些措施中存在的关系。
一个在设计PAM进行BDA的挑战是如何确定的国际标准,例如ISO25010中定义的各种基措施和性能质量概念之间存在什么样的关系[4]。例如,什么是物理内存使用的BDA和软件工程的性能品质的概念,如资源利用率或容量量之间的关系有多大?所以,这项工作提出了利用统计方法,以确定如何密切性能参数(基本措施)都与软件工程的性能概念。
本文的结构如下。相关工作andbackground部分介绍有关BDA的性能测量的概念,并介绍了MapReduce编程模型。此外,背景技术部分给出的性能测量框架云计算(MFCC),它描述了关键的性能的概念和子概念的最好代表的CCS的性能。分析模型部分,给出了方法的研究跻身于PMFCC确定的性能概念的关系。基于实验设计的Taguchi法的实验方法,用于和提供改善的产品性能的质量的装置。实验部分提供了一个实验,其中分析BDA的性能因子之间的关系的结果,云计算平台(CCP)和性能的概念中标识的PMFCC。最后,结论部分提出了一个综合本研究的结果,并提出了今后的工作。
BDA的措施,CCP的性能和软件工程的质量概念之间的关系
为确定性能度量BDA,以及性能的概念和在PMFCC定义的子概念之间的关系的程度(图4)。
首先,有必要映射测量从BDA和中共性能上预先定义的性能质量的概念。对于这一点,措施需要通过从MapReduce的日志文件和系统监控工具提取的数据的装置,被收集(见表1)。这个数据是从一个Hadoop集群,这是在其中在CCS运行云平台获得。
一旦被收集措施的性能,它们被映射到由在ISO 25023. ISO 25023中定义的式的装置中PMFCC定义的性能的概念 - 系统和软件产品质量的测量,提供了一组质量措施的特性可用于指定要求,测量和评估系统/软件产品质量[17]系统/软件产品。它提到,这样的公式,适于根据测量从BDA和中共为了表示在相干形式的不同概念收集到的不同的性能是重要的。表2列出的措施被映射到PMFCC概念和子概念后,不同的BDA与CCP的性能。
选择的关键PMFCC概念来表示BDA的性能
一旦测量从BDA和中共提取的性能被映射到的性能质量概念(见表2),下一个步骤是选择一组PMFCC的键子概念,最能代表BDA的性能。对于这一点,两种技术的特征选择被使用,以确定最相关的.
从数据set.According到坎塔尔季奇功能(MFCC子概念)[18],特征选择一组选择构建健壮的学习模型相关的功能(PMFCC子概念)从data.Kantardzic移除最不相关和冗余功能技术规定,特征选择算法通常分为两类:功能的排名和子集选择。功能排名中居所有功能由特定的基础措施,消除不达到足够的分数,而子集选择,搜索一套在选定的功能没有被排名最佳的子集所有功能的所有功能。下一小节呈现特征排名其用于在PAM进行BDA,以确定最相关的性能的子概念(功能),该最能代表BDA的性能两种技术。
特征选择基于对装置的比较和方差基于的均值和方差的比较的特征选择是基于值的分布一个给定的功能,在此,有必要计算的平均值和对应的方差。在一般情况下,如果一个特征描述不同类别的实体,两个不同的类的样本可以被检查。特征值的装置由它们的方差归一化,然后进行比较。如果手段是相距甚远,在功能增加的兴趣:它有潜力,在其两个类之间的区分使用条款。如果手段是无法区分的,感兴趣的阴晴圆缺的该功能。
要素的平均值相比,在这两种情况下,没有考虑到关系到其他功能。在接下来的等式正规化了测试,其中A和B是集合的特征值的测量为两个不同的类,并且n1和n2是样本的相应数目:
在这种方法的特征选择,假定一个给定的功能是独立于其它的。手段比较通常是天作之合分类问题。对于k类,K成对比较可以做,每个班有它的补比较。的特征被保留,如果它是为任何的成对比较显著如式2。
结论
本文介绍了我们的研究,其中提出了一个性能分析模型大应用的结论是什么? PAM的BDA。本性能分析模型是基于一个测量框架用于CC,这已经由研究人员验证和practitioners.Such框架定义必要测量使用软件质量概念的CCS的性能的元素。该框架的设计是基于计量的概念,以及软件质量方面直接相关的性能的概念,这在ISO25010的国际标准得到满足。
该措施的性能是相关的,以及它们在的BDA性能分析影响的程度。这意味着,关键的设计问题是确定哪些性能措施是相互关联的,多少他们的每一个在PMFCC定义的性能的概念贡献。为了应对这一挑战,我们建议使用基于实验的设计结合传统的统计方法田口?的方式方法的。
进行了实验,以分析测量的几个MapReduce的应用程序的性能,并表现概念最好代表CCP和BDA的性能,例如CPU的处理时间和时间行为之间的关系。我们发现,当一个应用程序正在开发中的MapReduce编程模型将在实验中共执行时,在实验的性能是通过两个主要性能的概念来确定;时间行为和资源利用率。性能分析的结果表明,措施涉及这些概念的主要表现是:处理时间,作业周转和硬盘字节写入。因此,这些措施,必须考虑到,为了提高应用程序的性能。
最后,预期这将是可能的,在此基础上工作,提出了一种稳健的模型在未来的研究,这将能够分析Hadoop集群行为在生产环境中的CC由所提出的分析模型的装置。这将允许实时检测影响CCP和BDA表现异常。
外文文献出处:
http://link.springer.com/article/10.1186/s13677-014-0019-z
附外文文献原文:
Performance analysis model for big data
applications in cloud computing
Luis Eduardo Bautista Villalpando1,2*, Alain April2 and Alain Abran2
Abstract
The foundation of Cloud Computing is sharing computing resources dynamically allocated and released per demand with minimal management effort. Most of the time, computing resources such as processors, memory and storage are allocated through commodity hardware virtualization, which distinguish cloud computing from others technologies. One of the objectives of this technology is processing and storing very large amounts of data, which are also referred to as Big Data. Sometimes, anomalies and defects found in the Cloud platforms affect the performance of Big Data Applications resulting in degradation of the Cloud performance. One of the challenges in Big Data is how to analyze the performance of Big Data Applications in order to determine the main factors that affect the quality of them. The performance analysis results are very important because they help to detect the source of the degradation of the applications as well as Cloud. Furthermore, such results can be used in future resource planning stages, at the time of design of Service Level Agreements or simply to improve the applications.This paper proposes a performance analysis model for Big Data Applications, which integrates software quality concepts from ISO 25010. The main goal of this work is to fill the gap that exists between quantitative (numerical) representation of quality concepts of software engineering and the measurement of performance of Big Data Applications. For this, it is proposed the use of statistical methods to establish relationships between extracted performance measures from Big Data Applications, Cloud Computing platforms and the software engineering quality concepts.
Keywords: Cloud computing; Big data; Analysis; Performance; Relief algorithm; Taguchi method; ISO 25010;Maintenance; Hadoop MapReduce
Introduction
According to ISO subcommittee 38, the CC study group,Cloud Computing (CC) is a par
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[287247],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
