GreenPlum并行查询优化策略的研究与应用外文翻译资料

 2022-10-26 10:50:47

英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料


Greenplum 数据库:

临界质量创新

架 构 白 皮 书 2010年8月

白皮书

Greenplum 数据库:

临界质量创新

目录

Greenplum 数据库: 1

正在面临数据驱动的世界的挑战 2

数据上的比赛,洞察力上的角逐 2

Greenplum 数据库: 临界质量创新 2

Greenplum数据库架构 2

无分享的大规模并行处理架构 2

数据分布与并行扫描 2

多层次的容错性的自我修复 2

并行查询优化器 2

gnet 软件互连 2

并行的数据流引擎 2

本机Mapreduce处理 2

MPP分散/收集流trade;技术 2

多态数据存储trade; 2

先进的工作负载管理 2

Greenplum数据库的主要特点和优点 2

1 www.greenplum.com

白皮书

正在面临数据驱动的世界的挑战

数据上的比赛,洞察力上的角逐

数据源和交易量的持续爆炸压力和超过传统的数据管理和分析架构的可伸缩性。几十年旧的遗留数据管理架构和分析在本质上是不适合扩展到今天的大数据量的。这些系统需要在庞大的资源和技术支出上投入大量费用去介入一场为了跟上需求更快的智慧和时间更深的洞察力的败局。

在今天的商业气候中,每一个领导机构发现了自己的数据业务的价值。每次点击,电话,或由用户事务,或者其他商业活动,数据生成,可以促进业务的综合知识。从这个数据可以洞察,可以帮助企业更好地了解客户,发现问题,改善其操作,降低风险,或者生成的商务价值。

企业也许在某一次捕捉了看起来显然是“重要”的数据,并把其余的扔掉,今天的领头企业明白,他们的那些数据有着更加的深入的价值。哪些部分数据的保留以及哪些需要抛弃的数据的决定-这方面,这并不难以看出这些“抛弃数据”在未来将被证明其价值。据行业分析师Richard Winter分析,结果是,企业必须尽可能存储并分析最详细级别的数据如果他们希望能够执行各种常见的商业策略。结合保持在5到7年或更长时间利率的增加, 典型的数据量增长以每年1.5至2.5倍并不奇怪。

甚至这个数据也没有告诉整个故事。然而,展望未来,许多企业意识到他们未来的竞争力将取决于新的商业策略和在今天都可能无法直接获得的数据需求量上的更深入的见解。预计五年,企业不应该感到惊讶,如果他们想要存储和分析一个快速增长的100倍或更多大于今天的数据池的大小的数据池。除此以外,分析的深度和复杂性对数据业务提出的问题只能预期增长。

Greenplum的重点是成为下一代数据仓库和大规模分析处理的数据库软件的领先供应商。公司为大规模的分析(允许客户建立仓库,利用低成本商品服务器、存储和网络交互经济规模的PB量数据)提供了一个新的大规模破坏性的经济模型。

从性能的角度来看,摩尔定律的发展意味着越来越多的处理核心正在挤进每一个CPU。数据量增长速度快于摩尔定律的预期,然而,所以随着时间的推移公司添加新的系统节点需要计划增加系统的容量和性能。为了满足这种需求,Greenplum在不断增长的机器上使得扩展和利用成百上千的核心的并行度变得简单。Greenplum大规模并行,无共享架构充分利用每个核心,线性可伸缩性和无与伦比的处理性能。

1Richard Winter, “数据仓库的增长为什么如此迅速?一个更新的数据仓库增长的推动力。”。

http://www.b-eye-network.com/view/7188

  1. www.greenplum.com

白皮书

Greenplum 数据库: 临界质量创新

Greenplum数据库是一个软件解决方案用于构建支持下一代的数据仓库和大规模的分析处理。支持SQL和

MapReduce 并行处理,数据库为公司在较低的成本下对TB,PB数据量提供业界领先的性能功能服务。

Greenplum数据库,主要发布的行业领先的大规模并行处理(MPP)数据库产品,代表了经过七年多的先进的研究和发展的一个在行业上最受人推崇的数据库工程团队的新高度。

在这个版本中,Greenplum巩固了其作为唯一的下一代数据库软件供应商达到临界质量和成熟度在所有方面需要一个企业级的分析/数据仓库DBMS平台。在所有的七个柱状图(图1),Greenplum数据库拥有或超越了遗留数据库(如Teradata、Oracle和IBM DB2)的功能,交付一个更具成本效益和可伸缩的架构和交付模型。

临界质量创新

管理和监视

第三方ISV认证

嵌入式语言/分析

容错性

工作负载管理

数据加载

复杂的查询优化

图1. 分析DBMS临界质量创新的七个柱状图

Greenplum数据库有别于其他产品在三个关键领域:

扩展性

  • 从数百GB数据中选取最大的多重PB数据量的数据仓库-衡量不再是一个障碍
  • 独特的装置准备后纯软件方法着手处理

可伸缩性的扩展以及容错性的自我修复

  • 联网时添加服务器去增加更多的存储容量以及提升性能
  • 用来适应所有级别的服务器,网络和存储失败的可靠性和可用性的特性

统一的分析

  • 适用于仓储,商业中心,英语教学,文本挖掘和统计计算的单一平台
  • 支持并行分析任何数据,各级使用SQL,MapReduce,R,等等
  1. www.greenplum.com

白皮书

Greenplum数据库架构

无分享的大规模并行处理架构

Greenplum数据库利用无共享,大规模并行处理(MPP)体系结构,设计了商业智能和分析处理。大多数今天的通用关系数据库管理系统是专为在线事务处理(OLTP)的应用程序。由于这些系统都是销售支持数据仓库和商业智能(BI)的应用程序,他们的客户已经不可避免地继承了这个不太理想的架构。现实情况是,商业智能(BI)和分析工作负载从根本上不同于OLTP事务工作负载,因此需要一个截然不同的体系结构。

OLTP事务工作负载需要快速访问和更新一套小的记录。这个工作通常是在磁盘上的局部区域执行,与一个或少量的并行单位。“分享所有”的架构中,处理器共享一个大型的磁盘和内存,非常适合于OLTP工作负载。共享磁盘的架构,比如Oracle RAC,在OLAP上可以有效的使用,因为每个服务器可以独立的查询和处理它们的一个子集通过共享磁盘子系统独立同时确保一致性。

然而,“分享所有”和共享磁盘的架构正迅速被全表扫描,多个复杂的表连接,排序,针对代表最多的BI和分析工作量的海量数据排序和聚合操作所压倒。这些架构并不用于执行复杂BI和分析查询的多级并行处理执行,往往由于失败的查询计划利用并行性,缺乏总体I / O带宽和效率低下的运动之间的数据节点而导致瓶颈。

查询规模与调度

查询处理和数据存储

加载,串流等

图2. GREENPLUM的大规模并行处理(MPP)“无分享”的架构

  1. www.greenplum.com

白皮书

超越这些限制,Greenplum组装一个世界领先的数据库专家团队,建立了一个无共享大规模并行处理数据库,而设计的实现最高水平的并行性和效率为复杂的BI和分析处理。在此体系结构中,每个单元作为一个独立的数据库管理系统,拥有和管理的整体数据的一部分。系统会自动将数据和对查询工作负载分布在所有可用的硬件。

Greenplum数据库无共享架构在每个片段服务器端将数据的物理存储分割成一些小单元(图2),每个服务器都有一个专门的、独立的、高带宽通道连接到本地磁盘。片段服务器能够使用完全并行的方式处理每一个查询,同时使用所有磁盘连接,在段之间有效流动数据段作为查询计划决定。因为无共享数据库自动分配在所有可用的数据,使查询工作负载在硬件上并行,他们明显对BI和分析工作量运用通用数据库系统。

数据分布与并行扫描

某一个关键特性,使得Greenplum数据库规模线性和达到如此高的性能是能够利用完整的每个系统的本地磁盘I / O带宽。典型的配置可以实现每秒从1到多2.5 GB的速度持续每台机器的I / O带宽。这个速度是可扩展的,总体I / O带宽可以线性增加通过简单地增加节点而不用为一个饱和SAN/共享存储底板而担忧。

此外,不需要特殊的调优,以确保数据是分布在节点有效的并行访问。当创建一个表,用户可以简单地指定一个或多个列作为“hash散列分布”键,或者用户可以选择使用随机分布。对于每一行的数据插入,系统计算每列数值的hash散列值, 以确定哪些系统数据应该存储的地方。在绝大多数情况下,数据将被同样平衡所有的片段系统(图3)。

并行加载和散列分布

输入数据

图3. 自动基于hash散列的数据分布

一旦数据在系统中,表扫描的过程大大快于其他架构,因为没有一个节点需要完成所有的工作。所有片段并行工作和扫描表的一部分,允许使用小部分时间顺序的方法扫描整个表。用户没被迫要求使用聚合和索引实现性能-他们可以直接扫描表,并在极短的时间里得到答案。

  1. www.greenplum.com

白皮书

当然有些时候指标很重要,比如在单行查找或过滤或分组基数列。Greenplum数据库提供了一系列的指数类型,包括b -树和位图索引,这些完全满足这些需求。

另一个非常强大的技术:多级表分区,可供与Greenplum数据库使用。这种技术在每节点基于一个或多个日期范围,或列表值,允许用户非常大的表分解成片段。这个分解是超越前面描述的hash散列分解,允许系统扫描的子集片段可能相关的查询。例如,如果一个表被月份分区(图4),那么每个月每一节点将会作为片段来存储这个表。扫描记录4月和5月仅需要这两个片段在每个节点扫描,自动减少大量需要在每段响应查询执行的工作。

Jan 2008

Feb 2008

Segment 1

Segment 2

Segment 3

Segment 4

Segment

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[153859],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版