

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
探索大数据分析:关于基本的科学问题
摘要:尽管大数据已经是近几年最流行的话题之一,可是如何有效地进行大数据分析任然是各个领域面对的巨大的挑战。本文试图解决一些大数据分析中遇到的基本问题,比如机会,挑战,以及对遇到的困难进行分析。大数据分析面对的挑战来自多个领域,包括管理科学如何影响数据采集,数据管理、数据访问,信息科学处理,工程数学对于数据的理解分析。本文概述了六个大数据上开放研究的问题。它还报告对当前大数据研究进展,特别是在高维数据和非结构化数据的处理。最后,评价如何开发一个大数据算法。
关键词:大数据分析;大数据算法;开放挑战;
一 背景介绍
在2001年 Gartner公司发布了其“3Vs (体积、速度和品种)大数据描述的问题“之后,大数据就开始在所有的领域中逐步讨论。过去4年里,它已经成为一个热门话题。然而,目前为止还没有一个统一的大数据定义,在学术界和商业界对大数据的解释是不同的。美国国家科学基金会将大数据描述为“多样化,复杂化的,来自仪器、传感器、网络交易、电子邮件、视频、点击流以及所有其他的数字来源而产生的纵向和/或分布式数据集。”而维基百科说:”大数据是一种全面的,庞大的,复杂的,难以使用传统的数据处理数据集“。值得一提的是北京象山科学大会上,国际学者头脑风暴会议组对大数据进行了定义。第一个为学术界和企业界定义,是“数据的收集具有复杂性,多样性,异质性,高潜在价值性,在合理的时间内处理和分析是困难的数据集“,其次是为政府定义”数字时代的新型战略资源及其推动创新的关键因素,正在改变人类的生产和生活方式的数据集“。研究人员和专业人士普遍同意使用“4Vs”描述大数据主要特征的多样性和准确性。
大数据使我们能够充分利用结构化,半结构化与/或非结构化数据作出决定。因为它利用了数据体现了伟大的价值观。大数据利用快速升级的信息技术,预测未来从而为各个领域提供了一个巨大的机会。例如,科学研究利用大数据可以在高能物理,天文学,生命科学,地球科学与遥感来提高他们的预测能力。决策者可以利用大数据系统的来评估公共政策和策略,同时商业公司利用大数据探索收益/收入,有价值的客户发现,和市场份额等。
不幸的是,目前的信息技术仍然缺乏对“4Vs”大数据的处理能力。当数据达到PB的Zettabyte规模、许多数据所有者(无论是学术界还是企业界)认为分布式存储和处理是必要的,但却是一个昂贵的投资。对于“速度”,由于数据流在很短的时间内快速的增长,设备和软件收集大数据需要灵活的响应,这可能超越现有的许多数据所有者的能力。对于“品种”,不同的大数据类型,如多源、异构、非结构化的关系,不可靠、不一致的数据要求较高的效率和数据库容量管理环境。最后,对于“价值”,因为大多数现有的数据挖掘或知识发现算法(工具)只能处理结构化数据,它是很难利用目前的算法找到的价值的大数据。
在本文中,我们将提出一些在大数据分析中基本的科学问题,如:在分析中遇到的挑战和困难。2节本文将介绍来自多个领域,包括管理科学如何影响数据采集和数据管理,信息科学的挑战上升对于数据的访问和处理,数学和统计数据的理解和数据应用工程。第3节将提出六个开放的研究问题大数据。第4节将报告一些进展,目前的大数据研究,特别是在高维数据和非结构化数据处理。最后,第5节将为大数据算法和分析提供备注和未来的期望。
二 大数据分析中的挑战
大数据分析的过程可可以概括为几个步骤,包括数据采集和管理,数据访问和处理,数据挖掘和解释,以及数据应用(图1)。
然而,由于大数据“4Vs”的特点,在这个过程中每个步骤的活动都会面临
挑战。多学科领域的技术需要应用在面对这些挑战。
第一个根本性的挑战是如何有效地获取、存储、采集与管理大数据。大多数大数据表示为半结构化和非结构化格式。MapReduce (Hadoop)可以用来获得大数据,传统的数据采集对计算机科学的管理应加强对人的认知管理。例如,使用大数据的组织策略必须在进行大数据采集之前考虑。大数据的基本设计基础和管理应建立在数据能力,价值,道德,所有权,政策,质量保证等。在管理科学的帮助下,大数据可以作为一个重要的角色,我们作出有效的决定。
第二个根本性的挑战是与大数据的访问和处理有关。大数据的复杂格式和特点导致了评估的难度,特别是大数据的中处理数据挖掘和解释的数据。许多现有技术的信息科学已经准备好应对这一挑战。由于大多数数据挖掘或机器学习算法构造用来处理结构化数据,它们不能直接分析大规模的半结构化和非结构化数据。目前的信息技术还缺乏计算大容量半结构化和非结构化数据的能力,如在合理的时间内处理数以百万计的文本文件,图像。要做到这一点,我们必须找到一种方法来改造半结构化和非结构化数据将其变为结构化数据或伪结构化格式。这样它可以被许多已知的数据挖掘或机器学习算法分析。这个转换过程可以通过使用现有的信息检索来完成。对于一个给定的转换的目标,一些信息检索算法可以将每个文本文件转换为带有一个“结构化或伪结构化格式”属性的记录。同样,一个图像可以通过使用一个已知的模式识别算法来改变转换格式记录。可以观察到,每当转换目的是改变,结构化或伪结构化的格式将不同。因此,信息科学的知识可以有效地应用于处理大数据访问和处理问题。
第三个根本的挑战是如何利用大数据挖掘和解释数学和统计的规则和原则。在数学和统计中将所有可能的方法来大数据分析。例如,建模方法是可以用来父空间识别和采样,聚类,分类,回归,预测和变量数据挖掘方法;相关性分析;潜在变量分析和统计推断;分析方法;子抽样、复杂度和分布计算方法计算的选择。这样的挑战用来了解什么方法在特定的大数据挖掘的情况下使用是适当的。因为大数据转型须预先确定的目的,它可以选择一种数据挖掘或知识发现的方法。像传统的数据挖掘程序,这样的大数据的分析方法选在实验设计的多数情况下开采使用。然而,大数据挖掘的结果必须是相互作用的,与用户的判断,知识的变化与个人的原因和情况有着密切的关系。为了让用户更好地理解从大数据挖掘到知识,不同的表示或可视化方法可以被使用到,如均匀方案可以用来显示简单的版本以及大数据复杂度。
第四个基本的挑战是如何运用从大数据分析中的知识到现实的生活中。这也许是一个工程问题。工程类一般被定义为“科学,经济,社会,和实践的应用知识,以发明,设计,建造,维护,研究和改善结构,机器,设备,系统,材料和工艺的手段“。在大多数情况下利用大数据知识,要做的是加强当前阶段的科学,经济,或社会条件。数据驱动的决定最终成为最可靠的解决问题的方法。一个对大数据的应用很好的工程设计,将自然会产生更好的结果,社会经济利益。
三 大数据研究的开放性问题
本节概述了大数据分析和处理中的一些科学问题。作为处理大数据的努力的一部分,它提醒我们,这些问题是什么。作者认为,它们是迫切需要解决的。
问题1:高维度
给定一个数据库,当功能的数目是远远大于样本量的,这种情况被称为高维(高清)问题。HD问题频繁出现在医学科学,如DNA扫描。在线性的情况下,一个基本的解决方案可以表现为:考虑一个线性模型y=beta;1x1 beta;2x2 ,···,数据集D={(x1,y1),(x2,y2),hellip;,(xn,yn)}。然后,矩阵格式可以表示为Y =Xntimes;pbeta;ptimes;1与方案中beta; circ; = (X X)minus;1 XY。这是一个渐近正态性radic;n(beta; circ; minus; beta;) sim; N(0, n 1(X X)minus;1sigma; 2)
d→N(0,sigma; 2 I ptimes;p).。有一些最近的解决方法,可以分类为稀疏建模,包括压缩感知,矩阵低秩分解和稀疏学习来处理的高清问题。一些开发的算法可用于处理大数据的高清问题。开放的研究高清问题,问题是如何添加先验,很好的定义高清问题,以及如何找到有效的稀疏建模等,最终,系统地解决高清问题需要一个建立的理论和方法,无论是高清统计或高清数据挖掘。
问题2:子采样
目前的技术,如大数据处理的Hadoop系统的一些类型对divide-and-conquerschemes,子采样技术已被采用。例如,在地图缩小,地图设计,从给定的大型数据库随机子采样的子数据集,一个给定数据库减少聚合的中间解决方案。虽然子样本是大数据处理中的关键概念之一,但任然有许多悬而未决的问题,有很多更先进的技术来开发大数据。例如,如何分采样/聚合,使给出的原始数据库的最终估计模型是正确的数据库?分布式处理是否可行?传统的子采样/重新采样技术工作?是否有子采样公理,如相似和传递?
问题3:计算复杂度
传统上,计算复杂度在于如何了解解决一个问题有多大的难度,或者是有多少难题的都可以解决了。
作为一个例子,如果一个传统的设置可以是一个R = A(P) := A(D),D是数据库,A是一个计算和研究的复杂性。然后一个大的数据设置应该是Rt = At(Dt),在那里所有的D、A和R与时间与成本相关的改变。在这种情况下,核心问题是如何正确定义大数据的复杂性设置?对于一个给定的大数据问题,容易或难以度量的复杂性是什么?如何建立一些特定类型的大数据问题的复杂性理论?
问题4:真实与分布式计算
并行和分布式处理成为必要,这是一个独特的处理大数据方式。这样一个真实与分布式的系统(研发)的主要挑战是来自三个组成部分的关系Hadoop系统处理大数据的计算:分布式文件系统(HDFS),Hadoop是一个运行在商用硬件上的分布式设计的文件系统,HBase和MapReduce是一个开放源代码的,非关系型数据库,分布式数据库。质量测量对于一个真正的分布式计算的Hadoop系统要包括实时性、可行性,效率、可扩展性等。应当指出的是,一些措施是矛盾的。它们之间的相互妥协的标准,是一种寻找一个很好的计算结果。这个地方有一些公开的问题。例如,研发/研发计算支持快速存储/读取/排名?问题分解,可以数据建模问题分解成一系列的子数据集相关的问题?对于解决方案组件,如何将问题的解决方案组合成它的子解(组件解决方案)?在分布式过程中进行,可以向前和增量的步骤进行在线计算?
问题5:非结构化处理
它已被普遍认识到,结构化数据是那些可以表示有有限数量,可以在可接受的时间内处理的。然而,数据是非结构化的(有时也被称为半结构化),这就是最困难的(例如,图像或文本文件名)。面临的主要挑战是处理非结构化数据的多源、异构。在大多数情况下,对数据的理解是来自依赖于认知。在这方面,核心问题是如何建立一个统一的平台,使不同类型的非结构化数据(例如,混合图像、文本、视频和音频)可以同时处理?如何开发非结构化的认知一致的方法数据建模?
问题6:可视化
用视觉一致的图形或图像表现出内在的结构和拍在高清大数据可视化分析是一种挑战。这就需要建立一个人机界面和扩展应用的基本工具。例如,通过使用特征提取,一个高清数据空间可以转化为特征空间低维,然后通过使用可视化技术,后者可以变成可视化的二维或三维空间。关键概念是判断一个好的可视化工具,最终用户可以很容易地理解大数据结果的意思,而不在于任何技术分析。一些用于展示当前可视化技术,如The Second Life(http:/ /SecondLife。com)和video games,可以有效地应用于大数据可视化等。核心问题是:在高清数据(如果说降维)?可以想象思维的结构化表示?怎么构建适当的可视化空间?如何映射特征空间中的问题(或数据空间)在可视化空间中的表示问题?
四 关于大数据研究的一些进展
在高清的问题上,已经取得了进展的是稀疏建模。稀疏性问题可以描述为:存在一个特征量q(x)的问题,例如,q(x)是单一的(即小于正常)。三个阶段去处理高清问题。第一阶段是求q(x)的标准格式;第二阶段是寻找所有的q(x)的{Rank (X), Trace (X), Card(X)},如最小等级Rank (L) Card (E) s.t. Y = A(L E)。第三阶段是识别q(X) ={Trank(X), Card(X)}。几个理论发展的稀疏建模,阈值基于L1/2正则表示理论现在已被公认为是一种有用的方法。这种建模技术是从线性到非线性的情况下扩展,从第一阶段问题到高阶的不受约束的情况。
在高清问题中也有了聚类稳定性的进展。聚类分析是根据数据相似性对分组进行分类。它可以被看作是模式识别的基础。基本聚类K-means的方法。
一个传统的K-means方法是C = K(D) = arg minS i xisin;Si d(x minus; mu;i),然后给出一个数
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[29458],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
