

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
大数据挖掘
摘要——大数据关注大容量、复杂、日益成倍增加的数据集,自主的数据源。随着网络、数据存储和数据收集能力的快速发展,,大数据在全科学和工程领域正在迅速扩大,包括物理、生物和生物医学科学。这篇论文提出了HACE定理,从大数据挖掘的角度描述了大数据革命的特性,提出了大数据处理模型。这个数据驱动模型涉及信息源、挖掘和分析、用户兴趣建模、安全和隐私保护的需求驱动聚合。我们分析的挑战性问题在于数据驱动模型和大数据革命。
关键词——大数据、数据挖掘、异质性、自治源、复杂发展联合
1背景介绍
莫言博士获得了2012年诺贝尔文学奖。这可能是在这个范畴里最具争议的一次诺贝尔奖。在谷歌上搜索“严莫诺贝尔奖”,导致1050000网页在互联网上的指针(截至2013年1月3日)。赞扬和批评,莫最近说,“我很感激。rsquo;对于所有的赞扬或者批评,我非常感激。到底莫实际收到了什么类型的赞誉和批评在他31年的写作生涯?通过在互联网上和各种各样的新闻媒体不断出现的评论,我们可以总结所有类型的观点在不同的媒体以实时的方式,包括更新、相互参照讨论批评?这种类型的总结对大数据处理程序是一个很好的例子,随着信息来自多个异构、自治源复杂,复杂进化关系,并持续增长。
除了上面的例子中, 在过去的两年里[26]大数据的时代已经到了[37],[34],[29]每天250亿亿字节的数据创建和当今世界90%的数据生产。我们对数据生成的能力从未如此强大和巨大的自在19世纪早期信息技术的发明。另外一个例子,2012年10月4日,美国总统巴拉克bull;奥巴马和州长罗姆尼之间的第一次总统辩论在2小时内引发了超过1000万条[46]。在所有这些推特在特定时刻生成了最热烈的讨论,实际上揭示了公众的兴趣,如医疗保险和教育优惠。这样的在线讨论提供一种新的手段意义上,公共利益并生成实时反馈,和大多有吸引力而通用的媒体,如无线电或电视广播。另一个例子是Flickr,一个公开照片共享的网站,每天接收180万张照片,平均而言,从2012年2月至3月[35]。假设每个照片是2 MB的大小(MB),这需要3。6 TB(TB)的存储空间每天。事实上,正如一句老话:“一张图片胜过一千字,”在Flickr上的数十亿图片是一个宝箱,为我们探索人类社会,社交活动,公共事务,灾害,等等,前提是只有我们拥有利用大量的数据的能力。
上面的示例证明了崛起的大数据应用在数据收集有了惊人的增长,超出了通常的使用软件工具在一个“可容忍的运行时间来捕获、管理和过程的能力。“大数据应用程序的最基本的挑战是研究大量数据和提取有用的信息或知识为未来行为[40]。在许多情况下,知识提取过程必须非常有效和接近实时,因为存储所有观察到的数据几乎是不可行的。例如,平方公里阵列(SKA)[17]在射电天文学由1000年到1500年塑像在汉诺威中部地区菜肴。它提供了视觉敏感100倍比任何现有的无线电望远镜,回答关于宇宙的根本问题。然而,随着一个40 GB(GB)/第二个数据量,数据产生的斯卡特别大。尽管研究人员已经证实,有趣的模式,比如无线电anomalie [41]可以从SKA数据发现,现有的方法只能在离线方式工作,不能处理这个大数据在实时场景。因此,前所未有的数据量需要一种有效的数据分析和预测平台,实现快速响应和实时大数据分类。剩下的论文结构如下:在第二节中,我们提出一个HACE定理模型大数据特征。第三节总结了大数据挖掘的关键挑战。第四节中概述了在这个领域中的一些关键的研究计划和一些国际研究项目的作者。第五节讨论了相关工作,我们在第六节总结本文。
2大数据特点:HACE定理
HACE定理 大数据的开始是从大容量、异构、自治源的分布与分散控制,旨在探索复杂和发展之间的关系数据。
这些特点使它成为一个极端的挑战从大数据发现有用的知识。从通常意义上说,我们可以想象,一些盲人正试图估计的一个巨大的大象(见图1),在这种情况下这就是大数据。每个盲人的目标是描绘一幅大象的图像(或结论),根据他们在这个过程中收集的信息。因为每个人的观点受限于他接触的局部区域, 这是不足为奇的瞎子将各自独立得出结论,大象“感觉”像一个绳,软管,或一个壁,取决于每个他们被限制的区域。使问题更加复杂的是,让我们假设1)大象越长越大和其姿势不断的变化,以及2)在每个盲人可以有自己的(可能是不可靠和不准确的)信息的来源,告诉他关于大象的偏见(例如,一个瞎子可能和其他的瞎子交换对于大象的感受,而交换的知识是天生的偏见)。在这种情况下探索大数据相当于从不同来源(瞎子)聚集异构信息,以帮助绘制最佳图片显示在大象的真正姿态以实时的方式。事实上,这个任务是不如简单,它要求每位盲人来形容他对大象的感觉,然后让专家得出一个单一的与组合视图图片,涉及每一个个人可以讲不同的语言(异构多样的信息来源),他们甚至可能有隐私的担忧在他们故意信息交换过程。
2.1巨大数据异构和多维
大数据的一个基本特征是大量的数据由异构和不同的维度来表示。这是因为不同的信息收藏家喜欢自己的图解或协议进行数据记录,和不同的应用程序的本质也会造成不同的数据表示。例如,每一个人类在生物医学世界可以表示为使用简单的统计信息,如性别、年龄、家族疾病史,等等。对于个人的每次x射线检查和CT扫描,图像或视频是用来表示结果,因为他们为医生提供视觉信息进行详细的检查。对于DNA或genomic-related测试,微阵列是用来表达图像和序列,用来代表遗传密码信息,因为这是我们使用当前技术获取数据的方式。在这种情况下,异构特性是指同一个个体被不同类型的表示,多样化的功能指的是各种各样的功能
代表每一个观察。想象一下,不同的组织(或卫生工作者)用他们自己的图式来表示每个病人数据,异质性和多维数问题将成为主要的挑战,如果我们试图启用数据聚合,通过结合来自所有来源的数据。
2.2分布的自主源和分散控制
分布的自治数据源和分散控制是大数据应用程序的主要特征。自治,每个数据源可以生成和收集信息(或依靠)没有涉及任何集中控制。这是相似的万维网(WWW)设置,每个Web服务器提供一定数量的信息,每个服务器能够完全不必依赖其他函数服务器。另一方面,大量的数据使应用程序容易受到攻击或数据故障,如果整个系统依赖于任何集中控制单元。主要的对于大数据相关的应用程序,比如谷歌,Flicker ,Facebook,和沃尔玛,大量的服务器群组的全世界范围内部署,以保对当地市场不间断的服务和快速的反应。这种自治源不仅是技术设计的解决方案,同样也是不同国家或地区的立法和监管规则的结果。例如,沃尔玛的亚洲市场本质上不同于北美市场,就季节性促销,热销物品,和客户行为而言。更具体地说,当地政府规定也影响了批发管理过程并导致重组数据的表示和当地市场的数据仓库。
2.3复杂和不断变化的关系
大数据量增加的同时,它的复杂性和背后的数据关系也是这样的。在数据集中信息系统的早期阶段,它的重点是找到最好的特征值来表示每一次观察。这类似于使用大量的数据字段,如年龄、性别、收入、教育背景等,显示每个人的特点。这种类型的样本特征本质上表示对待每一个人作为不考虑其社会一个独立的实体连接,这是人类社会最重要的因素之一。我们基于共同的爱好或人们通过生物关系连接而形成朋友圈。这样的一般社会关系不仅存在于我们的日常生活活动中,在网络世界也很受欢迎。举个例子,主要的社交网站,如Facebook或Twitter,主要特点是社会功能例如朋友联系和追随者(Twitter)。个人之间固有的关系使得整个数据表示和数据处理更加复杂化。样本特征表示,个人认为如果他们分享相似的特性值那么他们相似,而在取样功能关系表示,两个人可以连接在一起(通过他们的社会关系),尽管他们可能在功能域没有分析什么共同之处。在一个动态的世界,所使用的功能用来代表个人并使用社会关系来表示我们联系也可以相对于时间,空间,和其他演变因素。这种并发症成为现实的一部分,对于大数据应用程序,关键是要把复杂的(非线性、多对多)数据关系,随着不断发展变化,考虑,从大数据中发现有用的模式集合。
3数据挖掘与大数据挑战
对于一个智能学习数据库系统[52]处理大数据,必要的关键是扩大异常大量数据并提供治疗特点通过上述提到的HACE定理。图2显示了一个大数据处理的概念视图框架,其中包括三层从内而外的考虑数据访问和计算(第一层),数据隐私和领域知识(第二层)和大数据挖掘算法(第三层)。在我关注数据访问层的挑战和算术计算程序。因为大数据通常存储在不同的位置和数据量不断增长,一个有效的计算平台需要考虑分布式大规模数据存储计算。例如,典型的数据挖掘算法要求所有数据加载到内存,这一点,然而,成为大数据的清晰的技术障碍,因为移动数据是昂贵的(如在不同的位置。,强化网络通信和其他IO成本),即使我们有一个超级大的内存来保存所有的数据计算。在第二层中心的挑战在语义和为不同的大数据应用领域知识。这些信息可以提供额外的好处采矿过程,以及添加技术壁垒大数据访问(第一层)和挖掘算法(第三层)。例如,根据不同的领域应用,数据之间的隐私和信息共享机制,生产者和数据消费者可显著不同。应用共享传感器网络数据,比如水质监测可能不悲观,而发布和共享移动用户的位置信息显然不是被大多数接受的,如果不是全部,应用程序。在除了上述隐私问题,该应用程序域还可以提供额外的信息中获益或引导大数据挖掘算法的设计。例如,在市场篮子的交易数据,每个交易视为独立和发现的知识通常是通过寻找高度相关的项目为代表,可能相对于不同时间和/或空间限制。在社交网络中,在另一方面,用户是链接和共享的依赖结构。知识是然后通过用户群体,领导者在每个代表基,和社会影响建模,等等。 因此,语义的理解和应用知识两个低级别的数据访问和高层次的重要挖掘算法的设计。
在第三层,数据挖掘的挑战集中在算法设计在处理大数据量,提出的困难分布式数据分布,复杂和动态数据特征。在第三层的圆包含三个阶段。首先,稀疏、异构、不确定、不完整,通过数据融合技术和多源数据预处理。第二,复杂和动态数据挖掘预处理之后。第三,融合当地学习和获得的全球知识模型测试和相关信息是反馈预处理阶段。然后,根据反馈模型和参数调整。在整个生产过程中,信息共享不仅是保证顺利发展的每个阶段,但也是一个大数据处理的目的。
接下来,我们对三层框架精心设计的挑战进行阐述。
3.1第一层:大数据挖掘平台
在典型的数据挖掘系统,挖掘过程需要计算密集型计算单位的数据分析和比较。计算平台,因此,需要有高效的访问,至少两个资源类型:数据和计算处理器。对于小规模的数据挖掘任务,一个台式电脑,它包含硬盘和CPU处理器,是足够实现数据挖掘的目标。事实上,许多数据挖掘算法被设计出来为了这种类型的问题设置。对于中等规模数据挖掘的任务、数据代表性的大(分布式),不能适应主内存。常见的解决方案是依靠平行计算[43],[33]或集体挖掘[12]和聚合来自不同数据源的数据,然后使用并行计算编程(如消息通过接口)进行挖掘的过程。大数据挖掘,因为数据规模远远超出单一的个人电脑(PC)的能力所能控制和处理的。一个典型的大数据处理框架将依赖于集群计算机和高性能计算平台,数据挖掘的任务是通过运行一些部署并行编程工具,如映射归约运算架构或企业控制语言(ECL),大量的计算节点(即。集群)。这个软件组件的作用是以确保一个单一的数据挖掘任务,如发现从数据库查询的最佳匹配数十亿美元的记录,每个被分成许多小的任务这是一个或多个计算节点上运行。例如,在撰写本文世界上最强大的超级电脑巨头,在田纳西州橡树部署岭国家实验室,每一个16核CPU都包含18688个节点。
这样一个大数据系统, 融合了硬件和软件组件,是不可能没有重要的工业股东的支持。事实上,几十年来,公司已经通过在存储在关系数据库中的事务数据基础上做出商业决策。大数据挖掘提供的机会超越传统的关系数据库,降低依赖结构化数据:博客,社交媒体、电子邮件、传感器和照片,可以挖掘有用的信息。主要的商业智能公司(IBM、Oracle、Teradata,等等,都有了自己的产品,帮助客户获取和组织这些不同的数据源和协调客户的现有数据寻找新的见解和利用隐藏的关系。
3.2第二层:大数据语义和应用语义知识
应用知识的大数据是指很多方面相关法规、政策,用户知识、和域信息。最重要的两个问题在这层包括1)数据共享和隐私,和2)域和应用知识。前提供解决问题的答案如何数据维护,访问,和共享,而后者侧重于回答问题像“底层应用程序是什么?”和“哪些知识或模式用户打算发现从数据?“
3.2.1信息共享和数据隐私
信息共享是为所有系统包括多个部分[24]的一个终极目标。虽然分享的动机是清楚的,但现实的问题是,大数据应用程序和敏感信息相关, 如银行交易和医疗记录。简单的数据交换或传输不能解决隐私问题[19],[25],[42]。例如,知道人的位置和他们的偏好,可以使多种多样有用的定位服务,但公开披露个人的位置随着时间的推移/运动会造成隐私的严重后果。为了保护隐私,两个常见的方法是1)限制访问的数据,如添加认证和访问控制数据条目,所以敏感信息是由一个有限的访问的用户组,2)匿名化数据字段等不能精确到个人敏感信息记录[15]。对于第一种方法,共同的挑战是设计安全认证和访问控制机制,这样任何敏感信息不会被未经授权的个人不当处理。对数据匿名化,主要目标是注入随机性到数据,以确保隐私的目标。举个例子,最常见的k-anonymity隐私措施是确保数据库中的每个个体必须不能区分k 1。常见的匿名化方法是使用抑制、泛化、微扰,排列产生替代版本的数据,事实上,有些不确定的数据。
<p
剩余内容已隐藏,支付完成后下载完整资料</p
资料编号:[154188],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
