众包数据对气候与大气科学的研究现状和未来潜力综述外文翻译资料

 2022-11-19 14:55:40

英语原文共 19 页,剩余内容已隐藏,支付完成后下载完整资料


INTERNATIONAL JOURNAL OF CLIMATOLOGY

Int. J. Climatol. 35: 3185 – 3203 (2015)

Published online 5 January 2015 in Wiley Online Library (wileyonlinelibrary.com) DOI: 10.1002/joc.4210

众包数据对气候与大气科学的研究现状和未来潜力综述

C.L. Muller,a* L. Chapman,a S. Johnston,b C. Kidd,c,d

S. Illingworth,e G. Foody,f A. Overeemg,h and R.R. Leighi

a英国伯明翰大学地理、地球和环境科学学院

b英国伦敦领英

c 美国马里兰大学地球系统科学跨学科中心

d 美国马里兰州格林贝尔特美国宇航局/戈达德太空飞行中心

e 英国曼彻斯特城市大学研究,企业与创新学院

f英国诺丁汉大学公园地理学院

g 荷兰瓦赫宁根大学水文和定量水管理组

h荷兰皇家气象研究所(KNMI)

i 英国莱斯特大学地球观测科学,物理学和天文学

摘要:传统上众包是指通过获得(可能很多)人的服务获得数据或信息。不过,由于近来的创新,这个定义现在扩展并包括了“和/或来自于公共传感器范畴内,尤其是通过互联网连接的部分”。现在大量数据正获取于非传统的来源,例如来自于智能手机传感器或者业余爱好者们自己设立气象站以征求公众意见。一些学科(如天体物理学,生态学)已经开始利用众包技术(如公民科学计划,网络2.0技术,低成本传感器),尽管该技术在气候和大气科学领域的价值尚未被探索,但其发展前途已经开始显现。然而,重要问题依然存在。本文介绍并探索了大量现有的和未来的气象众包数据方法,调查了这些数据的质量,检测了其在天气、气候和社会背景下的潜在应用。很明显,众包是公众参与的重要途径,如果采用并实施适当的检验和质量控制措施,那么众包数据在提供宝贵的高时空分辨率原始资料以及实时数据方面会有很大的潜力,对于目前观测极少的地区尤其如此。众包技术可为科学,技术和社会增添价值。

关键词:物联网;大数据;公民科学;传感器;业余;应用

2014年3月24日收到; 2014年9月26日修订; 2014年10月21日接受

1.引言

有关大气状况的信息现在可以从许多非传统来源获得,如公民科学家(Wiggins和Crowston,2011),业余气象站和传感器,智能设备和社交媒体/网络2.0。“众包”这个词最近已经流行起来,原来是指“一个公司或机构以公开的方式(Howe,2006)将某些任务外包给一个未定的(通常是大的)人工网络的行为,以解决问题或完成特定的任务,往往涉及微型支付或娱乐或社会认可(Kazai等,2013),现在也包括通过公共传感器定期收集并用互联网传输的数据。因此,人们不再仅是数据的消费者,还是生产者(Campbell 等,2006)。

这些类型的众包技术在将来可能发挥重要作用,特别是在人口稠密的地区,缺乏数据的地区或传统气象网络正在衰落的国家(GCOS,2010)。现在百分之五十的世界人口居住在城市,预计到2050年将上升到70%。虽然位于人口稠密的地区有相对密集的标准气象仪器网络,但是成本限制往往使得这些数据并不能实时广泛获得,或达不到众多应用所需的时空精度,如洪水和城市排水管理(如Willems等,2012; Arnbjerg- Nielsen等,2013),城市热岛监测(如Tomlinson等,2013),规划和决策(如Neirotti等,2014),精准农业(如Goodchild,2007),灾害预警系统(如NRC,2007),道路冬季维护(例如Chapman等,2014),气候与健康风险评估(例如Tomlinson等,2011),临近预报(例如Ochoa-Rodriguez等,2013),模型同化和评估(如Ashie和Kono,2011),雷达和卫星验证(如Binau,2012)等其他社会应用。随着未来许多地区极端天气事件频率,持续时间和强度的增加(IPCC,2012),为了减轻未来的风险,观测大气环境和人口密集地区以及常常缺乏重要数据的人口稀少地区出现的天气现象越来越需要密集的高分辨率的观测。事实上,Goodchild(2007,p.10)认为这些信息最重要的价值可能在于它能告诉我们世界媒体没注意到的不同地理位置的当地活动。

计算能力持续增长,大约每两年翻一番(Moore,1965; Schaller,1997),有超过87亿台设备连接到互联网,预计到2020年将增加到超过500亿(Evans,2011),可访问的数据量亦在不断增长。“物联网”(Internet of things)— 指的是提供“随时随地,任何地方连接任何东西”的互联网(Ashton,2009)—能够访问大量数据,因为现在连接到互联网的设备数量比人口还多。据预测,到本世纪末,物联网可能为全球经济增加14.4万亿美元(Bradley等,2013),同时它有改善我们生活方式的巨大潜力(Gonzales,2011)。作为一个在过去几年已成为固定术语的流行词汇“大数据”,许多项目已经在采购、挖掘和利用“大数据”。大数据指的是从各种来源获得的无处不在的,通常具有实时性的数据,存储、处理和分析这些数据的能力越来越强,为信息和知识提取提供了便利。在气候学和大气科学以及许多其他科学和数学学科中,研究人员对处理和分析从模型输出到卫星数据集的大型数据集非常熟悉。然而,大数据在这个意义上是一个术语,指的是现在可以从各种来源获得的具有一定数量,速度,多样性,准确性,有效性和波动性的数据(Normandeau,2013)。“智能”技术和“智能城市”(荷兰,2008)投资推动了这个术语的普及和推广,“智能”一词指的是先进的互联网技术,技术或方案,这些技术或方案基于一系列输入(“数据驱动智能”,Nielsen(2011),产生知情和智能的行动。人口稠密地区正在配备各种传感器(智能交通系统,智能(能源)电网,智能环境等),从而产生大量的数据以及科学的、可运营的和终端用户的机会。

随着这些创新的出现,以高时空分辨率获得特定的局部现象或变量信息的潜力已达到以往不能达到的水平。这些数据已经被用于电信和金融行业、制造业,零售业和能源应用也开始注意到这些数据的潜力。众包已经广泛应用于获取其他学科的数据(如天文学,生态学,健康学( Cook,2011; Nielson,2011)),但在大气科学领域这种数据在科学研究和应用中的潜力探索(在第四节中讨论)仍处于相对初级阶段。因此这类数据将在下一个科学研究时代起到重要作用,同时也促进许多社会应用。尽管如此,为了确定这些非传统数据的纳入程度,仍需要进行全面的质量评估。存在的问题依然是如何确定能够真正从综合众包的天气和气候数据中受益的科学的社会应用。数据应该如何获得,从何处获得,以及这些数据的质量(这些数据更可能比那些由权威来源提供的数据更容易出错)如何进行评估。此外,智能设备和“隐藏”网络的高分辨率数据是否能与大量计算能力相结合,可能带来未来几十年新的创新的难题同样需要解决。很明显,众包有潜力克服与观测的时空代表性有关的问题。

本文通过回顾众多当前的众包项目和技术,阐述其不确定性和机遇,审查质量保证和质量控制程序的现状,探讨众包数据未来的可能性和应用,以及气象和气候学方面的众包技术发展现状, 最后对这些非标准数据源提出一些建议,这些数据源有可能在未来增加和补充现有的观测系统。

2.目前的众包方法

众包传统上依赖于独立参与者的分布式网络来解决设置问题。然而,众包现在已经超越了这种基本方法,以并入分布式便携式传感器网络,这种传感器可以通过传统的众包协议来激活和维护,例如公开呼叫参与以及重新调整现有大型传感器网络的数据(例如,气象学家专门为研究城市气候布设的低成本传感器网络并不属于众包范畴;而气象学家从现有的业余气象站获取数据才属于)。因此,它可以分解成几种不同的众包方法。这些方法大致分为“有生命的”和“无生命的”众包,主要的区别在于“人群”的性质。无生命众包涉及用一系列传感器和传感器网络(例如路灯上的传感器,城市电信信号)对数据进行获取或另为他用,而有生命的众包需要某种形式的人类参与。数据收集就可以通过自动(即数据通过传感器自动收集并上传,虽然在安装过程中可能需要某种形式的人为干预),半自动(即使用传感器收集数据,但手动上传)或手动(即人工生成的数据,手动收集,输入和上传)的手段。

Internet

Communications and data transmission (Wi-Fi, LAN,

GPRS, GSM, 3G, 4G)

Online citizen

science projects (data mining amp; data generation)

Semi-

automatic sensors data upload

Smart

apps

Automatic

upload of data from sensors (lsquo;Internet of Thingsrsquo;) and sensor

networks

Smart devices

Offline citizen science

projects not requiring the use of sensors/smart devices (e.g. lsquo;humans as

sensorsrsquo;)

Social media

Non-internet data transmission (e.g. mobile- to-mobile SMS, radio,

Bluetooth, manual data loggers)

Citizens

Sensors and

devices automatically collecting data but not connected to internet (i.e. stored locally, manual upload)

Sensors and smart devices

图1维恩图显示了包括主动和被动技术的有生命以及无生命的众包组合之间的相互作用

2.1.公民科学

公民科学是一种涉及公众的合作研究形式,如志愿者,业余爱好者和爱好者(Goodchild,2007; Wiggins and Crowston,2011; Roy等人,2012)。当它包含公民主动地收集的数据时,则是一种有活力的众包形式,或者说是“参与式传感”。公民可以用硬件传感器来收集数据,不过公民本身通过感官解释的数据也可以归类为“虚拟传感器”(Goodchild,2007; Boulos等人,2011)。例如,最近有用传统的目击证人报告来评估2012年7月28日在英国发生的一系列严重雷暴(包括冰雹大小)的发展和移动(Clark和Webb 2013)。

已有很多公民科学项目的例子,如 Zooniverse(https://www.zooniverse.org/)和公民科学联盟代表不同的科学家群体(CSA; http://www.citizenscience alliance.org/)建立,运营和促进了众多公民科学项目,其中大部分涉及数据分析而不是数据创建。由于参与者采用已有的科学方法收集,分析和处理信息,这些项目称为“完全公民科学”(Sui 等人,2013)。随着许多项目发现公民科学可以得到高质量,可靠和有效的科学成果,见解和创新(Trumbull等,2000),诸如生态学(例如NestWatch:http://nestwatch.org/; Birding 2.0:Wiersma,2010),物候学(例如Nature Calendar:http://www.natuurkalender.nl/)和天文学(如银河动物园:http://www.galaxyzoo.org/)这些学科纷纷开始使用这种方法 。目前其在大气科学学科中的应用愈发受到重视,并开始对其进行客观评估。

“Old Weather”(http://www.oldweather.org/)是一个“数据挖掘”公民科学项目,旨在帮助科学家恢复19世纪中叶以来美国船舶获得的北极和世界各地的天气观测资料,这些资料是通过征募公民来得到由日志天气记录(例如跟踪船舶运动)的数字记录,接着将数据转换成与IMMA和ICOADS兼容的格式。这些数据有助于气候模式预测,最终增进了我们对过去环境条件的了解。 同样,“Cyclone entre”项目(http://www.cyclonecenter.org/)正在利用公民科学家来人工分类30年的热带气旋卫星图像。

还有一些公民科学计划直接从公众获得数据。例如,“有利于环境的全球学习和观察计划”(GLOBE; http://www.globe.gov/; Finarelli,1998)是一个既定的国际科学和教育项目,这个项目中学生和教师可以采取科学有效的环境测量,报告给公众可用的数据库。由于科学家可以使用GLOBE数据,因此便提供了培训计划和协议,涉及的仪器也必须符合严格的规范,数据遵循严格的质量控制程序。这些协议应该是任何公民科学项目的必要组成部分。此外,“the Community Collaborative Rain, Hail and Snow Network”(CoCoRaHS:http://www.cocorahs

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[23598],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版