统计和数据科学的未来抽象外文翻译资料

 2023-03-16 05:03

统计和数据科学的未来抽象

作者:Sofia C. Olhede

国籍:英国

出处:Statistics and Probability Letter

中文译文:

摘 要:无处不在的传感设备,低成本的数据存储,和商品化计算一起引发了一场大数据革命。我们对此讨论了统计的革命,专注于我们的学科如何能最好地为新兴贡献数据科学领域

关键词:算法透明度 数据分析 数据处理 统计推论

一. 介绍

丹麦物理学家尼尔斯-玻尔曾说过:'预测是非常困难的,尤其是对未来的预测'。预测大数据时代统计学的未来,与预测其他任何事情都没有太大区别。自从我们开始收集数据来预测月亮的周期、季节以及未来的农业产量以来,人类已经努力从间接观察中推断出信息,以达到预测的目的。

即使对未来进行预测有很大的困难,但有几个主题还是很突出地处于统计学和数据科学的当前和未来的交叉点。这些主题并非都是严格意义上的技术性问题。但都会对我们的领域产生技术上的影响。这些影响会如何塑造相对年轻的统计学领域?健全的统计学理论和方法能给我们对数据基础的理解带来什么?在这篇文章中,我们讨论了这些问题,并探讨了由数据科学激发的新的开放性问题如何反过来影响我们的生活。我们看到了四个对统计有影响的重要方面。

首先,许多现代数据集以某种方式与人类行为相关。数据可能是通过互动收集的与人打交道,或者可以追溯到某一特定个人的个人或私人信息可能已经被处理。在某个阶段,数学或理论统计学传统上并不关注人类的细微问题。我们中的许多人确实只接受过有限的培训,了解与数据有关的规则和条例。然而,在一个数据丰富的世界里,我们的技术发展不可避免地要与人类的类型相分离。我们可以收集和分析数据集,以及处理和存储它们。

第二,数据对我们的经济和公民社会意味着,未来的监管将不仅是看以保护我们的隐私,以及我们如何存储自己的信息,也包括我们被允许使用的内容。例如,当我们在一个特定的时间和空间中收集关于许多家庭单位的高维向量时,隐私将受到该高维空间的限制,但我们希望控制我们对数据所做的一切将超越这一点。同时,我们希望规范或控制我们对数据的操作,面临的一个关键问题是越来越复杂的算法。一方面,算法思维背后的概念可能是具有挑战性的;另一方面,算法本身正变得如此复杂,再加上我们现在可以使用的大量数据,有时会很难理解其输出的理由。显然,我们需要在算法的可解释性和预测性之间取得平衡。

第三,与算法的日益复杂化相对应的是数据的日益多样化和复杂化。现在的数据集以各种形式出现,可以是高度非结构化的,包括图像、文本、声音和其他各种新形式。这些不同类型的观察必须结合起来理解,从而形成多模态数据,其中一个单一的现象或事件是通过不同类型的测量设备来观察的,而不是让一个现象对应于单个标量值。这可能是一个三维的形状,例如在医学成像中:功能磁共振成像和神经科学中的同步脑电图。因此,数据科学挑战我们如何描述这些更复杂的结构,以其固有的模式为基础进行建模。

最后,我们现在的数据集类型远远不能满足经典的统计学假设,即相同的分布式和独立的观测值。观测值通常是 '发现的 '或从其他抽样机制中重新利用的,而不一定是由设计的实验产生的。因此,广泛的预处理('数据处理')是必须进行的。实际分析和推理,需要大量预处理的异质、非结构化数据的复杂性,这对统计建模者具有挑战性,并对理论概念和方法论有一定要求。我们的领域要么就去迎接这些挑战,并变得越来越普遍,否则就有可能迅速成为与数据科学的未来无关的领域。

二. 数据科学大好时机

作为2015年第三十八届随机过程及其应用会议的一部分,我们参加了牛津联盟的一场辩论,会上我们被要求对以下动议持反对意见:数学科学家将错过数据科学的大好时机。“赞成方”的论点不是说统计学将阻止他们进步,而是统计学家们可能心甘情愿地选择在岸上自暴自弃,放弃混乱的数据科学挑战,而在风格化的环境中纯粹地接受基本的理论挑战。“反对”一方的论点是,统计学是数据科学不可或缺的一部分,没有它,船就会沉没!相当戏剧性的是,双方都没有获胜,因为100多人的众议院投票让我们处于完美的平局。也许双方都没有赢得这场辩论,只是因为这两个论点都有其优点。

这是一个相当有趣的逸闻,但在表面之下,有一个严肃性的因素。我们称之为数据科学的很大一部分其实不是统计学本身,也不强调统计学家长期以来经过培训的建模和推理技能。数据科学的一部分是构建、理解如何存储和访问数据;一部分是算法,了解如何实现选定的分析方法;一部分是简单的常识。这些方面尽管一些对实施和分析权衡的想法已经开始出现在文献中,但都不一定适合发展统计理论,

在大数据时代,我们领域将要发展起来的统计理论和方法必须适应我们周围世界遇到的数据类型,否则我们有可能把自己置于变得无关紧要的严重危险之中。此外,统计数据还需要适应日益明显的社会限制和影响。其中,很大一部分这就是培养对数据影响每个人日常工作的程度的认识和普遍广泛的理解。通过技术、政策、商业、隐私和信任,使人们的生活更加丰富多彩。

三. 数据处理

大数据的可用性不仅为社会收益带来了巨大的机会,同时也带来了威胁。这些数据集往往是从人类受试者那里收集到的或关于人类受试者的观察结果,而这种数量庞大的数据可能涉及隐私问题。因此它促使开发统计方法,从匿名数据中计算有意义的抽象概括。以确保我们的领域有助于促进以这种方式和其他方式进行知情的公共讨论,这对于实现数据科学的未来潜力至关重要。否则,数据的滥用和误用会产生强烈的公众不信任感。

解决这一难题的部分方法将不可避免地是技术问题。近年来,在将统计与加密结合起来作为确保隐私的一种手段方面有相当大的创新,例如,了解如何在已经进行加密的情况下进行推理。当我们考虑如何设计安全匿名方案和分析匿名数据的方法时,还会出现其他技术挑战。

四.监管和算法透明度

因此,数据收集及其治理是一个令人严重立即关注的问题。更具有未来性的是,算法的调控也引起了相当大的争论。例如,计算机械协会已就算法透明度和问责制(美国计算机械公共政策委员会,2017年)发表了一份声明。新的《欧洲一般数据保护条例》详细规定了公民的权利,如果受到特定算法决定的影响,可以解释作出这一决定的原因。这样,监管开始与数据科学的最新技术发展互动。

算法透明度的概念似乎显而易见,但当这一概念受到公民可能有权享有的'解释'的法律定义时,它显然存在问题。例如,要得出一个预测,我们可以假设一个可解释的模型,使用解释变量来适应它,然后预测二进制结果。如果我们有太多的变量,那么我们可以采用现代的模型选择或稀疏方法,或者我们甚至可以预先处理一组解释变量——例如,使用主成分分析。为了从数学背景中'解释'这个模型,我们可以给出一个定量的描述,哪些变量影响了预测或决策,我们也可以解释我们是如何到达模型本身的。

还有一些有趣的决策理论问题与我们对透明度的理解有关。很可能在给定情况下,预测误差会随着我们使模型更加透明而增加。预测误差和透明度之间什么是合理的权衡,我们如何正式研究和确定这种权衡?通过使用正确的数学方法,明确和定量的优化标准,我们可以设想使这种权衡定义良好,因此最终同样被理解。

五. 讨论

迄今为止,许多数据科学都集中在纯粹的预测性'黑匣子'工具上,而不是经典的建模、推论和分析。对于更丰富的数据来源,自然要从寻找模式开始,而不是试图适应特定的模型。然而,这仍然是个问题:如果自然变异不能被量化,我们怎么能确定模式是否重要?模型的方式?

统计学的作用是使我们对观察到的现象的理解量化和精确化。一些新的问题对这项任务提出了挑战:数据集的形式比以前更加复杂。此外观察往往没有适当的实验设计,导致有偏见和不完整的数据;目前还不清楚如何通过数据治理来解决监管和算法透明度的问题。许多学会,专业组织和国家科学院都对其产生了浓厚的兴趣。解决方案将是这将不可避免地涉及到技术的发展,并提出新的方法论挑战;这反过来又需要强有力的技术支持。

最后,很明显的是,算法和从数据中得出的决定将越来越多地对社会的各个方面产生影响。许多此类决策将是自动化的,利用统计数据的力量和自动化决策的效率收益可能会对我们整个世界带来难以置信的益处。然而,如果此类程序的内部运作仍然笼罩在公众眼中的神秘之中,并且很难确定算法决策的公正性,那么数据科学将失去公众的信任。不透明和纯预测算法向我们所有人展示了大规模分析的力量,但随着自动化将影响日益重要的决策,因此,加强审查和透明度的必要性正变得显而易见。我们的领域有一个明确和现在的机会窗口,以建立新的理论和方法,以迎接当前和未来的数据科学的挑战,我们必须这样做,不要冒险错过数据科学大好时机。

附:外文原文(

Abstract:

The ubiquity of sensing devices, the low cost of data storage, and the commoditization of computing have together led to a big data revolution. We discuss the implication of this revolution for statistics, focusing on how our discipline can best contribute to the emerging field of data science.

Keywords:

Algorithmic transparency Data analysis Data governance Predictive analytics Statistical inference Structured and unstructured data

1. Introduction

The Danish physicist Niels Bohr is said to have remarked: lsquo;Prediction is very difficult, especially about the futurersquo;. Predicting the future of statistics in the era of big data is not so very different from prediction about anything else. Ever since we started to collect data to predict cycles of the moon, seasons, and hence future agriculture yields, humankind has worked to infer information from indirect observations for the purpose of making predictions.

Even while acknowledging the momentous difficulty in making predictions about the future, a few topics stand out clearly as lying at the current and future intersection of statistics and data science. Not all of these topics are of a strictly technical nature, but all have technical repercussions for our field. How might these repercussions shape the still relatively young field of statistics? And what can sound statistical theory and methods bring to our understanding of the foundations of data science? In this article we discuss these issues and explore how new open questions motivated by data science may in turn necessitate new statistical theory and methods now and in the future.

First, many modern data sets are related in some way to human behavior. Data might have been collected by interacting with human beings, or personal or

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[595713],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。