基于大数据的匆忙指数建构与应用文献综述一、大数据
二十世纪初,《大数据:PB时代的科学》一文在《nature》上发表,大数据开始成为一个渗透在现代生活各个领域的重要技术。大数据(Big data),又称为海量数据,指在可以接受的合理时间内、传统数据处理软件无法处理的庞大或复杂的数据集。徐宗本院士在香山科学会议上发言认为大数据是“不能够集中存储、并且难以在可接受时间内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集”[[1]](徐宗本,2014)。由此可以看出大数据由以下几个特征。
一是数据量大。据维基百科,截至2012年,技术上可在合理时间内处理分析的数据集大小单位为艾字节(EB,1EB=1024PB),而截至同年,全世界每天会产生2.5艾字节的数据。有资料显示,百度搜索引擎每天需要提供的数据超过1.5PB,而至今人类生产的全部印刷品数据量仅为200PB。二是数据种类多样。传统意义上的数据集通常是指已经结构化的关系型数据,而大数据所包含的数据大部分就是非结构化或者半结构化的文本、图像、视频、音频等。三是价值密度低。两个小时的视频中,可能只有一两秒的画面是有用的。
基于其数据量大、数据种类多样、价值密度低的特点,麦塔集团(META Group)指出,大数据处理的三个机遇与挑战为:量(Volume);速(Velocity);变(Variety)[[2]]。这个标准合称为“3V”或“3Vs”,为现今大部分大数据处理产业公司所沿用。另外,维拉诺瓦大学(Villanova University)的研究人员还在3V之外定义了第4个V:真(Veracity)[[3]]。
近年来,随着计算机技术、信息技术、云计算以及各类传感器的不断普及,对于大数据的处理向着更精确、更快速的方向发展,在涉及人机交互的大数据处理系统中,处理时间原则上不超过2秒(韦强、朱丙虎,2019)[[4]]。而大数据在气象、医疗、身份识别、科学研究、社会治理方面的应用无一不在改变我们的生活,其在社会科学领域的应用也同样方兴未艾。二、匆忙指数的建构
据现代汉语词典释义,“匆忙”指“急急忙忙”的样子。其表现多体现在人的行为有别于正常状态时的“加速”。在本研究中,拟进一步选取几个人行为的几个细节作为衡量目标是否处于“匆忙”状态的指标,即:人行走的步长、步速、步长与身高比。
2.1人行走速率的正常值以及在遇到突发事件时的变化
关于人的行走速率研究,是交通运输领域的一个重点方向。行人的步行速率受到行人和环境的特性影响,每位行人皆有自己偏好的步行速率[[5]](张建彦,2010)。玻汉农(Bohannon)的研究给出了20至79岁的步行速率参考值,他的实验结果给出别用舒适和最快的速率走完7.26公尺(7.26米)的时间[[6]]。Bendall等收集并给出了65至90岁之间的67名女性和58名男性的步行参考速率:女1.17m/s;男1.33m/s。达蒙和胡根多恩(Daamen and Hoogendoorn)的研究给出了不同国家人口的步行速率参考值:欧洲人平均步行速率为1.41m/s,美国人平均步行速率为1.44m/s,澳洲和亚洲人平均步行速率为1.24m/s[[7]]。克诺布劳赫(Knoblauch)等人针对不同年龄段的行人步行速率做了分别统计,主要将人群分为14至64岁的一般人和65岁以上的高龄人群,其中前15%的一般人的步行速率为1.25m/s,高龄者为0.97m/s[[8]]。
国内学者中,中国台湾学者张建彦以大样本统计了各种不同条件下台湾行人的步行速率表(见下表1)(张建彦,2010)。哈尔滨工业大学冯树民等调查并分析了哈尔滨市部分交叉口行人过街的交通流特性,得出当地行人平均过街步速为1.47m/s[[9]]。同济大学刘光新对上海市交叉口的行人步速进行了调查,得出男性平均步速为1.57m/s,女性1.53m/s[[10]]。长安大学魏家光等人的调查还显示,西安市行人的平均步行速度为女性为1.10m/s,男性为 1.24m/s[[11]]。
