1. 研究目的与意义(文献综述)
1.1 目的及意义
由于监测站的建设成本高昂,一个城市中站点的数量是有限的。然而受多方面因素(如地表植被、交通流量、楼房密度等)影响,空气质量在一个城市的不同区域会出现较大起伏。研究城市中不同区域空气质量的起伏状况有助于城市空气污染的监测和防治。
如今"大数据"( big data) 的概念几乎无人不晓,继云计算和物联网之后成为各领域关注的焦点。新浪微博是我国使用较广泛的社交媒体应用之一,微博数据开放的 api 接口使微博成为大数据挖掘的良好平台。它连续不断地产生涉及社交用户日常生活的海量数据,这些数据包含时间、用户情感等多种属性。用户利用带有 GPS的设备,比如智能手机等发布微博,他们可以在微博中加入发布时的位置信息。随着空气质量的不断恶化,许多人比之前更关注空气质量,并借助新浪微博这个平台发表自身看法。这些带有位置信息的新浪微博数据从某种程度上可反映微博发布位置真实的空气状况。
2. 研究的基本内容与方案
2.1 研究内容
1.根据收集到资料,选取合适污染相关关键词,网络爬取研究区域带有位置信息的数据,进行预处理。
2.介绍相应社交媒体数据特征及信息,通过与官方城市空气质量数据进行相关性分析验证实施可行性,设计可视化方式与环境空气质量及其评价的方法和表现形式。
3.基于前第两部分研究的理论基础,结合导师给的实际数据资料,尝试将社交媒体数据与城市空气质量数据进行关联,最终得到研究区域连续的空气质量数据并进行等级划分。
4.根据分析结果,对研究区空气质量进行评价,结合研究区实际情况,探讨可能存在原因,并分析研究的进步与不足。
2.2技术方案: 依照上图顺序,在获取数据时应先进行新浪微博API的调用,网络爬取带有位置信息的数据,大致流程见模块一,之后进行预处理并衡量数据的有效性与实施可行性,见模块二,对于空气质量的评价,尝试进行等级区间划分并对应不同情感关键词,最终得出适当评价体系,大致实施操作见模块三。
3. 研究计划与安排
1、第1-2周,查阅文献,完成开题报告,形成服务于选题的技术路线。
2、第3-5周,数据的收集、整理,相关性与可行性的探讨。
3、第5-14周,数据的分析,利用社交媒体与空气质量关联数据进行空气质量的等级划分,并对结果进行总结和分析。
4. 参考文献(12篇以上)
参考文献:
[1] 王艳东,荆彤,姜伟,王腾,付小康.利用社交媒体数据模拟城市空气质量趋势面.[j]武汉大学学报·信息科学版,2017,42(01)14-20.
[2] 朱晨曦,晏王波. 基于微博签到的地理空间信息研究[j]. 地理空间信息, 2016, 14(05): 28-30.
