中国雾霾污染问题的分析与测度方法探讨
----上海理工大学管理学院 高广阔 吴世昌 韩颖
栏目:学术论文     发布人:超级管理员     发布时间:2017-03-21

摘要:近年来雾霾污染在中国愈发严峻,严重阻碍我国经济和社会的发展,对民众的身心健康等都造成直接的侵害,并且随着互联网应用技术的快速发展,雾霾污染海量数据的生成和累计亟需大数据技术与思维的应用。因此文章在综述国内外大数据和雾霾污染问题统计分析研究现状的基础上,结合雾霾污染现状分析和传统统计方法难以分析生成的雾霾污染海量数据,提出了大数据关联分析统计测度方法,最后基于大数据平台探讨了中国雾霾污染问题统计分析的基本思路。

关键词:雾霾污染,大数据,统计分析

0 引言

随着经济社会的快速发展和城市化进程的加快,我国空气污染问题变得日益凸显,尤其以雾霾天气为代表的污染问题频频发生。根据卫星观测,中国京津冀、长江三角洲和珠江三角洲为雾霾重灾区,约30%国土面积、近8亿人口正遭受雾霾的危害[1]。雾霾天气频发对居民出行及身体健康、生态系统、人造环境及国民经济与社会带来了一系列恶劣的影响。而雾霾天气形成的主要原因是化学能源的消耗、工业生产排放的废气、机动车尾气的排放以及道路交通产生的扬尘。因此针对雾霾污染形成的原因,在大数据背景下探讨中国雾霾污染问题统计分析,进行雾霾污染问题数据价值链挖掘与判断,对预测未来变化和监测污染情况起到一定的作用。

1 雾霾污染问题研究综述

近几年来,国内外有不少学者对雾霾的成因、危害及治理进行了大量的研究。国外出现雾霾的时间相对较早,具有代表性的两次重大事件是1952伦敦烟雾事件20世纪40年代的洛杉矶光化学烟雾事件。针对这些大气污染问题,以欧美为代表的发达国家对雾霾形成的原因进行了研究,结果表明,伦敦烟雾事件发生的直接原因是燃煤产生的硫氧化物和粉尘污染,间接原因是逆温层所造成的大气污染物蓄积[2]。而洛杉矶光化学烟雾是由机动车与化工厂排放的氮氧化物和碳氢化合物等一次污染物和光化学反应所产生的臭氧、醛、酮、酸、过氧乙酰硝酸酯等二次污染物导致的[3]。一方面针对雾霾天气的影响因子研究,国内外学者利用各种方法分析雾霾天气的成因:显微镜法:该方法重点在于通过单个颗粒物的大小、颜色等形态特征,结合污染源的标志来识别其来源,以此来确定污染源对颗粒物的影响程度。例如国内有些专家结合扫描电镜与X射线能谱检测,发现城市的颗粒物来源于土壤与水泥颗粒、土壤扬尘、钙碳质颗粒、燃煤以及汽车尾气[45]化学方法:该方法包含多种分析方法,比如源解析技术、化学质量平衡法、UNMIX模型和粗集理论等,运用比较广泛。例如国外的Chaloulakou A2003[6]利用源解析技术对大气颗粒物进行研究,影响大气颗粒物的浓度主要因素为温度和风速,相比可吸入颗粒物PM2.5PM10更容易受到气象因素的影响;Hu S等(2006[7]利用化学法中的UNMIX模型对辛辛那提高速公路的颗粒物PM2.5进行解析,得到每个月各类污染源对PM2.5的影响程度;在国内,李祚泳等(2003[8]将化学法中的粗集理论应用于雾霾颗粒物的源解析,发现其中元素含量的分类关系确定了排放源对雾霾的影响程度;叶文波等(2011[9]采用化学质量平衡法确定了城市扬尘、煤烟尘与机动车尾气是宁波市大气颗粒物的影响因子。统计学方法:国内外学者主要应用多元统计分析方法,包括聚类分析、主成分分析、因子分析及这些方法的综合应用等。在国外,例如Okamoto S等(1990[10]应用因子分析模型研究东京地区的悬浮颗粒物,发现其主要受到土壤颗粒的影响;Ho K.F2006[11]利用主成分分析法、富集因子法和聚类分析法对香港PM2.5进行解析,得到各类源对PM2.5的贡献值和影响程度;国内的邹本东等(2007[12]根据因子分析法对雾霾颗粒物进行分析确定了污染来自于自然源还是人为源;朱志超等(2009[13]应用主成分分析法和因子分析法得到影响武汉市区和工业区PM10的各污染源的贡献程度。以上专家所运用的这些方法虽然可以探究雾霾的化学组成,但是并未从根本上研究雾霾污染与日常生活中相关污染的联系,这样的分析对于研究雾霾的主要成因是有益的,但从治理雾霾污染的角度来看显然是不够的。

另一方面,国内外也有很多学者已经开始注意到大数据关联分析思维的重要性,尤其国外某些学者对关联分析法进行了改进。例如Reshef等(2011[14]在综合两个事件集合的相关性信息度量的基础上用最大信息相关系数度量变量与变量之间的非函数相关关系;同时国内朱建平等(2014[15]明确指出在大数据时代背景下某些传统统计学方法的局限性,阐述了大数据的相关关系分析与传统的相关关系分析的不同之处,传统的相关关系分析基本是线性相关分析,大数据研究的相关关系分析不仅是线性相关,更多的是非线性相关以及不明确函数形式的线性关系。但实际上半结构化或非结构化数据变量之间可能存在某种相关关系,然而没办法知道变量之间关系的形式,所以度量相关程度的方法还有待完善。

尽管学术界已经对雾霾污染问题进行过一些相关统计研究,提出了一些有价值的的思路和建议,但仍存在一些不足的地方:①有些研究由于难以获取数据,而采用抽样的形式从全国雾霾污染较为严重的城市当中抽取部分城市进行研究,而其他有些城市也存在雾霾污染的状况,并且传统的数据方法还具有一定的滞后性;②为了节约成本,抽样调查在数据获取的情况下是一种重要的统计调查方法,但是随着大数据技术的发展,获取各类数据的难度越来越低,若能够对雾霾污染各种结构化和非结构化数据进行实时分析,实时获取相关分析结果,将对雾霾污染治理具有重要作用;③对于纷扰复杂的雾霾污染数据的统计分析来说,分析数据时效性比对精度的要求更重要,同时降低对精度的要求能够更容易地洞悉大方向的研究结果。虽然通过传统的统计学方法深入分析能够充分挖掘到有限数据的信息,而在大量数据分析的场合下就会显示出过于注重分析结果的精确性的劣势。

2 雾霾污染问题的大数据关联分析统计测度方法的提出

2.1 大数据关联分析法

2.1.1 大数据关联分析的基础理论

大数据是指不用抽样调查这样的捷径,而是对所有数据进行分析处理。大数据的简单算法可能比小数据的复杂算法更有效,体现在:(1)全数据模式(样本=总体),雾霾污染问题的大数据分析包含更多的海量数据,而不再依赖随机抽样,通过大数据分析可为雾霾污染联防联控工作的开展带来巨大的价值(大数据技术的核心是挖掘出庞大的数据库独有的价值[16]);(2)大数据的核心是预测,关键在于是建立在海量数据的基础上的。系统可以通过一种反馈学习机制,利用自己产生的数据判断自身算法和参数选择的有效性,并实时对存量雾霾污染问题的数据进行调整,持续改进自身的表现[16];(3)进行雾霾污染问题大数据的关联分析是预测的关键,大数据注重相关分析而弱化因果关系,通过应用关联分析捕捉现在和预测未来。可以说,在雾霾污染治理方面,大数据作用重大,可带来巨大价值,但必须经过有效整合、统计分析和数据挖掘才能释放出来。

2.1.2 大数据在雾霾污染问题统计分析的必要性

大数据分析方法相比传统统计分析方法具有一定的优点,传统统计分析主要处理结构化数据(即存储在数据库里,可用二维表结构来逻辑表达实现的数据),难以对纷扰复杂的雾霾污染的非结构化数据(文本、图像、声音、信号、网页、视频等数据)进行分析。而大数据分析可以解决非结构化数据的融合和整合问题。因此,大数据概念(具有规模性、多样性、高速性和价值性特征[17])、大数据技术(具备可数据化、价值挖掘及数据再利用功能)和大数据思维(进行角色定位与商业变革)的形成与扩散可能会成为解决雾霾污染问题的关键。大数据关联分析可以表示对象或事件的数据的单个或者多个属性和变量进行关联,而数据可以按其所在的不同维度,将其分类、排序、组合、关联和显示[18]

2.2 雾霾污染数据处理

根据对雾霾污染问题现状分析,纷扰复杂的雾霾污染的数据基本分为三类:一类是结构化数据,即信息存储在数据库里,可以用二维表结构来逻辑表达;另一类是非结构化数据,即信息不能以二维表的形式存储在数据库里,如办公文档、各类报表、电子邮件、图片、音频、视频、HT-ML页面、XML文档等。

对这些数据,需要进行量化处理,结构化数据可以通过查找气象局相关网站的数据库和统计年鉴直接获取,非结构化数据需要通过相应的技术进行处理向结构化数据转化。在很多情况下,由于不同指标的来源、统计尺度、以及统计单位等各个方面均存在差异,导致很多数据不具有可比性,因此,在进行数据分析之前,首先应对数据进行转换,包括两个方面:一是统一数据统计尺度;二是对数据进行标准化处理,消除量纲的影响。

2.3 雾霾污染问题的评价指标设置和筛选

本文在遵循科学性、系统性、层次性、完整性、独立性和实践性等原则的基础上,建立大数据相关性法、云计算与系统科学等分析方法,而且分别采用重要性评价法、理论分析法、德尔菲法、传统统计法与大数据相关性相结合的方法对评价指标进行设置和筛选。

2.4 建立大数据时代雾霾污染问题统计模型

针对我国国民经济、生态系统、居民身体健康和人造环境的危害等雾霾污染问题,通过“时间尺度、空间尺度、政策层面”的三维相关分析、独立性分析和灰色层次分析相融合,建立一套涵盖结构性与非结构性的海量数据库平台,采用云计算、系统科学及相关性统计方法,进行数据链挖掘关联物,有效地把握与预测雾霾污染问题,由此建立大数据时代雾霾污染问题统计模型(见图1)。

2.5 雾霾污染问题统计分析基本思路

在国内外雾霾污染研究现状、各城市统计年鉴和官方公布相关分析数据的基础上,以计算机科学、统计学、信息学、生态学、系统科学分析等理论为指导,基于大数据平台,应用大数据相关关系、云计算与系统科学等分析方法,针对雾霾污染的成因与治理问题,建立通过数据挖掘来判断与预测雾霾污染问题的数据分析和算法系统;并对区域性雾霾污染问题进行统计分析,验证大数据相关性分析测度统计方法的科学性和有效性,并提出完善雾霾污染治理措施的政策建议。基本思路见图2

1)雾霾污染问题现状和基于大数据关联分析雾霾污染问题统计的必要性。首先描述雾霾污染问题日益严重,已接近生态红线,而制度设计、政策导向及防治法律的缺失;其次在分析国内外专家对雾霾污染问题统计研究的基础上,评价体系的差距与不足,指出传统统计分析的缺陷,阐述大数据分析功能,大数据相关性分析的必要性;进一步,提出本文的研究目标是建立通过数据挖掘来判断与预测雾霾污染问题的数据分析和算法系统。

2)理论与技术支撑环境及大数据分析方法应用。列举国内外与雾霾污染问题统计研究相关的理论,国外雾霾污染治理的可借鉴成果;阐述雾霾污染问题的数据分析和算法系统理论,包括基于计算机科学、信息学、统计学、生态学、系统科学分析;技术支撑环境涵盖云计算、统计学、系统动力学仿真软件、雾霾污染问题的数据分析和算法系统软件,还有数理模型、计量经济学模型等;针对雾霾污染问题的统计资料、问卷调查、属性数据和图形数据构成的大数据库,进行比较分析、相关分析和模型预测等大数据分析。

3)雾霾污染问题的数据分析和算法系统的构建。依托大数据平台,进行雾霾污染问题数据库管理和大数据价值链挖掘,通过大数据关联分析、云计算及系统科学方法,依据系统建立的基本原则,建立雾霾污染问题的数据分析和算法系统。

4)雾霾污染问题的数据分析和算法系统的统计分析。将基于大数据相关性来分析雾霾污染问题的数据分析和算法系统应用到具体的我国京津冀、长三角和珠三角等区域,并进行统计分析,将系统中评级指标成效进行排序。

5)完善雾霾污染治理措施的政策建议。根据分析结论验证大数据关联分析测度方法的科学性、有效性与普适性,并提出完善雾霾污染治理措施的政策建议。

3 总结与展望

关于雾霾污染问题,现状分析和传统统计分析难以处理雾霾污染等非结构化数据,本文建立一套涵盖结构性与非结构性的海量数据库平台,进行数据链挖掘,提出具有普适性的“大数据关联分析统计测度方法”,并探讨了中国雾霾污染问题统计分析的基本思路。然而,基于大数据关联分析的中国雾霾污染问题统计研究是一项具有探索性的研究课题,在数据搜集和选取、数据链挖掘等方面还存在许多技术和实践上的困难,要达到有效地把握与预测雾霾污染问题,提供充分准确的信息,还需要不断的探索,今后需要针对以下几个方面展开重点研究:①以计算机科学、统计学、信息学、生态学、系统科学分析理论为指导,摈弃以往传统统计学方法随机样本选取的片面性、有偏性,主要是通过云计算、系统科学及相关性分析对涉及雾霾污染问题的所有数据进行分析评价。②依托大数据平台深入挖掘潜在价值,通过对关联物进行相关性分析,及时有效地把握与预测雾霾污染问题,提供准确信息。③基于大数据平台,深入分析区域性雾霾污染问题,对不同区域构建雾霾污染治理评价系统,显示区域差异特色,为雾霾的综合治理提供科学依据。

参考文献:

[1]贺泓,王新明,王跃思等.大气灰霾追因与控制[J].中国科学院院刊,2013283.

[2]DavisD L. A Look Back at theLondonSmog of 1952 and the Half Century Since[J]. Environmental health perspectives200211012.

[3]Chass R LKrenz W BNevitt J Set al.Los AngelesCountyActsto Control Emissions of Nitrogen Oxides From Power Plants[J]. Journal of the Air Pollution Control Association1972221.

[4]董树屏,刘涛.用扫描电镜技术识别广州市大气颗粒物主要种类[J].岩矿测试,2001203.

[5]刘田,裴宗平.枣庄市大气颗粒物扫描电镜分析和来源识别[J].环境科学与管理,2009342.

[6]Chaloulakou AKassomenos PSpyrellis Net al. Measurements of PM 10 and PM 2.5 Particle Concentrations in AthensGreece[J]. Atmospheric Environment2003375.

[7]Hu SMcDonald RMartuzevicius Det al. UNMIX Modeling of Ambient PM 2.5 Near an Interstate Highway in CincinnatiOHUSA[J]. Atmospheric environment2006,(40.

[8]李祚泳,倪长健,丁晶.粗集理论应用于大气颗粒物的源解析[J].四川大学学报(工程科学版),2004354.

[9]叶文波.宁波市大气可吸入颗粒物PM10PM2.5的源解析研究[J].环境污染与防治,2011339.

[10]Okamoto SHayashi MNakajima Met al. A Factor Analysis-multiple Regression Model for Source Apportionment of Suspended Particulate Matter[J]. Atmospheric Environment. Part A. General Topics1990248.

[11]Ho K FCao J JLee S Cet al. Source Apportionment of PM2.5 inUrban Area ofHong Kong[J]. Journal of Hazardous Materials20061381.

[12]邹本东,徐子优,华蕾等.因子分析法解析北京市大气颗粒物PM10的来源[J].中国环境监测,2007232.

[13]朱志超,孔玲莉,夏锴.武汉市PM10源解析及其对策研究[J].环境科学与技术,2009329.

[14]Reshef D Net al. Detecting Novel Associations in Large Data Sets[J]. Science2011.

[15]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014312.

[16][]维克托·迈尔舍恩伯格、肯尼思·库克耶.大数据时代一生活、工作与思维的大变革[M].盛杨燕、周涛译.杭州:浙江人民出版社,20131.

[17]Grobelnik M.Big-data ComputingCreating Revolutionary Breakthrough in Commerce[EB/OL]. Science andSocitty. 2012. http//vide-olectures.net/eswc2012 grobelnik big data/.

[18]金宗泽,冯亚丽,文必龙等.大数据分析流程框架的研究[J].计算机技术与发展,2014248.

作者简介:高广阔(1966—),男,山东济南人,教授,博士生导师,研究方向:统计学、工商管理学、产业经济学。吴世昌(1991—),男,江西余干人,硕士研究生,研究方向:统计学。韩颖(1989—),女,江苏徐州人,硕士研究生,研究方向:产业经济学。

信息来源:《统计与决策》2016年第24期
相关文件:
湖北省信息学会 地址:武昌洪山路2号湖北科教大厦D座11楼     邮编:430071
电话(传真):027-87837216,87717710 E-mail:hbsxxxh@163.com