您的位置: 主页 > 虎虎vr > 大团圆简谱:基于航空大数据的机场客流量时空分布预测

大团圆简谱:基于航空大数据的机场客流量时空分布预测

时间: 2018-12-08阅读:

摘要;机场客流量时空分布对于机场基础设施布置、人员安排、广告投放具有重要影响,如何合理利用资源是机场管理人员一大难题,本文以广州白云机场数万离港旅客在机场留下百万级的数据记录为基础,预测未来一段时间内的客流量分布情况。通过对数据的预处理与详细深入的分析,选取了一定数量的特征值建立模型。本文选择使用均值模型和时间序列模型作为主要的预测模型,来对未来该时间段进行预测,对未来一段时间内得到客流量进行预测,最终得到一个较为优于传统均值模型的预测结果。

【关键词】数据清洗 python 特征值 均值模型 时间序列模型

机场拥有巨大的旅客吞吐量,与巨大的人员流动相对应的则是巨大的服务压力。安防、安检、突发事件应急、值机、行李追踪等机场服务都希望能够预测未来的旅客吞吐量,并据此提前调配人力物力,更好的为旅客服务。随着大数据、机器学习等技术的发展以及原始数据的积累,以客流量时空分布预测为核心的交通智能诱导技术越来越成为未来智能交通的热点问题之一。

本文以广州白云机场每天数万离港旅客在机场留下百万级的客流数据为基础,根据原始数据中的连接Wi-Fi AP (Access Point)的人数表、航班排班表、机场登机口区域表、机场Wi-Fi接入点坐标表及安检旅客过关人数表中的数据通过算法来构建未来3小时机场客流量预测模型。本研究项目通过构造均值模型与时间序列模型对广东白云机场人流量的预测,以实现提高资源利用率、增大机场运行效率的效果。

1 均值模型的建立

均值一方差模型是由H M. Markowitz(哈里·马科维茨)在1952年提出的风险度量模型。在期初,他购买一些证券,然后在期末卖出。那么在期初他要决定购买哪些证券以及资金在这些证券上如何分配,也就是说投资者需要在期初从所有可能的证券组合中选择一个最优的組合。这时投资者的决策目标有两个:尽可能高的收益率和尽可能低的不确定性风险。最好的目标应是使这两个相互制约的目标达到最佳平衡。由此建立起来的投资模型即为均值.方差模型。

基于本题,为了使预期效果与实际情况相符合,尽可能的规避一些误差,达到最终想要的合理预测结果,本文通过建立均值模型来估计。每天的人员流动量都存在一定的差距,而直接将所有去除异常之后的日子取均值并是不特别好的策略,这样的策略存在较大的误差。此外,对于本题本文认为机场的排班信息比较固定,登机口位置以及各种基础设施位置是固定的,所以机场内的人员流动也存在一定的规律性。

首先,本文统计了机场内所有的Wi-FiAP个数,以及每个Wi-Fi AP所在的位置,在综合了楼层信息与登机口信息后,结合数据探索阶段所整理的数据,建立均值模型。在此,本文假设机场下午3点至6点的人流总量应当与当天这个时刻之前的人流量存在一定的关系,所以本文提取了上午6点到下午3点这一时间段的数据作为人流量的参考值。最后依据这部分数据和之前去除异常后多天该时间段的数据来对下午3点到6点机场客流量分布进行预测。

2 时间序列模型的建立

在生产和科学研究中,对某一个或一组变量x(t)进行观察测量,将在一系列时刻tl,t2,…,tn(t为自变量)按照时间次序排列,并用于解释变量和相互关系的数学表达式。

而ARMA模型是时间序列模型下的一个种类,ARMA模型的全称是自回归移动平均(auto regression moving average)模型,它是目前最常用的拟合平稳序列的模型,它又可细分为AR模型(auto regression model)、MA模型(moving average model)和ARMA模型(autoregression moving average model)三大类。

ARMA模型是根据平稳随机时间序列模型推导出来的。首先一个普通的随机时间序列模型是这样的:

它表达的意思就是预测值Xt是由过去值Xt-n以及随机扰动项决定的。如果随机扰动项是白噪声,即μ=ε,那么我们就得到这么一个式子:

这里的ψ就是具体成过去值的系数,而这个式子就是上面所描述的AR模型。但如果这个随机扰动项不是白噪声而是一个移动平均过程,也就是说:

其中θ是q介白噪声的系数,这个式子就是MA模型。那么,我们把MA模型式子代入原来的式子就是这么样子:

这个就是时间序列模型ARMA模型。它主要刻画了一个时间序列可以由它的自身过去值和滞后值来解释,同时它又是平稳的,即不会随着时间的变化来改变。由于这个特性,凡事符合条件的事件我们都用这个模型来预测未来的值。

在引入时间序列模型之前,我们发现了一个问题,如果只用均值模型一种模型来预测,数值就会在3点这个时间点出现断点,这个时间点的前后平均客流量差距过大,但是在这段时间内,客流量成周期性变化而且与时间推移无关,因此这个时间段完美契合了使用ARMA模型进行分析和预测的条件。考虑到人们在机场移动具有连续性的特征,我们提出使用时间序列模型中的ARMA模型,对预测进行进一步的修正与改进。

3 实验与结果分析

3.1 数据预处理

首先对得到的白云机场五个表格的数据进行数据清洗,删除或者修补错误数据或者脏数据,以提高后期我们模型建立的效率。

对数据表格中的时间信息转化为pandas能解析的数据并存入Time数组中,并将五个表格按照设计程序的格式重新提取整合,最终达到处理好的数据表格。并将处理好的数据按照列的顺序存入新表中。

3.2 问题分析

经过初步的分析,乘客在机场值机、安检、候机、行李提取等行为会对人流量分布有所影响,此外一些基础设施的安排也会影响客流量分布,比如超市、餐饮、卫生间的位置等。

首先我们将这些乘客的行为信息以及机场的物理地址信息相结合,将所有可能考虑到的因素作为特征值,建立对应的模型进行预测。后通过实践发现机场复杂的地理位置信息较难总结出一个或多个合适的特征,并且特征值越多并不能保证模型越精准。

经分析发现特征值数量过多会造成预测效果的降低,此外,飞机起飞、到达、历史信息,机场位置信息,时间信息等具有上千种特征值,无法一一分析。所以通过降低分析维度,使用主要的影响因素作为特征值,对该模型进行建立。

通过初步的问题分析,得出下面重要信息:

(1)机场每天的排班表基本稳定,用户在机场内的行走模式也基本稳定;

(2)时间序列具有一定程度的连续性,下午三点至六点的情况会一定程度延续此前几小时的情况;

(3)机场位置信息固定,所以根据Wi-Fi点所存储的信息来作为主要预测数据表。

3.3 模型建立

基于以上两点情况,通过两个基本模型来涵盖所列出的主要特征值,从而解决该问题,分别为时间序列模型、均值模型。

模型建立的过程是一个比较复杂的过程,首先我们尝试着将数据轉化成图片,这样有利于直观的分析数据变化的趋势。在图中,我们发现机场人流量的变化是周期性变化,尤其在下午3点到6点。因此,我们先打算用均值模型处理这一部分数据,在这一过程中,我们还将标准差大于90%或者小于10%的数据剔除。

通过GetTimeSeries(Wi-Fi APTag)函数,提取出特定的Wi-Fi AP时间序列数据,以及每十分钟的平均连接数。如下所示。

我们以Wi-Fi AP El-lA-l为例绘制了以时间为横轴,平均连接人数为纵轴的图标。通过该图我们发现,人数随着时间呈现规律性的周期变化,但也存在一些特殊的天。

在得到相应的数据后,我们考虑到某些天会出现异常数据,所以我们需要将这些异常天数以及该天下的数据剔除,而我们的剔除策略是对每天特定时间的数据求均值和标准差,然后将均值与标准差落在10%分位数以下和90%分位数以上的日子去除。

通过设置两个较为接近的均值模型函数,只在一些参数根据具体的登机口、公共服务设施等因素的影响有所不同。通过对比组的设置,使得最后在误差分析挑选模型时,可以多一个更好的选择。

在函数Do_ARMA()中,我们是直接调用statsmodel包中的ARMA对象来自动生成ARMA模型。拟合出来的结果非常满意,所以我们不再继续做调整。实际上,很多时候要考虑数据的平稳性处理,拟合后的差分分离,但在这个案例中我们并不需要做那么多,因为给的数据非常完美。

我们可以看到利用ARMA模型拟合的结果是近乎完美的。除此之外,我们通过计算标准差,协方差等数学方法来评估这个模型,在本案例中,也是非常贴切的。

3.4 模型融合

通过上述步骤后,我们已经整合出了三个基本模型,而这三个模型单独使用去预测所有的Wi-Fi AP效果必然不好,每个Wi-Fi AP都有自己最适合的模型,所以我们通过对前一周每天下午3点到6点的数据进行预测,计算每个Wi-Fi AP在每个模型上的平均误差,让每个Wi-Fi AP挑选误差最小的那个模型进行预测。数据有缺失的情况,所有模型中包含了蛮多的异常处理部分。

在将数据处理过后,我们将先前求取的两个均值模型imitatel和imitate2分别与时间序列模型ARMA融合,下列代码是融合的过程。通过使用ARMA来修正imitatel和imitate2中的数据。该函数中,Wi-Fi APTag是Wi-Fi的编号,Train Time表示训练集使用的数据范围,PredictTime表示未来预测时长,Rario Dict存储着每个Wi-FiAP点的误差调整。

4 结论

至此,我们一共可以使用四种模型(imitatel, imitate2, DO_ARMA,Combine)对不同的Wi-Fi AP未来客流量进行预测。我们对第一个Wi-Fi AP点的预测,可以看出随着傍晚临近,客流量是增多的。这与我们日常观察也是相吻合的。

根据以上数据分析评估公式,我们对我们的模型进行了误差分析,发现模型的误差率在百分之五以内,对于第一次做数据分析与预测的我们来说已经是非常好的成绩了。

参考文献

[1][美]埃里克·马瑟斯(EricMatthes).Python编程从入门到实践[M].人民邮电出版社,2016: 3-60.

[2][挪]MarkLutz,Python编程[M].中国电力出版社,2014: 5-80.

[3]王立柱.时间序列模型及预测[M].科学出版社,2018: 16-90.

上一篇:身在洪门:基于超声波测距原理的电子导盲车设计
下一篇:没有了

相关阅读