公路交通科技  2025, Vol. 42 Issue (11): 29-37

扩展功能

文章信息

刘芳亮, 宋国华, 吴亦政.
LIU Fangliang, SONG Guohua, WU Yizheng
基于断面数据和DFT-KNN-LSTM组合模型的短时交通流预测
Sectional data and DFT-KNN-LSTM hybrid model based short-term traffic flow prediction
公路交通科技, 2025, 42(11): 29-37
Journal of Highway and Transportation Research and Denelopment, 2025, 42(11): 29-37
10.3969/j.issn.1002-0268.2025.11.004

文章历史

收稿日期: 2024-12-04
基于断面数据和DFT-KNN-LSTM组合模型的短时交通流预测
刘芳亮 , 宋国华 , 吴亦政     
北京交通大学 交通运输学院, 北京 100044
摘要: 目标 为合理处理、利用交通流数据, 充分挖掘数据中的周期规律, 准确进行短时交通流预测, 考虑交通流时间特性及非线性、非平稳特征, 解决传统模型在数据量大、交通场景复杂情况下预测精度不足的问题。方法 提出DFT-KNN-LSTM组合模型: 采用离散傅里叶变换(DFT)分解交通流数据为趋势项与残差项, 通过能量阈值去除残差干扰, 挖掘周期规律, 提高数据质量。基于欧氏距离的K近邻(KNN)算法从大量交通流数据中筛选与目标天数相似度最高的K天数据(K=9时最优), 以实现交通流数据的合理利用。将筛选数据作为训练集、目标数据作为测试集输入长短时记忆网络(LSTM)进行短时交通流预测, 输出结果以MAE, MSE, RMSE为评价指标。以北京市东城区某街道采集的交通流数据为例, 对该组合模型预测性能进行分析, 并与多种模型预测效果进行对比。结果 该模型MSE为40.91(改善3.24%~19.05%), RMSE为6.40(改善1.54%~9.98%), MAE为4.77(改善3.05%~8.97%), 精度显著优于SVR, LSTM, KNN-LSTM等单一与传统组合模型。结论 该组合模型能够通过DFT预处理交通流数据以充分挖掘数据的周期规律, 采用KNN筛选并保留相似度高的有效数据, 结合LSTM处理复杂时间序列的优势, 可有效提升短时交通流预测精度, 适用于复杂交通场景。
关键词: 智能交通    短时交通流预测    组合预测    离散傅里叶变换    K近邻算法    长短时记忆网络    
Sectional data and DFT-KNN-LSTM hybrid model based short-term traffic flow prediction
LIU Fangliang, SONG Guohua, WU Yizheng    
School of Traffic and Transportation, Beijing Jiaotong University, Beijing 100044, China
Abstract: Objective To rationally process and utilize traffic flow data, fully explore periodic patterns within the data, and accurately perform short-term traffic flow prediction, this study considers the temporal characteristics, nonlinear and non-stationary features of traffic flow. It addresses the issues of insufficient prediction accuracy with traditional models when dealing with large datasets and complex traffic scenarios. Method DFT-KNN-LSTM hybrid model was proposed, where the discrete Fourier transform (DFT) decomposed traffic flow data into trend and residual components. The residual noise was removed through an energy threshold to extract periodic patterns, and enhance data quality. Euclidean distance-based K-nearest neighbors (KNN) algorithm was applied. The result was optimal when K=9. The data of K days with the highest similarity to the target day from extensive traffic flow data were selected, enabling efficient utilization of traffic flow data. The filtered data served as the training set, while the target data served as the test set. Both of them were input into a LSTM network for short-term traffic flow prediction. The output results were evaluated with MAE, MSE and RMSE as performance metrics. By using traffic flow data collected from a street in Dongcheng District of Beijing, the predictive performance of the hybrid model was analyzed and compared with other models. Result The proposed model achieved MSE of 40.91 with the improvement of 3.24%-19.05%; RMSE of 6.40 with the improvement of 1.54%-9.98%; and MAE of 4.77 with the improvement of 3.05%-8.97%. Its accuracy significantly outperformed single models (i.e., SVR and LSTM), as well as traditional hybrid models, e.g., KNN-LSTM. Conclusion The proposed hybrid model effectively enhances short-term traffic flow prediction accuracy by leveraging DFT for traffic flow data prediction to fully extract periodic patterns. It employs KNN to filter and retain highly similar valid data, and utilize LSTM's strengths in handling complex time series. It is suitable in complex traffic scenarios.
Key words: intelligent transport    short-term traffic flow prediction    hybrid prediction    discrete Fourier transform    K-nearest neighbor algorithm    long short-term memory networks    
0 引言

随着人们生活水平的不断提高,全国机动车保有量逐年上升,交通拥挤状况愈发严重。为缓解交通拥堵问题,智能交通应用逐年发展,交通流预测是合理监管道路流量状况,进行区域交通协调管理的重要措施,通过将交通流预测技术与交通监管手段合理结合,能够更好地缓解交通拥堵问题。

交通流预测需要建立合理的预测模型,根据某个路段的采集数据以预测其交通流量。在预测时间上,交通流预测主要分为3种预测方式:长期,中期,短期,长期以年为单位进行预测;中期以月或日为单位进行预测;短期以分钟为单位,一般在30 min以内进行预测[1]。交通流量预测具有时空相关性,通常会受到气候、突发事件等因素干扰,而短时交通流预测更加详细可靠,能够最大程度地减少随机性的影响。为进行精准预测,国内外学者不断丰富预测模型种类,丰富交通流预测的研究,主要分为参数、非参数与组合模型3类。

早期,学者主要采用参数模型预测交通流。最早由Voort[2]采用时间序列类模型中自回归积分滑动平均模型(ARIMA);Okutani[3]采用卡尔曼滤波模型应用于交通流预测,该方法可以较好地支持简单数据预测。参数模型基于历史数据统计分析,结合时间变化趋势进行预测,是一种简单快捷的预测方法,但参数模型容易受到交通流不平稳、非线性的影响,随着交通流量逐年增加,路网状况逐年复杂,参数模型进行交通流预测的效果略显不佳,无法对复杂交通流状况进行合理预测。

为解决参数模型应用的不足,在交通流非线性特征的基础上,提出非参数模型法,如非参数回归、K最近邻算法等。该类模型能够解决复杂交通流预测问题,但结构复杂,预测时间长,计算量大,准确性低。

基于参数模型与非参数模型的不足,研究学者提出组合模型以提高交通流预测的效率与精度,组合模型是将两种及以上模型,采用合理方法进行组合。Pan[4]组合FD-Markov-LSTM模型,通过在拥堵和非拥堵场景中整合统计数据来估计和预测交通状态,结果表明该组合模型性能相比于单个模型更优。Zhao[5]组合自适应噪声互补集成经验模态分解(CEEMDAN)、排列熵、基于量子启发和多策略改进的蜣螂优化算法(QMDBO)和深度极限学习机,提高预测效率。Naheliya[6]提出了一种双向长短期记忆(Bi-LSTM)模型,较其他模型性能较好。Luo[7]提出图时间卷积长短期记忆网络(GT-LSTM)以提高预测精准性。Wang[8]采用CNN-LSTM组合模型,设置3个特定特征的替代时空数据。Zhang[9]将随机森林RF,GA与SVR结合,通过随机森林与遗传算法得到最优参数,最终使用SVR方法预测交通流。Yao[10]将小波分析、ARIMA与GARCH模型结合,通过数据分解后再预测以提高预测精度。组合模型可以发挥多模型优点,但其预测效率也会受到原模型影响。

近年来,机器学习应用发展迅速,深度学习逐渐应用于交通流预测中。Ata[11]提出CNN-GRUSKIP模型,利用门循环单元功能处理序列,SKIP可以绕过和连接更长的时间依赖关系对交通流进行预测。Hu[12]提出动态多尺度时空图卷积网络(DS-STGCN)进行交通流预测。Zhao[13]将GCN与GRU结合,由于GCN具有较好地空间信息捕捉能力,因此交通流预测结果较更佳。Li[14]提出了阻抗-时空拓扑网络(Impedance-STTN)预测模型用于交通流预测。然而传统RNN模型会出现梯度爆炸与消失,从而影响预测结果,因此,研究学者在RNN的基础上,提出了长短时记忆网络(LSTM)。Zheng[15]通过LSTM预测交通流,结合多种因素对结果进行分析。罗向龙[16]将KNN与LSTM模型组合,基于时空特性预测交通流量。在时空特征融合方面,雷斌[17]构建了多图时空图卷积模型,通过多尺度图结构有效捕捉路网拓扑关系,提升了长时预测精度。在时序优化层面,黄艳国[18]提出基于RAdam优化的DLSTM-AE模型,增强了对交通流周期性与非线性特征的提取能力。

考虑到交通流时空特性,组合模型用于交通流预测的优势,因此本研究在结合交通流时间特性的基础上,将DFT,KNN与LSTM相结合,通过DFT算法对交通流数据进行分解,分解为趋势项与残差项并对分解后数据进行分析,去除残差项数据对于交通流预测的影响,根据KNN算法筛选高相似度天数的数据,以减少相似度较低的训练数据,加快训练速度,提高预测准确性,相较传统模型,能够减少训练使用数据,同时LSTM能够解决循环神经网络存在的问题,其特有的单元结构,能够合理利用数据,预测精度与效率优于传统单一模型与其他多种组合模型,通过三者组合预测,以实现更高精度的预测[19]

1 离散傅里叶变换

离散傅里叶变换(DFT)基于传统傅里叶变换提出,以分析数据采集系统量化而得到的时间序列信号。交通流数据包含多种频率成分,而传统预测模型难以处理其中的复杂波动和趋势。其针对有限长序列,将傅里叶变换的有限点进行频域离散化,同时进行离散采样分析,使得信号能够采用数值运算的方法进行处理[20]。离散傅里叶变换与傅里叶变换可挖掘交通流时域中的周期规律,转换到频域后,借频率成分精准预测高峰流量变化,捕捉异常波动先兆。其还可提升预测模型精度,频域分析所得频率成分、能量分布等特征可补充时域特征,让模型更全面掌握交通流特性,使预测更精准。

假定$x(n)$为原始信号的离散时间序列,$N$为信号$x(n)$的长度,$n$为时间索引,表示信号在第$n$个时间点的值;$X(k)$为信号$x(n)$的离散傅里叶变换,$k$为频率索引,表示第$k$个频率分量上的值;$W_{N}$为旋转因子,$W=\mathrm{e}^{-j \frac{2 {\rm{\mathsf{π}}}}{N}}$

$ X(k)=\sum\limits_{n=0}^{N-1} x(n) W_{N}^{k n} \quad 0 \leqslant k \leqslant N-1, \quad W=\mathrm{e}^{-\frac{2 {\rm{\mathsf{π}}}}{N}}, $ (1)
$ x(n)=\frac{1}{N} \sum\limits_{k=0}^{N-1} X(k) W_{N}^{-n k} \quad 0 \leqslant n \leqslant N-1。$ (2)

离散傅里叶变换在交通流预测的应用中,主要是对交通流时间序列进行处理,将交通流数据从时域转换到频域进行分析,由于交通流序列由交通信号规律不同的多频率随机波动项和趋势项组成,其在DFT变换后频谱能量分布的频段出现差异,可以通过设置能量阈值分离趋势与残差项,提高交通流数据的准确性,以提高预测精度。首先通过离散傅里叶变换,得到交通流数据转换信号在各频段范围内的频谱能量分布,其次分析能量分布状况,得到其分布规律。通过大量试验结果表明:交通流时间序列在DFT变换后的频谱能量分布,主要位于低频段。为使得数据分离科学、高效,本研究采用阈值以分离趋势与残差项。

(1) 首先假设交通流数据集X,代入式(1)得到频谱能量X′。

(2) 选取能量阈值为a

$ X^{\prime \prime}= \begin{cases}X^{\prime} & \left|X^{\prime}\right|>a \\ 0 & \left|X^{\prime}\right| \leqslant a\end{cases}。$ (3)

(3) 将处理后频谱能量X″,采用式(2)进行逆变换,得到趋势项XT

(4) 残差项$X_{\mathrm{R}}$为总数据集$X$与趋势项$X_{\mathrm{T}}$之差:

$ X_{\mathrm{R}}=X-X_{\mathrm{T}}。$ (4)
2 KNN算法

$K$近邻算法属于常见的非参数回归方法,操作简单,容易实现。在交通流预测中,常常通过建立历史数据库,根据历史数据库与当前观测值数据,在实际预测过程中确定最佳的近邻个数$K$,结合$K$近邻算法分析特定时间段内随机时间序列的相似性,篮选出相关性最强的数据作为交通流预测的依据。$K$近邻算法主要包含距离度量方式选取与$K$值的确定 [21]

2.1 距离度量方式的选取

由于交通流具有周期性,在搜寻最近邻向量的操作中,采用距离度量是最普遍的方式,主要方法有马氏、欧式距离等。欧氏距离是一种直观且简单的距离度量方式,计算两点之间的直线距离,这种直观性使得欧氏距离易于理解和实现,由于交通流数据具有很强的时间序列特性,欧氏距离可以用来衡量时间序列数据之间的相似性,因此本研究采用欧式距离进行计算。假设有两个向量($x_{11}, ~ x_{12}, \cdots$$x_{1 n}$)与($x_{21}, x_{22}, \cdots, x_{2 n}$),则其欧式距离$d$为:

$ d=\sqrt{\sum\limits_{r=1}^{n}\left(x_{1 r}-x_{2 r}\right)^{2}} 。$ (5)
2.2 K值的确定

该算法需要确定合适的近邻个数K,通常情况下,预测结果的精度会受到其选值的影响,随着K值不断增加,误差值会先增长再稳定,最后逐渐稳定或下降。关于K值的选取,在大部分论文研究中未有统一标准,但大多数取值位于5~25范围内,因此,可以通过选值的遍历计算,分析得出最优的K值。

3 LSTM模型

LSTM是基于循环神经网络(RNN)提出的改进模型。循环神经网络能够较好地对时间序列进行分析,其基于前馈神经网络,设置内部反馈连接,采取隐含层循环以保留各时段的有效信息,但RNN模型难以分析较长的时间序列,因为邻近时刻的信息更有可能被存储,从而损失较长时刻的信息,导致模型会出现梯度消失、爆炸问题。为确保信息能够顺利传递,避免梯度消失,LSTM在RNN的基础上,将隐含层优化为记忆块,引入细胞状态与门结构,使得信息能够通过输入、输出、遗忘门传递,以保护与管理细胞状态,分析长时间序列,处理长期依赖关系[22]。以下为LSTM各部分计算过程:

遗忘门:

$ f_{t}=\sigma\left(\boldsymbol{W}_{\mathrm{f}} \cdot\left[h_{t-1}, x_{t}\right]+b_{\mathrm{f}}\right)。$ (6)

输入门:

$ i_{t}=\sigma\left(\boldsymbol{W}_{i} \cdot\left[h_{t-1}, x_{t}\right]+b_{i}\right), $ (7)
$ \tilde{C}_{t}=\tanh \left(\boldsymbol{W}_{\mathrm{c}} \cdot\left[h_{t-1}, x_{t}\right]+b_{\mathrm{f}}\right)。$ (8)

更新细胞状态(该式表示细胞状态Ct通过遗忘门与输入门输出,进行加权更新):

$ C_{t}=f_{t} \cdot C_{t-1}+i_{t} \cdot \tilde{C}_{t } 。$ (9)

输出门:

$ o_{t}=\sigma\left(\boldsymbol{W}_{\mathrm{o}} \cdot\left[h_{t-1}, x_{t}\right]+b_{\mathrm{o}}\right), $ (10)
$ h_{t}=o_{t} \cdot \tanh \left(C_{t}\right), $ (11)

式中,$\sigma$为激活函数;$\boldsymbol{W}_{\mathrm{f}}, \boldsymbol{W}_{i}, \boldsymbol{W}_{\mathrm{c}}$为权重矩阵;$\left[h_{t-1}, x_{t}\right]$为前隐藏状态与当前输入组合;$i_{t}$为输入门$t$时的激活值;$\tilde{C}_{t}$为记忆细胞在$t$时刻更新状态;$h_{t}=o_{t} \cdot \tanh \left(C_{t}\right)$为输出门$t$时的激活值;$h_{t}$$t$时的隐藏状态;$\boldsymbol{W}_{\mathrm{o}}$为权重矩阵;$b_{\mathrm{f}}, b_{\mathrm{i}}, b_{\mathrm{o}}$为偏置项。

4 DFT-KNN-LSTM短时交通流预测模型 4.1 模型构建

短时交通流预测需要建立科学可靠的预测模型,结合目标路段的交通流数据,经过数据的处理分析,从而对该路段交通流量进行预测。本研究通过研究离散傅里叶变换(DFT)、K近邻算法(KNN)与长短时记忆网络(LSTM)的特点,其中,DFT能够挖掘交通流周期规律,通过设置能量阈值,可分离趋势项与残差项,去除残差项对预测的干扰,为后续预测奠定良好基础。KNN算法能在历史数据中筛选出与目标预测天数相似度较高的交通流数据,以加快训练速度。LSTM模型利用DFT,KNN算法处理、筛选后的高相似度数据进行训练预测,充分发挥其处理复杂时间序列的优势。将3种方法结合提出DFT-KNN-LSTM组合模型。首先预处理路段交通流历史数据,通过离散傅里叶变换分解,获得趋势项与残差项,根据K近邻算法的非参数回归搜索对处理后数据进行筛选,提高其与实际交通流状态的相似度,最后将数据输入长短时记忆网络(LSTM)模型预测未来交通流量,获取更高精度的预测数据。该组合预测模型功能架构图如图 1所示。

图 1 组合预测模型功能架构图 Fig. 1 Functional architecture diagram of hybrid prediction model

根据选定路段的某一车道断面交通流量,假设t为采集数据时间,n为日采集样本数,共统计d天交通流量 X为:

$ \boldsymbol{X}^{d}=\left[\begin{array}{llll} x^{1}\left(t^{1}\right) & x^{2}\left(t^{2}\right) & \cdots & x^{d}\left(t^{n}\right) \end{array}\right]^{\mathrm{T}}, $ (12)
$ \boldsymbol{X}=\left[\begin{array}{lllll} X^{1} & X^{2} & X^{3} & \cdots & X^{d} \end{array}\right]^{\mathrm{T}} 。$ (13)

根据本研究DFT部分内容,将交通流量$\boldsymbol{X}^{d}, \boldsymbol{X}$进行分解,得到其对应的趋势项$\boldsymbol{X}_{\mathrm{T}}^{d}, \boldsymbol{X}_{\mathrm{T}}$与残差项$\boldsymbol{X}_{\mathrm{R}}^{d}, \quad \boldsymbol{X}_{\mathrm{R}}:$

$ \boldsymbol{X}^{d}=\boldsymbol{X}_{\mathrm{T}}^{d}+\boldsymbol{X}_{\mathrm{R}}^{d}, $ (14)
$ \boldsymbol{X}=\boldsymbol{X}_{\mathrm{T}}+\boldsymbol{X}_{\mathrm{R}}, $ (15)
$ \boldsymbol{X}_{\mathrm{T}}^{d}=\left[\begin{array}{llll} x_{\mathrm{T}}^{1}\left(t^{1}\right) & x_{\mathrm{T}}^{2}\left(t^{2}\right) & \cdots & x_{\mathrm{T}}^{d}\left(t^{n}\right) \end{array}\right]^{\mathrm{T}}, $ (16)
$ \boldsymbol{X}_{\mathrm{R}}^{d}=\left[\begin{array}{llll} x_{\mathrm{R}}^{1}\left(t^{1}\right) & x_{\mathrm{R}}^{2}\left(t^{2}\right) & \cdots & x_{\mathrm{R}}^{d}\left(t^{n}\right) \end{array}\right]^{\mathrm{T}}, $ (17)
$ \boldsymbol{X}_{\mathrm{T}}=\left[\begin{array}{lllll} X_{\mathrm{T}}^{1} & X_{\mathrm{T}}^{2} & X_{\mathrm{T}}^{3} & \cdots & X_{\mathrm{T}}^{d} \end{array}\right]^{\mathrm{T}}, $ (18)
$ \boldsymbol{X}_{\mathrm{R}}=\left[\begin{array}{lllll} X_{\mathrm{R}}^{1} & X_{\mathrm{R}}^{2} & X_{\mathrm{R}}^{3} & \cdots & X_{\mathrm{R}}^{4} \end{array}\right]^{\mathrm{T}} 。$ (19)

(1) 根据分解后数据分析,采取趋势项作为数据$X_{\mathrm{T}}$,结合选用欧氏距离的KNN算法筛选与目标预测交通流相似度较高的$K$天交通流数据,目标天数交通流数据为$X_{\mathrm{T}}^{D}$,第$i$天的交通流数据为$X_{\mathrm{T}}^{i}$,二者之间欧氏距离为$d$

$ d=\sqrt{\sum\limits_{r=1}^{n}\left(X_{\mathrm{T}}^{i}-X_{\mathrm{T}}^{D}\right)^{2}} 。$ (20)

(2) 使得K=1。

(3) 选取KNN算法获取的相似度较高的共$K$天的交通流数据$X_{\mathrm{T}}^{k}$作为训练集,目标天数交通流数据$X_{\mathrm{T}}^{D}$为测试集,$X_{\mathrm{R}}^{D^{\prime}}$为相似度较高的共$K$天的交通流残差项数据的平均值,$\phi$为LSTM预测模型,则预测值为:

$ \hat{X}_{\mathrm{T}}^{D}=\phi\left(X_{\mathrm{T}}^{1} X_{\mathrm{T}}^{2} \cdots X_{\mathrm{T}}^{k}\right)+X_{\mathrm{R}}^{D^{\prime}}, $ (21)
$ X_{\mathrm{R}}^{D^{\prime}}=\frac{1}{k}\left(\sum\limits_{k=1}^{k} X_{\mathrm{R}}^{k}\right) 。$ (22)

(4) 得到预测值后进行误差分析。

(5) 使得K=K+1进行迭代计算,再次进行步骤(3),(4),待K大于交通流数据总天数时停止迭代。

(6) 对各K值预测结果得到误差值进行比较分析,选出预测效果最好的K值及其预测结果作为最终结果。

4.2 预测误差指标

为检验该组合模型的性能,本研究采用平均绝对误差(eMA)、均方误差(eMS)与均方根误差(eRMS)对预测结果进行分析评价。

平均绝对误差:

$ e_{\mathrm{MA}}=\frac{1}{n} \sum\limits_{i=1}^{n}\left|\hat{y}_{i}-y_{i}\right|, $ (23)

均方误差:

$ e_{\mathrm{MS}}=\frac{1}{n} \sum\limits_{i=1}^{n}\left|\hat{y}_{i}-y_{i}\right|^{2}, $ (24)

均方根误差:

$ e_{\mathrm{RMS}}=\sqrt{\frac{1}{n} \sum\limits_{i=1}^{n}\left|\hat{y}_{i}-y_{i}\right|^{2}}, $ (25)

式中,$\hat{y}_{i}$为交通流量预测值;$y_{i}$为真实值;$n$为样本个数。

5 实例分析 5.1 数据来源

采用数据为北京市东城区某街道,由道路交通流检测设备TT007315采集的交通流数据。数据采集区间为2024年9月1日至9月24日,共24日数据,数据采集的时间间隔为10 min,每日采集样本数为144。本研究采用9月1日至23日的数据,作为KNN算法筛选高相似度数据的数据库,将第24日数据作为测试集数据。

5.2 DFT变换分解数据

实例分析结合组合模型进行预测,首先对于交通流数据进行DFT变换,为确定阈值选取,首先对阈值a选取0.1~0.9进行交通流预测并分析误差,得到误差结果对比如图 2所示,可以发现当能量阈值a=0.5时误差最小。

图 2 误差分析对比 Fig. 2 Error analysis

因此选取频谱能量阈值a=0.5,从而有效分离趋势项与残差项数据,图 3为2024年9月1日的交通流数据进行分离后数据图,24日交通流数据分解情况基本一致,因此将该日分解数据进行具体分析。

图 3 交通流数据分解 Fig. 3 Traffic flow data decomposition

将分解后的趋势与残差项数据与分离前数据进行对比,可以发现原始数据去除残差项后,趋势项数据与原始数据基本吻合,因此选取趋势项数据作为预测训练集数据,残差项作为后续优化完善预测结果的数据集。

5.3 KNN算法筛选训练集与模型预测

本研究基于欧氏距离的KNN算法对趋势项数据集进行筛选,筛选出与目标预测天数相似度较高的K天交通流数据,K值的选取至关重要,能够影响预测结果与性能。本研究选取目标预测天数为第24 d,因此选取K从1~23进行迭代,筛选出K值对应筛选高相似度天数,不同K取值情况下,进行均方误差分析,其对比图如图 4所示。

图 4 不同K取值的eMS对比 Fig. 4 eMS comparison with different K values

综合以上分析可以看出,当K=9时,交通流预测结果最优,因此选取K=9,其对应天数按相关性由高到低依次日期为:3,14,2,12,13,11,23,19,22日,以上9 d的交通流量与第24 d的交通流量热力图如图 5所示,根据热力图对比可发现K=9对应天数的交通流量与第24 d的交通流量相似度较高,并将K=9对应天数的交通流数据作为预测训练集,第24 d交通流数据作为测试集。本研究LSTM模型含输入、隐藏以及输出层。将上文选定训练集与测试集数据代入模型,对目标天数交通流量进行预测。

图 5 交通流量热力图 Fig. 5 Heatmap of traffic flow

5.4 预测结果分析

由于当K=9时,交通流预测结果最优,因此将K=9与其对应天数的交通流数据作为预测训练集,第24日数据为测试集,代入LSTM模型进行预测,经多次训练调整,在此展示选取超参数中隐含层数1~10与隐含层神经元数量1~100进行敏感性分析的结果,结果如图 6所示。当设置输入层数为1,输入层神经元个数为1,隐含层数为3,隐含层神经元个数为50,激励函数选用tanh激活函数,反向传播过程中优化器采用Adam算法,学习率为0.001,迭代次数为100次,预测结果最优。

图 6 敏感性分析 Fig. 6 Sensitivity analysis

DFT-KNN-LSTM组合模型输出预测结果图如图 7所示,绝对百分比误差如图 8所示,由图可见,在早晚高峰期间绝对百分比误差较小,而在00:00至早高峰前,由于实际交通流量较小,绝对百分比误差较大。预测残差值如图 9所示,预测交通流量的大部分残差值在±15以内。

图 7 组合模型预测结果 Fig. 7 Prediction result with hybrid model

图 8 绝对百分比误差 Fig. 8 Absolute percentage error

图 9 残差图 Fig. 9 Residual plot

本研究为评价DFT-KNN-LSTM组合模型的预测性能,分别采用多种算法,并对DFT-KNN-LSTM组合模型组件进行替换,对第24日交通流数据进行预测,为确保对比公平性,训练和测试数据划分保持一致性,对于需要调整超参数的算法,如GRU、LSTM与KNN-LSTM等,采用相同的超参数设置。采用相同的评估指标均方误差、均方根误差、平均绝对误差来衡量各个算法的性能,在硬件和软件环境上,保持一致性。预测误差结果对比如表 1所示。

表 1 各模型预测性能对比 Tab. 1 Comparison of various models' prediction performances
模型 eMS eRMS eMA
SVR 50.54 7.11 5.24
CNN 50.35 7.09 5.21
GRU 44.40 6.67 5.08
KNN 43.94 6.63 5.10
LSTM 45.03 6.71 5.09
CNN-GRU 48.97 6.99 5.20
KNN-GRU 44.88 6.70 5.04
KNN-LSTM 42.28 6.50 4.92
DFT-KNN-GRU 44.09 6.64 4.95
DFT-KNN-LSTM 40.91 6.40 4.77

综上分析,传统参数模型如SVR模型,基于历史数据统计分析,容易受到交通流不平稳、非线性的影响,在复杂交通流状况下预测效果不佳。非参数模型如KNN算法,虽能解决复杂交通流预测问题,但存在计算量大、准确性低的缺点。DFT-KNN-LSTM组合模型结合了多种模型的优势,通过DFT处理数据、KNN筛选数据、LSTM进行预测,在预测精度上有显著提升。可以发现DFT-KNN-LSTM组合模型的预测性能相较传统单一模型与其他多种组合模型均较好,本研究提出的方法误差更低,DFT-KNN- LSTM组合模型的eMS改善了3.24%~19.05%, eRMS改善了1.54%~9.98%, eMA改善了3.05%~8.97%,其中KNN相较CNN算法,对数据需求较低且决策过程直观,LSTM相较GRU能够处理更复杂的长期依赖,对信息筛选更精确,同时,不同组合模型的预测结果会受到原模型影响,DFT-KNN-LSTM组合模型相较KNN,LSTM,CNN-GRU,KNN-GRU,KNN-LSTM,DFT-KNN-GRU模型,DFT-KNN-LSTM组合模型的预测误差更低,证明了DFT-KNN-LSTM组合模型组件的有效性,组合模型预测性能较好,同时具有可行性。

6 结论

本研究考虑交通流时间特性,结合离散傅里叶变换、K近邻算法以及LSTM模型的特点,组合建立DFT-KNN-LSTM模型用于短时交通流预测,与传统模型相比,该模型能够减少训练数据的同时具有良好的预测性能。该组合模型首先通过DFT分解交通流数据为趋势项与残差项,去除残差项数据对于交通流预测的影响,通过与原始数据对比,分析分解数据的特点,再通过基于欧氏距离的K近邻算法筛选与目标天数相似性较高的K天交通流数据,根据高相似度数据与目标天数的数据建立训练集与测试集数据,最终将其代入LSTM模型预测交通流。通过实例分析,证明了本研究提出组合模型预测交通流的可行性,同时,交通流数据包含多种频率成分,传统预测模型难以处理其复杂波动和趋势,DFT能够充分挖掘交通流时域中的周期规律,通过变换分离数据,可以发现原始数据去除残差项后,趋势项与原始数据基本吻合,证明DFT在处理交通流数据方面的有效性。KNN算法作为非参数回归方法,操作简单且容易实现,基于欧氏距离的KNN算法,在确定K值时,通过遍历计算分析得出最优值,能在历史数据库中筛选出与目标预测天数相似度较高的交通流数据,减少不相关数据对训练的干扰,以加快训练速度,提高预测准确性。LSTM模型利用KNN算法筛选出的高相似度数据进行训练预测,充分发挥了其处理复杂时间序列的优势。经对比发现DFT-KNN-LSTM组合模型相较传统单一模型与其他多种组合模型预测效果均较好,表明本研究提出的DFT-KNN-LSTM组合模型具有良好的预测性能,能够较好地运用于短时交通流预测。

但本研究模型主要考虑交通流的时间特性,数据处理方式还可以进一步优化,在后续研究中,可以综合考虑道路空间特性的影响,采用多种方法对数据进行处理,剔除异常数据,除此以外,还可以考虑节假日等特殊情况的交通流预测,实现模型的改进优化,进一步提高预测精度,并进行实时交通流的预测。

参考文献
[1]
姚俊峰, 何瑞, 史童童, 等. 基于机器学习的交通流预测方法综述[J]. 交通运输工程学报, 2023, 23(3): 44-67.
YAO Junfeng, HE Rui, SHI Tongtong, et al. Review on machine learning-based traffic flow prediction methods[J]. Journal of Traffic and Transportation Engineering, 2023, 23(3): 44-67.
[2]
VAN DER VOORT M, DOUGHERTY M, WATSON S. Combining kohonen maps with ARIMA time series models to forecast traffic flow[J]. Transportation Research Part C: Emerging Technologies, 1996, 4(5): 307-318. DOI:10.1016/S0968-090X(97)82903-8
[3]
OKUTANI I, STEPHANEDES Y J. Dynamic prediction of traffic volume through Kalman filtering theory[J]. Transportation Research Part B: Methodological, 1984, 18(1): 1-11. DOI:10.1016/0191-2615(84)90002-X
[4]
PAN Y A, GUO J, CHEN Y, et al. A fundamental diagram based hybrid framework for traffic flow estimation and prediction by combining a Markovian model with deep learning[J]. Expert Systems with Applications, 2024, 238: 122219. DOI:10.1016/j.eswa.2023.122219
[5]
ZHAO K, GUO D, SUN M, et al. Short-term traffic flow prediction based on hybrid decomposition optimization and deep extreme learning machine[J]. Physica A: Statistical Mechanics and its Applications, 2024, 129870. DOI:10.1016/j.physa.2024.129870
[6]
NAHELIYA B, REDHU P, KUMAR K. MFOA-Bi-LSTM: An optimized bidirectional long short-term memory model for short-term traffic flow prediction[J]. Physica A: Statistical Mechanics and its Applications, 2024, 634: 129448. DOI:10.1016/j.physa.2023.129448
[7]
LUO Y, ZHENG J, WANG X, et al. GT-LSTM: A spatio-temporal ensemble network for traffic flow prediction[J]. Neural Networks, 2024, 171: 251-262. DOI:10.1016/j.neunet.2023.12.016
[8]
WANG J D, SUSANTO C O N. Traffic flow prediction with heterogenous data using a hybrid CNN-LSTM model[J]. Computers, Materials & Continua, 2023, 76(3): 3097-3112.
[9]
ZHANG L Z, ALHARBE N R, LUO G C, et al. A hybrid forecasting framework based on support vector regression with a modified genetic algorithm and a random forest for traffic flow prediction[J]. Tsinghua Science and Technology, 2018, 23(4): 479-492. DOI:10.26599/TST.2018.9010045
[10]
YAO R, ZHANG W, ZHANG L H. Hybrid methods for short-term traffic flow prediction based on ARIMA-GARCH model and wavelet neural network[J]. Journal of Transportation Engineering, Part A: Systems, 2020, 146(8): 04020086. DOI:10.1061/jtepbs.0000388
[11]
ATA K I M, HASSAN M K, ISMAEEL A G, et al. A multi-layer CNN-GRUSKIP model based on transformer for spatial-temporal traffic flow prediction[J]. Ain Shams Engineering Journal, 2024, 103045. DOI:10.1061/j.asej.2024.103045
[12]
HU N, ZHANG D F, XIE K, et al. Dynamic multi-scale spatial-temporal graph convolutional network for traffic flow prediction[J]. Future Generation Computer Systems, 2024, 158: 323-332. DOI:10.1016/j.future.2024.04.052
[13]
ZHAO L, SONG Y J, ZHANG C, et al. T-GCN: A temporal graph convolutional network for traffic prediction[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(9): 3848-3858. DOI:10.1109/TITS.2019.2935152
[14]
LI W H, CHEN Y Y, PAN Y Y, et al. An improved spatio-temporal network traffic flow prediction method based on impedance matrix[J]. Journal of Highway and Transportation Research and Development (English Edition), 2024, 18(2): 67-75. DOI:10.26599/HTRD.2024.9480015
[15]
ZHENG H, LIN F, FENG X, et al. A hybrid deep learning model with attention-based Conv-LSTM networks for short-term traffic flow prediction[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(11): 6910-6920. DOI:10.1109/TITS.2020.2997352
[16]
罗向龙, 李丹阳, 杨彧, 等. 基于KNN-LSTM的短时交通流预测[J]. 北京工业大学学报, 2018, 44(12): 1521-1527.
LUO Xianglong, LI Danyang, YANG Yu, et al. Short-term traffic flow prediction based on KNN-LSTM[J]. Journal of Beijing University of Technology, 2018, 44(12): 1521-1527.
[17]
雷斌, 李佳璐, 张鹏, 等. 基于多图时空图卷积模型的城市交通流长时预测[J]. 公路交通科技, 2024, 41(4): 204-213.
LEI Bin, LI Jialu, ZHANG Peng, et al. Long term prediction on urban traffic flow based on multi-source spatio-temporal graph convolutional neural network model[J]. Journal of Highway and Transportation Research and Development, 2024, 41(4): 204-213. DOI:10.3969/j.issn.1002-0268.2024.04.021
[18]
黄艳国, 周陈聪, 左可飞. 基于RAdam优化的DLSTM-AE交通流预测模型[J]. 公路交通科技, 2023, 40(1): 185-191, 199.
HUANG Yanguo, ZHOU Chencong, ZUO Kefei. DLSTM-AE traffic flow prediction model based on radam optimization[J]. Journal of Highway and Transportation Research and Development, 2023, 40(1): 185-191, 199. DOI:10.3969/j.issn.1002-0268.2023.01.021
[19]
崔建勋, 要甲, 赵泊媛. 基于深度学习的短期交通流预测方法综述[J]. 交通运输工程学报, 2024, 24(2): 50-64.
CUI Jianxun, YAO Jia, ZHAO Boyuan. Review on short-term traffic flow prediction methods based on deep learning[J]. Journal of Traffic and Transportation Engineering, 2024, 24(2): 50-64.
[20]
OLBRYS J, MURSZTYN M. Measuring stock market resiliency with discrete fourier transform for high frequency data[J]. Physica A: Statistical Mechanics and ITS Applications, 2019, 513: 248-256. DOI:10.1016/j.physa.2018.09.028
[21]
BERNAŚ M, PŁACZEK B, PORWIK P, et al. Segmentation of vehicle detector data for improved K-nearest neighbours-based traffic flow prediction[J]. IET Intelligent Transport Systems, 2015, 9(3): 264-274. DOI:10.1049/iet-its.2013.0164
[22]
李丹阳. 基于正交参数优化的DFT-KNN-LSTM短时交通流预测[D]. 西安: 长安大学, 2019.
LI Danyang. Short-term traffic flow prediction based on DFT-KNN-LSTM and orthogonal parameter optimization[D]. Xi 'an: Chang 'an University, 2019.