基于RAdam优化的DLSTM-AE交通流预测模型

扩展功能

加入引用管理器

Email Alert

文章信息

黄艳国, 周陈聪, 左可飞

HUANG Yan-guo, ZHOU Chen-cong, ZUO Ke-fei

基于RAdam优化的DLSTM-AE交通流预测模型

DLSTM-AE Traffic Flow Prediction Model Based on RAdam Optimization

公路交通科技, 2023, 40(1): 185-192

Journal of Highway and Transportation Research and Denelopment, 2023, 40(1): 185-192

10.3969/j.issn.1002-0268.2023.01.021

文章历史

收稿日期: 2021-11-25

Abstract

PDF

Figures

Tables

引用本文

黄艳国, 周陈聪, 左可飞. 基于RAdam优化的DLSTM-AE交通流预测模型[J]. 公路交通科技, 2023, 40(1): 185-192.

HUANG Yan-guo, ZHOU Chen-cong, ZUO Ke-fei. DLSTM-AE Traffic Flow Prediction Model Based on RAdam Optimization[J]. Journal of Highway and Transportation Research and Denelopment, 2023, 40(1): 185-192.

基于RAdam优化的DLSTM-AE交通流预测模型

黄艳国 , 周陈聪 , 左可飞

江西理工大学电气工程与自动化学院, 江西赣州 341000

收稿日期: 2021-11-25

基金项目: 国家自然科学基金项目(72061016)

作者简介: 黄艳国(1973-)，男，湖北武汉人，教授，博士

摘要: 交通流预测在智能交通系统中起着关键的作用。然而，由于交通数据有着复杂的时间依赖性和本身的不确定性，导致预测交通流变得具有挑战性。为了进一步充分提取交通流时空性、周期性等特征，采用了一种自编码器(AE)与深度长短时记忆网络(DLSTM)相结合的组合模型(DLSTM-AE)，并引入改进的适应矩估计算法(RAdam)进行模型训练。首先利用深度长短时记忆网络模型对交通流序列信息特征进行采集，并借助自动编码器结构将采集的信息压缩为一个固定维度的表示向量。然后通过解码器对该向量进行重构，实现信息的进一步挖掘。最后在模型的训练过程中，利用RAdam算法进行优化，分批次更新动量参数，缩短寻找最优解的时间，提高模型预测的时效性和精度。在高速公路交通流真实数据集上进行了仿真并与其他模型方法进行了对比。结果表明：DLSTM-AE组合模型不仅在预测结果上具有明显的优势，而且在交通流周期性方面拥有较好的曲线拟合能力, 其中测试集的均方根误差值下降了约0.445~1.826，平均绝对误差值下降了约0.282~0.984，相关系数值R²提高了约0.005~0.023；在周期性上，相邻周对应工作日的预测精度远高于对照组。该模型可以捕捉交通流序列中更潜在的时空性和周期性信息，可以更好地满足高速公路交通流预测的需要。

关键词: 智能交通交通流预测深度神经网络高速公路 RAdam算法

DLSTM-AE Traffic Flow Prediction Model Based on RAdam Optimization

HUANG Yan-guo, ZHOU Chen-cong, ZUO Ke-fei

School of Electrical Engineering and Automation, Jiangxi University of Science and Technology, Ganzhou Jiangxi 341000, China

Abstract: Traffic flow prediction plays a key role in intelligent transport systems. However, due to the complex time dependence and inherent uncertainty of traffic data, prediction of traffic flows becomes challenging. In order to further fully extract the spatio-temporal and periodic characteristics of traffic flow, a combination model (DLSTM-AE) combining autoencoder (AE) with deep long short-term memory (DLSTM) network is adopted, and an improved adaptive moment estimation algorithm (RAdam) is introduced for model training. First, the characteristics of traffic flow sequence information are collected by using the deep long short-term memory network model, and the collected information is compressed into a fixed dimension representation vector with help of the automatic encoder structure. Then, the vector is reconstructed by using decoder to realize further information mining. Finally, in the process of model training, the optimization is conducted by using RAdam algorithm to update the momentum parameters in batches, shorten the time to find the optimal solution, and improve the timeliness and accuracy of model prediction. The simulation on the real traffic flow data set of expressway is carried out and the result is compared with those of other model methods. The result shows that (1) DLSTM-AE combination model not only has obvious advantages in prediction result, but also has good curve fitting ability in traffic flow periodicity. The RMSE of the test set decreased by about 0.445-1.826, the MAE decreased by about 0.282-0.984, and the correlation coefficient value R² increased by about 0.005-0.023. (2) In terms of periodicity, the prediction accuracy of working days corresponding to adjacent weeks is much higher than that of the control group. The model can capture more potential spatio-temporal and periodic information in traffic flow sequence. It can better meet the needs of expressway traffic flow prediction.

Key words: ITS traffic flow prediction deep neural network expressway RAdam algorithm

0 引言

近年来，高速公路的拥堵问题日益严重，随着社会车辆保有量的增加也逐渐暴露出道路基础设施不足的问题，而公路基建的资源瓶颈也影响着交通运输的安全和管理。为了对有限的高速公路资源进行最优的合理调度，道路的交通流预测成为了高速路资源分配十分重要的技术领域，对缓解高速路的拥堵起着至关重要的作用^[1-2]。

随着科技的发展，国内外相关学者对公路交通流的预测手段也从传统的基于参数预测转变为当下流行的非参数预测。前者主要以数理统计和微积分等传统数学和物理方法为基础的预测模型，后者则以现代科学技术和方法(如神经网络、深度学习、大数据)为主要研究手段而形成的预测模型^[3]。然而，由于参数模型适用的局限性且预测精确度的有限性，在一定程度上难以满足交通流非线性特征的需求^[4-5]，因此考虑交通流非线性特征的预测模型也随之出现。对非参数模型来说，主要分为浅层机器学习模型和深度学习模型。第1类主要是支持向量回归(Support Vector Regression，SVR)等浅层模型^[6-8]。第2类为长短时记忆网络(Long Short-term Memory，LSTM)为代表的循环神经网络模型。其中，由于SVR模型对核的选取比较敏感及大量的参数需求，存在一定的局限性。同时浅层的机器学习模型结构简单，在处理大规模的交通流数据时会遇到结构瓶颈，难以适应大数据的车流量信息。而深度学习凭借着计算机技术发展和海量的车流量数据，逐渐被学者将其应用到预测领域并在试验研究中取得不错的效果。如王祥雪等^[9]将LSTM模型用于交通流预测，其试验预测结果显示LSTM模型比传统的RNN模型在其数据集上的评价指标MAE和RMSE分别有所下降。Fu等^[10]首次将门控循环单元(GRU)应用于交通流预测，也取得了不错的预测效果。Lü等^[11]考虑了交通流空间上的相关性，提出了堆叠式自编码器(Stacked Autoencoder，SAE)模型。虽然上述深度模型的试验预测效果很好，但在实际应用中，模型存在的一些缺陷也随之出现。比如LSTM网络模型本身无法捕捉数据的空间特征，SAE模型没有考虑时序上的影响。研究学者也针对模型的缺陷进行了相应的改进与完善，增加神经网络深度是提高整体性能的有效方法^[12]。Sagheer等^[13]提出了一种深度长短期记忆网络(Deep LSTM)结构进行时间序列预测，可以更高效地表示长间隔时间序列数据的复杂特征，并采用遗传算法优化参数。由于遗传算法本身存在收敛速度慢及局部搜索能力不足的特点，导致模型训练存在不稳定性。而Liu等^[14]提出了一个新的优化算法RAdam，根据方差分散度，动态地打开或关闭自适应学习率，既能保证收敛速度快，也不容易掉入局部最优解。针对交通流时间序列而言，其周期性、空间和时间相关性都对下一步的预测效果产生直接的影响，进一步影响到模型预测的准确度^[15-17]。因此，如何综合地提取交通流序列的特征信息是基于深度学习的组合模型亟需解决的关键问题。

为了较为全面地提取交通流特性，本研究根据现有交通流预测方法存在的不足和最优化算法领域的研究成果，提出一种以自动编码器和长短期记忆循环网络为结构基础的交通流预测算法。该算法通过引入深层LSTM模型来获取交通流时间序列潜在的周期性和和时空性特征，利用AE模型作为底层框架，对捕获的特征信息在空间维度上进行解析和重建，进一步增强对交通流数据的时间和空间相关性能力，并结合RAdam算法对组合模型进行全局的优化训练，达到更高预测精确度的目的。

1 DLSTM-AE组合模型的构建 1.1 时间相关性信息提取

LSTM模型是递归神经网络(RNN)的一种特殊网络架构^[18]，其核心关键在于提出了细胞状态和门机制概念，在一定程度上解决了RNN模型梯度消失问题。但对复杂的时间序列数据而言，深层RNN模型与浅层RNN模型相比，可以更好地表达高维度的非线性和长间隔时间特征，能充分学习到时间序列数据更深层的关联信息。Deep LSTM(DLSTM)是标准LSTM模型的一种堆叠形式，属于深层循环神经网络。每个LSTM块都具有多个LSTM单元，每个单元和下一个LSTM块的对应单元存在前馈连接^{[10, 19]}。同时，每个块都在进行不同时间尺度的训练。这种架构在进行反向传播时可以全局调整各个块的参数，对复杂的交通流时序具有较高的非线性拟合能力^[20]。

1.2 空间相关性信息提取

自编码器网络是一个简单的3层神经网络，由输入层、隐藏层和输出层依次排列连接，其欠完备自编码器结构如图 1所示。AE作为生成模型，每层训练都采用无监督学习算法，其训练过程由Encoder和Decoder 2个阶段组成。交通流数据经过Encoder映射到隐藏层。在该阶段，生成模型会将输入数据进行压缩表示，进行降维，捕获输入的深层特征。再通过Decoder，对原始数据进行重建，生成与输入数据对应的编码格式。

图 1 欠完备自编码器结构图(n∈R, j∈R, m < n) Fig. 1 Structure diagram of incomplete autoencoder (n∈R, j∈R, m < n)

图选项

给定1个未标记的交通流输入数据集X_n∈R^m(n=1，2，3，…，N); m, N∈R。AE 2个阶段用公式表示为：

(1)

(2)

式中，H(x)为输入向量x通过Encoder计算出的压缩向量；为输出层的重构向量；f和g为激活函数；U₁和U₂分别为Encoder和Decoder的权重矩阵；b₁和b₂分别为每个阶段的偏置向量。

1.3 基于DLSTM-AE组合模型的预测

本研究提出了一种新架构作为自编码器原始架构的变体，使其能够从时间序列问题中提取特征。特别是，本研究将原始AE架构从前馈神经网络基础更改为DLSTM循环网络基础(如图 2所示)，并将其表示为基于DLSTM的自动编码器(DLSTM-AE)。DLSTM-AE依赖于循环神经网络，更适合对时间序列数据进行建模^[14]。DLSTM-AE模型的结构如图 2所示。

图 2 DLSTM-AE模型的架构 Fig. 2 Architecture of DLSTM-AE model

图选项

DLSTM-AE模型的预测步骤如下：

步骤1 对原始数据进行归一化，再根据预测目标的间隔时间重新划分成新的训练集和测试集。

步骤2 随机初始化DLSTM-AE模型中的参数W和b，将训练集数据X_t(x₁, x₂, x₃, …, x_n), n∈R送入Encoder模块，通过DLSTM模型读取输入数据并将其编码为学习到的表示向量(h₁, h₂, h₃, …, h_m, m＜n, m∈R)。

步骤3 在Decoder阶段，对表示向量进行解析并重构新的状态向量。

步骤4 将状态向量作为Dense层的输入，输出预测结果。

步骤5 定义模型目标函数，y_i和分别为样本实际值和预测值，n为数据样本的个数。

步骤6 在训练网络，调整参数阶段，考虑训练期间的变化和动量的影响，选择RAdam优化器对涉及的权重进行迭代更新。

步骤7 训练模型之后，经测试集得出最终的预测序列Y={Y_t-(k-1), Y_t-(k-2), Y_t-(k-3), …, Y_t}，Y_t为模型在t时刻的预测值，Y为模型在t时刻的预测序列。

2 基于RAdam的模型优化算法

在以往的模型训练过程中，大多数采用Adam算法进行参数优化。由于Adam优化器在训练初期二阶矩的方差会非常大，而二阶矩指数V_t与优化器的更新梯度方向有关，因此Adam参数更新量的方差也会很大，容易导致在寻找最优解过程中收敛到局部最优。基于Adam改进的Radam优化器的算法优势在于使用warmup的方法进行初期预热，即在训练开始阶段，由随机梯度下降SGD和动量Momentum进行预热，缩小方差。以达到模型更高预测精度的同时提高训练的时效性。RAdam算法步骤描述如表 1所示。

表 1 RAdam算法步骤 Tab. 1 Steps of Radam algorithm

Input：步长：{α_t}_t=1^T；衰减率：{β₁, β₂}, 用于计算移动平均值和二阶矩。
初始参数：θ₀=0.001；目标函数：f_t(θ)
Output: 最优参数: θ_t
(1)初始化移动量的一阶矩和二阶矩：(m₀, v₀)→(0，0)。
(2)计算出简单移动平均值(SMA)的最大长度：ρ_∞→2/(1-β₂)-1。
(3)当t={1, …, T}时，计算时间步长t下随机目标的梯度：g_t→Δ_θf_t(θ_t-1)；更新时间步长t下移动量的二阶矩指数：v_t→β₂v_t-1+(1-β₂)g_t²；更新时间步长t下移动量的一阶矩指数：m_t→β₁m_t-1+(1-β₁)g_t；修正时间步长t下平均移动误差：；计算SMA的最大值：ρ_t→ρ_∞-2tβ₂^t/(1-β₂^t)。
若ρ_t>4，则：修正二阶矩指数：；计算方差修正范围：；使用自适应动量更新参数：。此外，使用非自适应动量更新参数：。
return θ_T

表选项

当样本批量batch-size大小为256，迭代次数epochs大小为600，滑动窗口lag为12，Encoder-LSTM层数为3，Decoder-LSTM层数为3，LSTM块隐藏神经元个数为32，激活函数为ReLU时，在训练集上的损失函数表现如图 3所示。

图 3 RAdam和Adam分别在训练集和验证集上的损失函数 Fig. 3 RAdam and Adam in training set and verification set respectively 注：图中验证集的损失函数为执行验证集划分validation_split= 0.05后的损失值。

图选项

由图 3可知，在损失函数在训练集和验证集的测试中，与Adam优化器比较，RAdam对学习率变化具有良好的时效性和鲁棒性。

3 仿真结果与分析 3.1 试验环境与数据来源

本研究试验基于TensorFlow中的Keras神经网络库，在PyCharm开发环境(Windows10专业版，CPU为2.3 GHz，4核，Inter(R) Core(TM) i5-6300HQ，16GB内存)中完成模型的搭建及训练。选取的数据集来自美国加利福尼亚州运输部交通流数据集(Performance Measurement System, PeMS)，其数据是从跨越加利福尼亚州所有主要大都市区的高速公路的各个探测器实时收集。通过筛选掉那些节点间距小于5.6 km的检测器，用线性插值法填充缺失值并将输入数据归一化至[0, 1]区间。进行预处理后的数据集包含12 096组数据，其中训练集包含7 777组数据，测试集包含4 321组数据。时间范围从2016年1月4日至2016年3月31日，每组数据的时间间隔为5 min。

3.2 评价指标

在试验过程中，为了科学评估DLSTM-AE组合模型的性能，选用均方根误差RMSE、平均绝对误差MAE和相关系数R²作为模型的评价指标。

(3)

(4)

(5)

式中, y_i为交通流样本的观测值；为交通流样本的预测值；n为数据样本的个数；Var为数据样本的方差。

3.3 模型参数设置

经多次模型训练调试后，最终确定模型参数batch-size为256，epoch为600次，时间步长为12，激活函数选择ReLU，Encoder解析后的表示向量长度m和Decoder重构后的状态向量长度j均为6，并且将validation-split设置为0.05。

3.4 基于交通流时空性的预测结果对比分析

为了验证所提出模型的有效性，选取一些基准神经网络预测模型作为对照组，而本研究提出的模型设置为试验组，通过试验验证进行对比分析。试验数据仍来源于PeMS数据集中，该数据的测试集时间间隔为5 min。其中对照组的试验模型分别为门控循环单元模型(GRU)、长短时记忆网络模型(LSTM)、双向长短时记忆网络模型(BiLSTM)和堆叠式自编码网络模型(SAEs)。就试验预测模型的优化器而言，试验组选择RAdam优化器，对照组选择RMSprop优化器。根据试验组所测试的各项参数结果，对照组与试验组的训练参数保持一致。各试验模型在该数据集上的评估指标如表 2所示。

表 2 基于PeMS数据集的预测结果 Tab. 2 Evaluation result based on PeMS dataset

试验模型名称	PeMS数据集
试验模型名称	RMSE	MAE	R²	训练时间/s
LSTM	9.872	7.173	0.940	729.49
BiLSTM	9.949	7.212	0.939	1 168.02
GRU	11.253	7.875	0.922	662.58
SAEs	10.342	7.610	0.934	273.14
本研究模型	9.427	6.891	0.945	664.97

表选项

从表中可知，DLSTM-AE模型在PeMS数据集上的平均预测RMSE、MAE值均小于对照组模型，R²值均大于对照组模型，训练时间与GRU模型接近。相比对照组，试验组的RMSE值下降了约0.445~1.826，MAE值下降了约0.282~0.984，R²值提高了约0.005~0.023。而在训练时间上，SAEs模型虽用时最短，其原因在于采用自下而上逐层的非监督预训练，减少了反向传播的时间。但其RMSE和MAE值相比较与试验组分别高出约9.70%与10.43%，R²值降低约1.16%。

试验结果表明，本研究提出的DLSTM-AE组合模型结合了循环记忆网络的预测精确度和自编码器的时效性，在PeMS数据集上的预测表现最优。

3.5 基于交通流周期性的预测结果对比分析

为了进一步分析交通流的周期性和时空特性，基于PeMS数据集，分别对2016年3月的2周内多个特定的工作日(星期一、星期三、星期五)进行预测，以更好地评估组合模型的预测性能。DLSTM-AE模型与对照组模型的预测结果如表 3和表 4所示。

表 3 DLSTM-AE模型与对照组模型在第k周下的预测结果 Tab. 3 Prediction result of DLSTM-AE model and control model in kth week

预测模型	星期一(2016-03-07)			星期三(2016-03-09)			星期五(2016-03-11)
预测模型	RMSE	MAE	R²	RMSE	MAE	R²	RMSE	MAE	R²
LSTM	8.996	6.366	0.940	10.157	7.415	0.941	9.810	7.244	0.942
BiLSTM	9.392	6.524	0.934	9.955	7.361	0.943	9.717	7.165	0.943
GRU	10.047	7.264	0.925	10.998	7.953	0.931	10.835	7.836	0.929
SAEs	9.023	6.563	0.940	10.373	7.833	0.939	10.470	7.690	0.934
本研究模型	8.511	6.147	0.946	9.552	7.004	0.948	9.723	7.195	0.943

表选项

表 4 DLSTM-AE模型与对照组模型在第k+1周下的预测结果 Tab. 4 Prediction result of DLSTM-AE model and control model in (k+1)th week

预测模型	星期一(2016-03-14)			星期三(2016-03-16)			星期五(2016-03-18)
预测模型	RMSE	MAE	R²	RMSE	MAE	R²	RMSE	MAE	R²
LSTM	9.473	6.615	0.934	9.416	6.775	0.946	10.122	7.446	0.935
BiLSTM	9.366	6.666	0.936	10.000	7.173	0.939	9.833	7.285	0.938
GRU	10.950	7.746	0.912	10.150	7.056	0.938	10.960	7.836	0.923
SAEs	9.873	6.975	0.928	10.269	7.560	0.936	10.472	7.895	0.930
本研究模型	9.341	6.551	0.936	9.317	6.647	0.947	10.145	7.394	0.934

表选项

由表 3和表 4可知，从相邻周的多个特定工作日来看，DLSTM-AE模型随着预测步长增加在评估指标RMSE和MAE值也逐渐上升，R²缓慢下降。表明预测时间的长短对模型性能有较大的影响。但相比较于对照组模型的试验数据，DLSTM-AE组合模型的性能评价指标更具有中心化，模型泛化能力更强。对于试验模型架构来说，DLSTM-AE组合模型对预测时间步长的增加导致模型误差积累的趋势具有减缓效果，弥补了单一模型在长时间预测能力上的不足。

DLSTM-AE组合模型与对照组模型在特定工作日下早高峰时间段的车流量预测结果如图 4所示。

图 4 试验模型在多个特定工作日下的预测结果 Fig. 4 prediction result of experimental model in multiple specific working days

图选项

由图 4可知，通过对比2幅图的曲线拟合结果，DLSTM-AE模型在实际交通流周期性和时空性的预测数据更加贴合真实数据。当车流量处于高峰时，交通流量处于快速突变状态，会增加交通流预测的难度，但DLSTM-AE模型对比对照组模型可以较好地追踪真实交通流量，较少出现异常的预测值。当车流量处于急剧变化的周期内，会造成模型预测值的精确度下降，而DLSTM-AE模型在此周期结束的下一刻仍准确预测交通流的变化趋势。

4 结论

本研究将对交通流时序数据的时间维上具有良好拟合效果的DLSTM模型与对空间维上具有优势的AE模型进行组合，充分挖掘了交通流的时空信息。利用RAdam优化算法解决深层循环神经网络的梯度退化问题，从而提高了交通流量预测的准确率。通过仿真试验，对比常用的LSTM，BiLSTM，GRU和SAEs预测模型，对多个特定工作日的交通流进行了预测。本研究提出的组合模型在预测精确度和时效性上均有较好的表现。在相邻周对应工作日的预测结果来看，DLSTM-AE组合模型的预测误差更小，时效性更强，这对城市道路的管理具有重大意义。在后续的工作中，应考虑天气等其他因素的影响，同时模型的实际应用价值也值得进一步研究。

参考文献

[1]	交通运输部安委办. 《关于进一步加强交通运输安全生产体系建设的意见(征求意见稿)》[EB/OL]. (2021-10-27)[2021-12-11]. https://xxgk.mot.gov.cn/2020/jigou/aqyzljlglj/202111/t20211102_3624083.html. Office of Safety Commission of Ministry of Transport. Opinions on Further Strengthening Construction of Transport Safety Production System (Draft for Comments)[EB/OL]. (2021-10-27)[2021-12-11]. https://xxgk.mot.gov.cn/2020/jigou/aqyzljlglj/202111/t20211102_3624083.html.

[2]	LIN Y X, WANG P, MA M. Intelligent Transportation System (ITS): Concept, Challenge and Opportunity[C]// 2017 IEEE 3rd International Conference on Big Data Security on Cloud (Big Data Security). Beijing: IEEE, 2017.

[3]	刘静, 关伟. 交通流预测方法综述[J]. 公路交通科技, 2014, 21(3): 82-85. LIU Jing, GUAN Wei. A Summary of Traffic Flow Forecasting Methods[J]. Journal of Highway and Transportation Research and Development, 2014, 21(3): 82-85.

[4]	韩超, 宋苏, 王成红. 基于ARIMA模型的短时交通流实时自适应预测[J]. 系统仿真学报, 2004, 16(7): 1530-1532, 1535. HAN Chao, SONG Su, WANG Cheng-hong. A Real-time Short-term Traffic Flow Adaptive Forecasting Method Based on ARIMA Model[J]. Journal of System Simulation, 2004, 16(7): 1530-1532, 1535. DOI:10.3969/j.issn.1004-731X.2004.07.042

[5]	WILLIAMS B M, HOEL L A. Modeling and Forecasting Vehicular Traffic Flow as a Seasonal ARIMA Process: Theoretical Basis and Empirical Results[J]. Journal of Transportation Engineering, 2003, 129(6): 664-672. DOI:10.1061/(ASCE)0733-947X(2003)129:6(664)

[6]	SMOLA A J, SCHÖLKOPF B. A Tutorial on Support Vector Regression[J]. Statistics and Computing, 2004, 14(3): 199-222. DOI:10.1023/B:STCO.0000035301.49549.88

[7]	CASTRO-NETO M, JEONG Y S, JEONG M K, et al. Online-SVR for Short-term Traffic Flow Prediction under Typical and Atypical Traffic Conditions[J]. Expert Systems with Applications, 2009, 36(3P2): 6164-6173.

[8]	LIU Y Z, SHAO X J, LI X H. Short-term Traffic Flow Prediction Model Based on Lagrange Support Vector Regression[J]. Journal of Transport Information and Safety, 2007, 25(5): 46-49.

[9]	王祥雪, 许伦辉. 基于深度学习的短时交通流预测研究[J]. 交通运输系统工程与信息, 2018, 18(1): 81-88. WANG Xiang-xue, XU Lun-hui. Short-term Traffic Flow Prediction Based on Deep Learning[J]. Journal of Transportation Systems Engineering and Information Technology, 2018, 18(1): 81-88.

[10]	FU R, ZHANG Z, LI L. Using LSTM and GRU Neural Network Methods for Traffic Flow Prediction[C]//2016 31st Youth Academic Annual Conference of Chinese Association of Automation (YAC). Wuhan: IEEE, 2016: 324-328.

[11]	LV Y, DUAN Y, KANG W, et al. Traffic Flow Prediction with Big Data: A Deep Learning Approach[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(2): 865-873.

[12]	LECUN Y, BENGIO Y, HINTON G. Deep Learning[J]. Nature, 2015, 521: 436-444. DOI:10.1038/nature14539

[13]	SAGHEER A, KOTB M. Time Series Forecasting of Petroleum Production Using Deep LSTM Recurrent Networks[J]. Neurocomputing, 2018, 323: 203-213.

[14]	LIU L, JIANG H, HE P, et al. On the Variance of the Adaptive Learning Rate and Beyond[EB/OL].(2020-02-25)[2021-12-11]. https://arxiv.org/pdf/1908.03265.pdf.

[15]	李磊, 张青苗, 赵军辉, 等. 基于改进CNN-LSTM组合模型的分时段短时交通流预测[J]. 应用科学学报, 2021, 39(2): 185-198. LI Lei, ZHANG Qing-miao, ZHAO Jun-hui, et al. Short-Term Traffic Flow Prediction Method of Different Periods Based on Improved CNN-LSTM[J]. Journal of Applied Sciences, 2021, 39(2): 185-198.

[16]	李桃迎, 王婷, 张羽琪. 考虑多特征的高速公路交通流预测模型[J]. 交通运输系统工程与信息, 2021, 21(3): 101-111. LI Tao-ying, WANG Ting, ZHANG Yu-qi. Highway Traffic Flow Prediction Model with Multi-features[J]. Journal of Transportation Systems Engineering and Information Technology, 2021, 21(3): 101-111.

[17]	陈孟, 干可, 李凯, 等. 基于实时多模态时空数据的时空图卷积网络精准鲁棒交通流预测模型[J]. 公路交通科技, 2021, 38(8): 134-139, 158. CHEN Meng, GAN Ke, LI Kai, et al. A Spatial-temporal Graph Convolutional Network Model for Accurate and Robust Traffic Flow Prediction Based on Real-time Multimodal Spatial-temporal Data[J]. Journal of Highway and Transportation Research and Development, 2021, 38(8): 134-139, 158.

[18]	POLSON N G, SOKOLOV V O. Deep Learning for Short-term Traffic Flow Prediction[J]. Transportation Research Part C: Emerging Technologies, 2017, 79: 1-17.

[19]	SAGHEER A, KOTB M. Unsupervised Pre-training of a Deep LSTM-based Stacked Autoencoder for Multivariate Time Series Forecasting Problems[J]. Scientific Reports, 2019, 9(1): 1-16.

[20]	MAYA S, UENO K, NISHIKAWA T. DLSTM: A New Approach for Anomaly Detection Using Deep Learning with Delayed Prediction[J]. International Journal of Data Science and Analytics, 2019, 8: 137-164.

[21]	TSCHANNEN M, BACHEM O, LUCIC M. Recent Advances in Autoencoder-based Representation Learning[EB/OL]. (2018-12-12)[2021-12-11]. https://arxiv.org/abs/1812.05069v1.

[22]	WA NG, X L, GU AN, X F, CAO J, et al. Forecast Network-wide Traffic States for Multiple Steps Ahead: A Deep Learning Approach Considering Dynamic Non-local Spatial Correlation and Non-stationary Temporal Dependency[J]. Transportation Research Part C: Emerging Technologies, 2020, 119: 102763.

[23]	MA L, QU S. A Sequence to Sequence Learning Based Car-following Model for Multi-step Predictions Considering Reaction Delay[J]. Transportation Research Part C: Emerging Technologies, 2020, 120: 102785.