公路交通科技  2025, Vol. 42 Issue (7): 1-12

扩展功能

文章信息

周政, 朱蓉, 陈滨, 王晓琳, 何小卫.
ZHOU Zheng, ZHU Rong, CHEN Bin, WANG Xiaolin, HE Xiaowei
基于多尺度下采样卷积交互的动态图卷积交通流预测
Dynamic graph convolutional traffic flow prediction based on multi-scale downsampling convolutional interaction
公路交通科技, 2025, 42(7): 1-12
Journal of Highway and Transportation Research and Denelopment, 2025, 42(7): 1-12
10.3969/j.issn.1002-0268.2025.07.001

文章历史

收稿日期: 2023-08-29
基于多尺度下采样卷积交互的动态图卷积交通流预测
周政1,2 , 朱蓉2,3,4 , 陈滨2,5 , 王晓琳2,5 , 何小卫1     
1. 浙江师范大学 计算机科学与技术学院, 浙江 金华 321004;
2. 嘉兴市智慧交通重点实验室, 浙江 嘉兴 314001;
3. 嘉兴南湖学院, 浙江 嘉兴 314001;
4. 嘉兴市智能计算与数据科学重点实验室, 浙江 嘉兴 314001;
5. 嘉兴大学 信息科学与工程学院, 浙江 嘉兴 314001
摘要: 目标 针对路网交通时空依赖上的高度复杂性, 为提高交通流预测精度, 提出一种基于多尺度下采样卷积交互的动态图卷积网络的交通流预测模型。方法 在空间维度, 通过动态图扩散卷积模块捕获交通路网中动态变化的空间相关性, 该模块通过输入的交通流数据和预定义的图结构生成邻接矩阵, 并与自适应邻接矩阵融合生成动态邻接矩阵捕获路网节点时空动态特征; 在时间维度, 以相邻时段、上一日同一时段和上一周同一时段作为输入数据反映多时间尺度下的交通流数据的时间相似性, 并基于时间序列的邻近性和特殊性对3个时间尺度的输入序列进行间隔划分, 采用交互式学习结构捕获交通流数据的时间相关性。在上述过程中将动态图扩散卷积模块嵌入交互式学习结构中以同步捕获时空相关性, 进而挖掘交通路网的动态变化和时间之间固有的因果关系, 采用注意力机制解决其周期性偏移问题。最后, 基于公开基准交通流数据集, 选用部分经典和前沿交通流预测模型与本研究模型进行对比分析, 以验证所建模型的有效性。结果 本研究模型的预测结果相比于部分深度学习基线模型在回归预测精度指标平均绝对误差中的性能提升约为4.5%~33.7%。结论 本研究可有效提升交通流预测精度, 为智能交通系统的动态交通管理提供新路径。
关键词: 智能交通    交互式学习    图卷积    交通流预测    多尺度    
Dynamic graph convolutional traffic flow prediction based on multi-scale downsampling convolutional interaction
ZHOU Zheng1,2, ZHU Rong2,3,4, CHEN Bin2,5, WANG Xiaolin2,5, HE Xiaowei1    
1. School of Computer Science and Technology, Zhejiang Normal University, Jinhua, Zhejiang 321004, China;
2. Jiaxing Key Laboratory of Smart Transportations, Jiaxing, Zhejiang 314001, China;
3. Jiaxing Nanhu University, Jiaxing, Zhejiang 314001, China;
4. Jiaxing Key Laboratory of Intelligent Computation and Data Science, Jiaxing, Zhejiang 314001, China;
5. College of Information Science and Engineering, Jiaxing University, Jiaxing, Zhejiang 314001, China
Abstract: Objective The study investigated the influences of high complexity of road network traffic spatio-temporal dependencies on traffic flow prediction accuracy, as well as the similarities across different time scales and the dynamic correlation among road network nodes over time. The traffic flow prediction model was proposed based on the multi-scale downsampling convolutional interaction dynamic graph convolution neural network. Method In the spatial dimension, the dynamic spatial correlation was captured with dynamic graph diffusion convolution modules in the traffic network. The modules generated an adjacency matrix from the input traffic flow data and a predefined graph structure. This matrix fused with an adaptive adjacency matrix to form a dynamic adjacency matrix, so as to capture spatio-temporal features of network nodes. In the temporal dimension, taking the data as inputs, which were from adjacent time periods, same period of previous day, and same period of previous week. These data reflected the temporal similarity of traffic flow data across multiple time scales. The input sequences with three time scales were divided by intervals based on time series proximity and particularity. The temporal correlation of traffic flow data was captured by adopting an interactive learning structure. During this process, the dynamic graph diffusion convolution modules were embedded into the interactive learning structure to synchronously capture spatio-temporal correlations. Furthermore, the inherent causal relation between transport network dynamic variation and time was investigated. To address non-strict periodicity in traffic flow data, an attention mechanism was used to resolve periodic offset issues. Finally, to validate the effectiveness of the proposed model, a comparative analysis was conducted with selected classical and state-of-the-art traffic flow prediction models. Result Compared with some deep learning baseline models, the proposed model prediction result indicates the performance improvement of 4.5%-33.7% in mean absolute error of regression prediction accuracy indicator. Conclusion The study result will effectively enhance the traffic flow prediction accuracy, and provide novel approach for dynamic traffic management in ITS.
Key words: intelligent transport    interactive learning    graph convolution    traffic flow forecast    multi-scale    
0 引言

随着经济发展和城市化的需要,城市面积迅速扩大,城市居民和汽车保有量迅速增加。汽车数量激增导致城市产生交通拥堵等一系列问题。准确的交通流预测有助于交通智能诱导、实现道路规划方便智能出行。交通流数据作为复杂的时空数据对其进行准确的建模需要从时间与空间两个维度出发,并把握交通流数据的动态变化模式进行学习,从而实现对城市交通流的精准预测。

早期的交通流预测方法通常是基于统计学理论的方法,例如历史均值模型(Historical Average, HA)[1]等。该类方法基于线性特征处理时间序列,处理复杂非线性的交通流数据能力有限。为捕获交通流数据中复杂的非线性关系一些机器学习模型[2]被应用于交通流预测,例如支持向量回归(Support Vector Regression, SVR)[3]等。

相比于上述传统方法,深度学习在自动捕获特征和学习数据内复杂关系方面具有优势。部分研究者使用循环神经网络的变体(Long Short-Term Memory,LSTM)[4]和(Gate Recurrent Unit,GRU)[5]来捕获交通数据中的时间相关性。但上述方法仅考虑交通数据在时间维度的相关性而忽视了交通路网的空间相关性,因此,会导致模型具有局限性。Yao[6]将交通路网划分为网格,采用卷积神经网络(Convolution Neural Network, CNN)和LSTM捕获交通路网的空间相关性和时间相关性。然而CNN更适用于具有规则网格的欧几里得数据,建模不规则的交通路网不可避免地会丢失路网的拓扑信息。为解决这一问题,研究人员采用处理图数据的图神经网络(Graph Neural Network, GNN)[7]挖掘复杂交通数据的空间相关性。例如Li[8]在图数据中使用双向随机游走的扩散模型捕获交通路网的空间相关性。Yu[9]采用切比雪夫网络泛化的时空图方法捕获交通数据的时空相关性,以低成本计算方式提高预测精度。交通路网图中节点之间的关系是随时间变化的动态体系,前述方法使用预定义的固定图结构捕获空间相关性,在针对长时间步的预测任务下模型性能会降低。为此,Wu[10]提出的Graph WaveNet设计一种自适应邻接矩阵来捕获复杂动态空间相关性并结合时间卷积网络挖掘时间相关性从而提高模型预测精度。Bai[11]构造一种结合自适应图结构的循环神经网络,能自适应地挖掘交通路网的时空特征。这些研究在获取交通流动态特征方面取得较好效果,但它们仅依赖于构建的自适应邻接矩阵而没考虑基于节点(传感器)间连接距离的邻接矩阵,即忽略了预定义的固定图结构。Guo[12]指出相同路网节点的交通流在不同时间尺度下会呈现出高度相似性,利用时间和空间注意力机制对多时间尺度进行时空相关性建模解决交通流长时间步的预测问题。谷振宇[13]和黄艳国[14]也通过挖掘交通流序列中潜在的时空性和周期性构建交通流预测模型。交通流预测本质上还是时间序列预测,前述方法多使用循环神经网络(Recurrent Neural Network, RNN)和时间卷积网络(Temporal Convolutional Network, TCN)[15]提取时间特征,这些方法在长时间步的预测问题上存在缺陷且计算量较大。部分研究方法[16-17]提出同步捕获时空相关性的观点,表明独立的特征捕获模块无法挖掘交通数据的时间相关性与空间相关性之间存在的因果关系。

基于上述研究存在的问题与启发,本研究提出一种基于多尺度下采样卷积交互的动态图卷积网络(Multi-Scale Downsampling Convolutional Interaction Dynamic Graph Convolution Neural Network, MDDGCNN)来同步捕获时空特性。本研究的主要贡献如下:

(1) 基于交通流数据的周期性特征,以当前相邻时段、上一日同一时段和上一周同一时段作为输入数据表达多尺度下交通流数据的时间相似性,并通过注意力机制解决交通流数据的周期性扰动问题。

(2) 基于邻近节点间的相关性,融合预定义邻接矩阵与自适应邻接矩阵生成动态图结构捕获交通流数据动态变化的空间相关性。

(3) 采用交互式学习策略捕获交通流数据的时间相关性,并将捕获空间特征的动态图模块嵌入其中以同步捕获时空特征。这使每个模块都具有整个序列的局部和全局信息进而提取有用的时空特征。

1 问题定义

交通路网图由交通道路观测点(传感器或路段)所在位置构成,将其定义为图$G=(V, E, A)$。其中$V$为节点集,$V \in \mathbb{R}^N ; E$为边的集合,表示节点间的连通性;图$G$的邻接矩阵为$\boldsymbol{A} \in \mathbb{R}^{\mathrm{N} \times \mathrm{N}}$,其中N为自然数集。交通流预测任务利用历史交通流序列$\left(X_{(t-T+1) G}, X_{(t-T+2) G}, \cdots, X_{(t) G}\right)$,预测未来的交通流序列$\left(X_{(t+1) G}, X_{(t+2) G}, \cdots, X_{\left(t+T^v\right) G}\right)$。其中$X_{(t) G} \in$ $\mathbb{R}^{N \times C}$表示在时间步$t$处对图$G$的观察;$C$为特征通道数量;$T$为给定历史时间序列长度;$T^{\prime}$为待预测时间序列的长度;$f$为学习历史序列信息的函数。交通流预测任务定义如式(1)所示。

$ f:\left[X_G^{(t-T+1)}, \cdots, X_G^{(t)}\right] \rightarrow\left[X_G^{(t+1)}, \cdots, X_G^{\left(t+T^{\prime}\right)}\right]。$ (1)
2 MDDGCNN模型 2.1 总体框架

MDDGCNN模型的总体框架如图 1所示,通过树形结构的下采样卷积交互动态图模块(DSCIDG)同步捕获交通流数据在周、日和邻近时段这3个时间尺度下的时空相关性,并引入残差连接[18]减少训练中的特征损失。

图 1 MDDGCNN模型框架 Fig. 1 MDDGCNN model framework

MDDGCNN具体工作流程如下:3个尺度下的原始输入数据($X_{\mathrm{w}} \in \mathbb{R}^{B x 1 \times N \times T}, \quad X_{\mathrm{d}} \in \mathbb{R}^{B x 1 \times N \times T}, \quad X_{\mathrm{h}} \in\mathbb{R}^{B x 1 \times N \times T} $) 都由3个相同的Block进行处理。首先,通过1×1卷积层将特征维数映射到高维空间以捕获更深层次的依赖关系。然后将高维特征数据输入至下采样卷积交互动态图模块(DSCIDG),通过树形结构总共生成4个子序列(序列长度为T/4)。4个子序列按时间索引顺序进行重组得到新的序列(序列长度为T)。基于注意力机制解决周期性扰动问题以捕获稳定的时空相似性。最后,通过动态图卷积层把控全局时空特征,通过输出层得到预测值Yo$\mathbb{R}^{B x 1 \times N \times T} $,其中B为批次大小;N为节点个数;T为序列长度。

2.2 时间相关性分析

交通流数据受人的出行因素影响表现出一定的相似规律性。通过Pearson相关系数(系数大于0.6为强相关,大于0.8为极强相关)对PeMS数据集中交通流量数据进行时间相关性分析。日周期时间相关性如图 2所示,以多个检测器为例,连续工作日之间交通流呈现高相关性,工作日与非工作日之间也呈现出较高相关性。周周期时间相关性如图 3所示,连续五周相关系数均大于0.8,表现高相关性。图 2图 3中相关系数为每天同一时刻系数值求和后的平均值,表明交通流数据在时间上表现出较高相关性。

图 2 连续8日交通流时间序列相关系数 Fig. 2 Correlation coefficients of traffic flow time series for 8 consecutive days

图 3 连续五周交通流时间序列周期性相关系数 Fig. 3 Periodic correlation coefficients of traffic flow time series for 5 consecutive weeks

2.3 多尺度特征输入

基于交通流数据多时间尺度上呈现的高度相似性,本研究构建预测所需的相邻时段、上一日同一时段和上一周同一时段的3种时间尺度作为模型的输入数据以捕获路网节点间长短期的时间作用关系。

图 4所示,设预测的时间序列长度为Tp,相邻时段时间序列长度、上一日同时段时间序列长度和上一周同时段时间序列长度分别为ThTdTw,当前时刻为t0,即用过去1 h(12个连续时间切片数据)的流量数据预测未来1 h流量数据(每5 min为一次数据信息,共12个值)。3个时间尺度的时间序列定义为XhXdXw,如式(2)~(4)所示。

$ X_{\mathrm{h}}=\left(X_{t_0-T_{\mathrm{h}}+1}, X_{t_0-T_{\mathrm{h}}+2}, \cdots, X_{t_0}\right) \in \mathbb{R}^{C \times N \times T}, $ (2)
图 4 构造多尺度时间序列输入的例子 Fig. 4 Example for constructing multi-scale time series inputs

式中,Xh为与预测时段相邻的一段历史时间序列,对应区间为ThC为特征通道数量;N为节点数量;T为给定历史时间序列长度。

$ X_{\mathrm{d}}=\left(X_{t_0-q+1}, X_{t_0-q+2}, \cdots, X_{t_0-q+T_{\mathrm{p}}}\right) \in \mathbb{R}^{C \times N \times T}, $ (3)

式中,Xd为与预测时段相同的昨日历史时间序列,对应区间为Tdq为传感器每天采样频率。

$ X_{\mathrm{w}}=\left(X_{t_0-7 \times q+1}, X_{t_0-7 \times q+2}, \cdots, X_{t_0-7 \times q+T_{\mathrm{p}}}\right) \in \mathbb{R}^{C \times N \times T}, $ (4)

式中,Xw为与预测时段相同的上周历史时间序列,对应区间为Tw

2.4 下采样卷积交互

SCINet[19]通过交互式学习策略和CNN处理具有复杂时间动态的时间序列。基于CNN的时间特征捕获方法也用于交通数据,如Graph WaveNet[10]。经典的时间特征挖掘模型主要为RNN(包含LSTM和GRU)、Transformer和TCN。相比于RNN和Transformer,CNN局部特征提取能力强,且可以并行处理数据降低计算量;相比于TCN,交互式学习结构能捕捉长期依赖关系,且能在不同时间尺度上进行建模。

由于时间序列的临近性和特殊性,分割的子序列仍保留原始序列大部分特征趋势,如图 5~7所示。基于该特性,采用下采样卷积交互结构同步捕获时空特征。

图 5 原始时间序列 Fig. 5 Original time series

图 6 奇数子序列 Fig. 6 Odd subsequence

图 7 偶数子序 Fig. 7 Even subsequence

下采样卷积交互结构使得每个DSCIDG模块都具有整个序列的局部和全局信息,具体流程如图 8所示。输入序列F按时间间隔划分下采样为两个长度相等的子序列。随后,两个子序列在交互式学习结构中交互学习,共享学习各自的特征,捕获时间相关性的同时,通过嵌入在交互式学习结构中的扩散图卷积层使两个子序列能够交互学习它们各自的空间相关性。其中独立的卷积模块(ψ1, ψ2, ψ3, ψ4)提取2个子序列中独有的时间特征,将捕获空间特征的动态图扩散卷积模块嵌入其中可以共享模块中的参数权重,为防止下采样过程中的信息缺失通过交互式学习结构聚合这些时空特征,以同步挖掘复杂的时空动态特征。

图 8 DSCIDG模块 Fig. 8 DSCIDG module

图 8中,F$\mathbb{R}^{B \times C \times N \times T} $为交互式学习结构的输入序列,其中B为批量大小,C为特征通道数,N为节点数(路网中传感器的数量),T为时间步长。如式(5)所示,F经序列分割函数Split得到子序列$F_{\text {odd }} \in \mathbb{R}^{B \times C \times N \times T / 2}$$F_{\text {even }} \in \mathbb{R}^{B \times C \times N \times T / 2} 。F_{\text {odd }}$$F_{\text {even }}$分别先经两个不同的二维卷积模块$\psi_1$$\psi_2$以及动态图扩散卷积层进行第一次交互式学习,并与$F_{\text {even }}$$F_{\text {odd }}$进行乘积相互作用得到$F_{\text {odd }}^{\prime} \in \mathbb{R}^{B \times C \times N \times T / 2}$$F_{\text {even }}^{\prime} \in$ $\mathbb{R}^{B \times C \times N \times T / 2}$如式(6)~(7)所示。$F_{\text {odd }}^{\prime}$$F_{\text {even }}^{\prime}$再进行一次交互得到最终子序列$F_{\text {odd_out }}^{\prime} \in \mathbb{R}^{B \times C \times N \times T / 2}$$F_{\text {even_out }}^{\prime} \in \mathbb{R}^{B \times C \times N \times T / 2}$如式(8)~(9)所示。

$ F_{\text {odd }}, F_{\text {even }}=Split(F), $ (5)
$ F_{\text {odd }}^{\prime}=\tanh \left(G D C\left(\psi_1\left(F_{\text {even }}\right)\right)\right) F_{\text {odd }}, $ (6)
$ F_{\text {even }}^{\prime}=\tanh \left(G D C\left(\psi_2\left(F_{\text {odd }}\right)\right)\right) F_{\text {even }}, $ (7)
$ F_{\text {odd_ out }}^{\prime}=\tanh \left(G D C\left(\psi_3\left(F_{\text {even }}^{\prime}\right)\right)\right)+F_{\text {odd }}^{\prime}, $ (8)
$ F_{\text {even_out }}^{\prime}=\tanh \left(G D C\left(\psi_4\left(F_{\text {odd }}^{\prime}\right)\right)\right)+F_{\text {even }}^{\prime}, $ (9)

式中,⊙为Hadamard积,tanh为激活函数;GDC为DSCIDG中的动态图扩散卷积层;ψ1ψ2ψ3ψ4为4个独立的二维卷积模块,其结构由3个卷积核大小为1×3的卷积层组成。

2.5 动态图扩散卷积层

图卷积神经网络(GCN)通过节点之间交换信息学习节点的特征表示,每个节点通过聚合其邻居节点的信息更新该节点信息,但每个节点只能捕获相邻节点的信息,而扩散图卷积[20]在GCN中引入K阶双向随机扩散,通过随机扩散过程模拟交通流的随机性,本研究使用扩散图卷积网络替换GCN捕获交通流空间特征。此外,本研究还构建了基于节点(传感器)间连接距离的邻接矩阵Apre和捕获交通路网动态空间依赖性的自适应邻接矩阵Aadp, 并基于这两个矩阵构造时空动态图。

通过节点连接距离关系的预定义邻接矩阵Apre中的各元素如式(10)所示。路网节点的动态空间依赖性难被预定义的固定图结构表示,针对该问题一些工作(Graph WaveNet[10]、AGCRN[11]) 采用自适应邻接矩阵来捕获空间依赖性,如式(11)所示。但这些生成方法与原始路网图结构没有关联,即忽视了预定义图结构。本研究将预定义图结构与自适应图结构相融合,并分配一个可学习的权重参数来捕获动态的空间依赖性,如式(12)所示。图扩散卷积操作定义为式(13)。矩阵融合并进行图扩散卷积的过程如图 9所示,其中$X \in \mathbb{R}^{B \times C \times N \times T} $为输入数据,$X^{\prime} \in\mathbb{R}^{B \times C \times N \times T} $为输出数据。将动态图扩散卷积层嵌于交互式学习结构,以同步捕获交通数据的同质和异构信息。

$ A_{i j}=\left\{\begin{array}{l} \exp \left[-\frac{dist\left(v_i, v_j\right)}{\sigma^2}\right], \left(v_i, v_j\right) \in E \\ \;\;\;\;\text { 且 } dist\left(v_i, v_j\right) \leqslant \lambda \\ 0, \text { otherwise } \end{array}\right. \text {, } $ (10)
图 9 矩阵融合与图卷积 Fig. 9 Matrix fusion and graph convolution

式中,Aij为矩阵Apre中第i行第j列的元素;(νi, νj)为节点νi与节点νj的连接关系;dist (νi, νj)为节点νi到节点νj的距离;σ2为所有节点距离的方差值;$E \in \mathbb{R}^{N \times d} $为随机初始化的可学习参数;λ为阈值。

$ \boldsymbol{A}_{\text {apt }}=soft\text{max}\left(\operatorname{ReLU}\left(E E^T\right)\right)+I, $ (11)

式中,d为单个节点维度;I为单位矩阵。该设计通过ReLU激活函数消除路网中的弱连接部分,最后通过归一化得到自适应邻接矩阵。

$ \boldsymbol{A}_{\mathrm{dyn}}=\alpha \boldsymbol{A}_{\mathrm{apt}}+(1-\alpha) \boldsymbol{A}_{\mathrm{pre}}, $ (12)
$ G C N\left(X, A_{\mathrm{dyn}}\right)=\sum\limits_{k=0}^K \boldsymbol{A}_{\mathrm{dyn}}^k X \boldsymbol{W}, $ (13)

式中,α为可学习的自适应参数;$X \in \mathbb{R}^{B \times C \times N \times T} $为输入数据;K为扩散步长;$\boldsymbol{W} \in \mathbb{R}^{N \times N} $为参数矩阵。

2.6 注意力模块

由于周期性的时间转移[5],周期性不能仅依赖于前几天的同一时刻。比如昨天的流量高峰出现在早上9:00,但今天的流量高峰可能由于天气等原因出现于9:10,所以用同一时刻的交通流数据进行特征融合存在缺陷,即每星期和每日的周期性并不严格,存在时间偏差。本研究通过注意力机制来解决这种偏差,如图 10所示。其中$X_{\mathrm{w}}^{\prime} \in \mathbb{R}^{B \times C \times N \times T} $, $X_{\mathrm{d}}^{\prime} \in \mathbb{R}^{B \times C \times N \times T} $$ X_{\mathrm{h}}^{\prime} \in \mathbb{R}^{B \times C \times N \times T}$分别表示经过处理的星期、日和邻近时段的时空特征。流程为:首先将星期的周期数据和日周期数据拼接在一起得到o$\mathbb{R}^{B \times C \times N \times T \times 2} $,然后通过注意力机制为每个ht(h为邻近时段的单个时间步长,总长度为T)分配一个权重wt,通过加权和得到输出O如式(14)所示,其中wt如式(15)所示,score函数如式(16)所示。最后通过残差连接得到输出$Output \in \mathbb{R}^{B \times C \times N \times T} $,如式(17)所示。

$ O=\sum\limits_{t=1}^T w_{\mathrm{t}} h_{\mathrm{t}}, $ (14)
$ w_{\mathrm{t}}=\frac{\exp \left(score\left(o, h_{\mathrm{t}}\right)\right)}{\sum\limits_{t=1}^T \exp \left(score\left(o, h_{\mathrm{t}}\right)\right)}, $ (15)
$ score\left(o, h_{\mathrm{t}}\right)=v \cdot \tanh \left(W_1 o+W_2 h_{\mathrm{t}}\right), $ (16)
图 10 注意力模块 Fig. 10 Attention module

式中v, W1, W2为可学习的参数。

$ Output=O+X_{\mathrm{h}}^{\prime}。$ (17)

图 1所示,新的时空特征数据从注意力模块出来之后再次通过动态图扩散卷积层,该层的目的是对整个时空数据的特征进行校正,最后通过输出层得到预测的结果。

3 试验设计 3.1 数据集描述

试验采用交通流预测领域的通用数据集PeMS08和PeMS04。所有数据均来自加州运输局绩效测量系统[21],每30 s实时收集一次交通数据信息,其中包括交通流量、速度、密度等,这些数据最终汇总成5 min时间的观测,1 h有12次观测,本研究仅针对流量数据进行预测,详情如表 1所示。其中包含节点数量(传感器数量)、边数量、时间间隔、数据长度和时段。在试验中,将数据以6∶2∶2的比例划分为训练集、测试集和验证集,基于这些真实交通道路网络中传感器之间的距离构造图的邻接矩阵并采用Z-Score方法进行数据标准化处理。

表 1 数据集详情 Tab. 1 Dataset details
数据集 节点数 边数 时间间隔/min 数据长度 时段
PeMS08 170 295 5 17 856 2016-07-01至2016-08-31
PeMS04 307 340 5 16 992 2018-01-01至2018-02-28

3.2 试验参数设置

在试验中,采用Pytorch深度学习框架对模型进行实现,用过去1 h的12个连续时间切片数据预测未来1 h共12个连续时间切片数据。试验环境为15 vCPU Intel(R) Xeon(R) Platinum 8338C CPU @ 2.60 GHz和NVIDIA RTX 3090(24 GB)GPU。为避免随机性,在数据集上使用PyTorch深度学习框架运行模型进行10次评估。

训练过程中批次大小设置为64,epoch设置为500,学习率设置为0.001,初始1×1卷积升维通道数为64,扩散步长K固定为2,优化器为Adam。为防止模型过拟合,采用Early Stopping进行训练,模型在410个epochs左右达到收敛终点。

3.3 基线模型

选用部分经典和前沿交通流预测模型与本研究模型进行对比分析。具体为:传统的数学统计模型HA和机器学习模型、循环神经网络GRU模型和使用因果卷积的TCN模型、构建扩散过程的DCRNN模型、堆叠两个时空卷积模块的STGCN模型、结合自适应邻接矩阵与因果卷积的GWN模型、结合自适应图与GRU的AGCRN模型、基于注意力机制和图卷积的ASTGCN模型、构造局部时空图的STSGCN模型、结合扩散图卷积与时空同步机制STIDGCN模型和考虑时空相似性的STS-DGCN模型。

3.4 模型评价指标

选用3个标准指标来作为试验验证评价指标验证模型有效性: 平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和均方根误差(RMSE),分别记为eMA, eMAP, eRMS具体计算公式如下:

$ e_{\mathrm{MA}}=\frac{1}{N} \sum\limits_{i=1}^N\left|y_i-\overline{y_i}\right|, $ (18)
$ e_{\mathrm{MAP}}=\frac{100 \%}{N} \sum\limits_{i=1}^N \frac{\left|y_i-\overline{y_i}\right|}{y_i}, $ (19)
$ e_{\mathrm{RMS}}=\sqrt{\frac{1}{N} \sum\limits_{\text{i}=1}^N\left(y_i-\overline{y_i}\right)^2}, $ (20)

式中,N为样本个数;yi为真实值;$\overline{y_i} $为预测值。

3.5 试验结果与分析 3.5.1 模型预测性能

基线模型与本研究模型在两个数据集上预测未来1 h(12个值)的平均性能如表 2所示。在3个评价指标中,本研究模型(MDDGCNN)性能均取得最优结果。传统统计模型HA难捕获非线性特征,其结果最差。相比之下,SVR这种机器学习方法对非线性特征的捕获能力使预测性能获得提升。在深度学习模型中,TCN比GRU捕获时间依赖性的能力更强。但上述模型仅考虑交通流数据的时间依赖性,没有考虑空间依赖性。因此,STGCN和DCRNN所代表的时空GCN模型具有较好的性能,这说明图结构有助于挖掘交通路网中的复杂时空关系从而提示模型性能。而相比于固定图结构,采用动态图结构的GWN,STIDGCN和AGCRN模型有更佳的性能,这也说明动态图更适应交通流动态时空变化的特性,对提高预测精度具有重要作用。由于注意力机制捕获长序列时间相关性的优势,基于注意力机制的模型ASTGCN也具有出色的性能。此外,考虑时空相似性的STS-DGCN具有良好的预测结果也表明交通流数据在时空维度上具有高度的相似性。

表 2 不同模型在两个数据集预测未来1 h的平均性能 Tab. 2 Average performance of different models in future 1 hour prediction on two datasets
模型 PeMS08 PeMS04
MAE RMSE MAPE/% MAE RMSE MAPE/%
HA[1] 33.77 52.24 24.42 37.87 55.44 26.13
SVR[3] 26.44 37.50 17.03 28.65 43.86 19.17
GRU[5] 23.29 33.31 14.97 24.12 39.07 18.27
TCN[19] 23.24 33.22 14.89 23.18 38.76 18.09
DCRNN[8] 20.88 30.84 13.51 22.99 35.17 17.02
STGCN[9] 20.72 30.30 13.26 22.38 34.62 15.51
GWN[10] 19.25 28.96 13.11 22.13 34.23 14.89
ASTGCN[12] 18.34 27.89 12.07 21.92 34.38 14.34
STSGCN[17] 17.88 27.36 11.71 21.51 34.13 14.13
AGCRN[11] 16.11 25.53 10.24 19.33 31.23 13.83
STS-DGCN[13] 14.74 24.81 10.68 19.98 31.85 14.02
STIDGCN[16] 14.47 23.45 9.38 18.57 30.11 12.37
MDDGCNN 13.85 22.96 9.00 18.34 29.88 12.21

本研究模型在数据集PeMS08和PeMS04的3个指标上均优于基线模型。这表明:多时间尺度的输入数据能反映时间相似性,有助于挖掘不同时段的时空特性;注意力机制可解决周期性扰动问题,从而提升模型学习能力;下采样卷积与交互式学习策略相结合,能同时把握交通流时间序列的局部和全局特征;预定义图结构与自适应图结构的融合,可捕获动态空间依赖性;在交互式学习结构中嵌入动态图扩散卷积层,能够同步捕获交通路网的动态时空特征,加强序列间的相互作用,进而更好地挖掘交通流数据中的复杂时空相关性。

选择ASTGCN,STSGCN,AGCRN和STIDGCN这4个预测性能较好的模型与本研究模型在不同时间步下的预测性能进行对比分析,预测结果如图 11所示。由图可知,随着时间步长增加模型的预测误差值均有所提高。模型MDDGCNN在3个评价指标上不同预测步长下均优于对比模型且增长幅度不大,验证了所建模型不同预测时长下的一致优越性。

图 11 相关模型在两个数据集不同时间步长下的模型性能 Fig. 11 Related model performances on two datasets with different time steps

3.5.2 消融试验分析

为进一步评估预测模型中各组件的有效性,在PeMS08数据集上对MDDGCNN模型与如下变体模型进行比较分析,如表 3所示。(1)MDDGCNN-H模型:仅使用邻近时间段的数据作为输入的模型。(2)MDDGCNN-D:移除自适应邻接矩阵使用预定义邻接矩阵的模型。(3)MDDGCNN-S:单独捕获时空特征,将嵌入于交互式结构中的图卷积层置于交互式结构之后的模型。(4)MDDGCNN-R:不使用交互式学习结构的模型。(5)MDDGCNN-C:不使用两个1×3的卷积核替代一个1×5的卷积核的模型(SCINet中卷积模块由大小为1×5卷积核与1×3卷积核的卷积层组成)。

表 3 基于PeMS08的消融试验模型未来1 h交通流预测精度 Tab. 3 Prediction accuracy of ablation model in future 1 hour prediction on PeMS08
模型 MAE RMSE MAPE/%
MDDGCNN-H 14.46 23.48 9.38
MDDGCNN-D 14.23 23.17 9.24
MDDGCNN-S 14.27 23.14 9.17
MDDGCNN-R 14.15 23.02 9.08
MDDGCNN-C 13.92 23.00 9.06
MDDGCNN 13.85 22.96 9.00

上述试验表明:(1)多时间尺度能获得更多维的时间特征从而提高模型性能。(2)自适应邻接矩阵能捕获复杂的动态空间依赖提高模型效能。(3)同步捕获时空特征能有效捕获时空网络中的异质性。(4)交互式学习结构处理具有长期依赖关系和复杂结构的时间序列数据更有优势。(5)堆叠小尺寸卷积核的卷积层比单个大尺寸的卷积核的卷积层能在保证感受野不变的同时使非线性表达能力更强(非线性函数增加),并在一定程度上提升网络效果并减少计算量和参数量。

3.5.3 结构配置分析

下采样卷积交互动态图结构(DCIDG)由4个独立的卷积模块和一个权重共享的动态图扩散卷积模块组成。为验证交互式学习结构当前组件配置的合理性,对其结构配置进行修改并进行对比试验分析,如表 4所示。(1)DCIDG-Convx1结构:将4个独立的卷积模块替换为一个共享权重的卷积模块结构。(2)DCIDG-Ix1结构:交互式学习结构中的交互式学习次数由2次变为1次(去掉2个卷积模块和减少1次图卷积运算的结构。(3)DCIDG-Ix4结构:交互式学习结构中的交互式学习次数由两次变为4次结构。(4)DCIDG-Gx2结构:将权重共享的动态图扩散卷积模块替换为两个独立的动态图扩散卷积模块的结构,不同配置下多时间步长下的模型性能如图 12所示。

表 4 不同配置DCIDG模块未来1 h交通流预测精度 Tab. 4 Prediction accuracy of DCIDG module with different configurations in future 1 hour prediction
模型 MAE RMSE MAPE/%
DCIDG-Convx1 14.22 23.05 9.03
DCIDG-Ix1 14.99 23.69 9.53
DCIDG-Ix4 14.13 23.24 9.01
DCIDG-Gx2 14.14 23.24 9.11
MDDGCNN 13.85 22.96 9.00

图 12 不同配置在多时间步长下的模型性能 Fig. 12 Model performances with different configurations by multiple time steps

上述试验表明:相比于权重共享卷积模块,独立卷积模块局部特征捕获能力更强;反之,相比于独立的动态图扩散卷积模块,权重共享图扩散卷积模块使节点间关系更紧密,因此相比于时间维度,空间维度上使用权重共享模块使模型性能更好。MDDGCNN通过交互式学习策略同步捕获时空特征,因而减少交互式学习次数将导致模型时空特征捕获能力下降。然而,试验表明2次交互式学习足以拟合特征,增加交互式学习次数会导致模型特征拟合能力下降。

3.5.4 超参数分析

本研究模型并未进行模块堆叠,因此与模型结构相关的超参数是1×1卷积升维的特征通道数。为保证模型学习足够的特征,又不过多地增加模型的参数和计算量,对其特征通道数选取进行对比试验分析,如图 13所示。

图 13 特征通道数对模型性能的影响 Fig. 13 Influence of feature channel numbers on model performance

上述试验表明:特征通道数对模型性能会产生影响。在3个指标中,MDDGCNN的性能并未随着特征通道数的增加而提高,并在MAE指标和RMSE指标中,通道数为64时模型具有较优的性能,在MAPE指标中通道数为80时模型具有更优的性能。但随着特征通道数增加会导致计算量和过拟合风险的提高。综合上述情况,最终选择MDDGCNN的模型特征通道数为64。

4 结论

本研究针对交通流预测精度低的问题提出一种基于多尺度下采样卷积交互的动态图卷积交通流预测方法。该方法在PeMS08和PeMS04两个公开数据集上均优于目前较为先进的交通流预测模型。得出以下主要结论:(1)基于交通流数据的特性引入周期性数据有助于多维度的时间相关性。(2)构建适用于图扩散卷积神经网络的动态图结构有助于挖掘交通流数据的动态空间相关性。(3)将动态图结构嵌入到下采样-卷积-交互结构中进行时空特征同步捕获助于挖掘隐藏的时空特性。由于交通拓扑图上的一些节点(如传感器)可能存在少量缺失和损坏导致图结构不完整,动态图生成技术在研究中有广泛的应用空间。此外,除了考虑上一日和上一周同时段的时间相似性也能聚合前日和上上周等更多的相似特征。因此,在未来的工作中应考虑图卷积中节点数量的变化以优化动态图的表达能力和多范围的时间相似性从而提高模型的适应能力。

参考文献
[1]
HAMED M M, AL-MASAEID H R, SAID Z M B. Short-term prediction of traffic volume in urban arterials[J]. Journal of Transportation Engineering, 1995, 121(3): 249-254.
[2]
RAMCHANDRA R N, RAJABHUSHANAM C. Machine learning algorithms performance evaluation in traffic flow prediction[J]. Materials Today: Proceedings, 2022, 51: 1046-1050.
[3]
JEONG Y S, BYON Y J, CASTRO-Neto M M, et al. Supervised weighting-online learning algorithm for short-term traffic flow prediction[J]. IEEE Transactions on Intelligent Transportation Systems, 2013, 14(4): 1700-1707.
[4]
MA X L, TAO Z M, WANG Y H, et al. Long short-term memory neural network for traffic speed prediction using remote microwave sensor data[J]. Transportation Research Part C: Emerging Technologies, 2015, 54: 187-197.
[5]
侯越, 崔菡珂, 邓志远. 横向相关性及参数影响下的车道级交通预测[J]. 公路交通科技, 2022, 39(5): 122-130.
HOU Yue, CUI Hanke, DENG Zhiyuan. Lane level traffic prediction under the influence of lateral correlation and parameters[J]. Journal of Highway and Transportation Research and Development, 2022, 39(5): 122-130.
[6]
YAO H X, TANG X F, WEI H, et al. Revisiting spatial-temporal similarity: A deep learning framework for traffic prediction[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Honolulu: Association for the Advancement of Artificial Intelligence, 2019: 5668-5675.
[7]
马帅, 刘建伟, 左信. 图神经网络综述[J]. 计算机研究与发展, 2022, 59(1): 47-80.
MA Shuai, LIU Jianwei, ZUO Xin. Overview of graph neural networks[J]. Computer Research and Development, 2022, 59(1): 47-80.
[8]
LI Y G, YU R, SHAHABI C, et al. Diffusion convolutional recurrent neural network: Data-driven traffic forecasting[C] // International Conference on Learning Representations. Vancouver: International Conference on Learning Representations, 2018: 1295-1302.
[9]
YU B, YIN H T, ZHU Z X. Spatio-temporal graph convolutional networks: A deep learning framework for traffic forecasting[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Washington, D.C., AAAI Press, 2018: 3634-3640.
[10]
WU Z, PAN S, LONG G, et al. Graph waveNet for deep spatial-temporal graph modeling[C]// Proceedings of the 28th International Joint Conference on Artificial Intelligence. Washington, D.C. : AAAI Press, 2019: 1907-1913.
[11]
BAI L, YAO L, LI C, et al. Adaptive graph convolutional recurrent network for traffic forecasting[C]// Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver: Curran Associates Inc, 2020: 17804-17815.
[12]
GUO S N, LIN Y F, WAN H Y, et al. Learning dynamics and heterogeneity of spatial-temporal graph data for traffic forecasting[J]. IEEE Transactions on Knowledge and Data Engineering, 2021, 34(11): 5415-5428.
[13]
谷振宇, 陈聪, 郑家佳, 等. 考虑时空相似性的动态图卷积神经网络交通流预测[J]. 控制与决策, 2023, 38(12): 3399-3408.
GU Zhenyu, CHEN Cong, ZHENG Jiajia, et al. Traffic flow prediction based on STG-CRNN[J]. Control and Decision, 2023, 38(12): 3399-3408.
[14]
黄艳国, 周陈聪, 左可飞. 基于RAdam优化的DLSTM-AE交通流预测模型[J]. 公路交通科技, 2023, 40(1): 185-191, 199.
HUANG Yanguo, ZHOU Chencong, ZUO Kefei. DLSTM-AE traffic flow prediction model based on RAdam optimization[J]. Journal of Highway and Transportation Research and Development, 2023, 40(1): 185-191, 199.
[15]
LEA C, FLYNN M D, VIDAL R, et al. Temporal convolutional networks for action segmentation and detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: Institute of Electrical and Electronics Engineers Inc, 2017: 1030-1039.
[16]
LIU A, ZHANG Y. Spatial-temporal interactive dynamic graph convolution network for traffic forecasting[EB/OL]. (2022-09-26)[2023-04-21]. https://arxiv.org/abs/2205.08689.
[17]
SONG C, LIN Y, GUO S, et al. Spatial-temporal synchronous graph convolutional networks: A new framework for spatial-temporal network data forecasting[C]// Proceedings of the AAAI Conference on Artificial Intelligence. New York: Association for the Advancement of Artificial Intelligence, 2020: 914-921.
[18]
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: Institute of Electrical and Electronics Engineers Inc, 2016: 770-778.
[19]
LIU M H, ZENG A L, CHEN M X, et al. SCINet: Time series modeling and forecasting with sample convolution and interaction[J]. Advances in Neural Information Processing Systems, 2022, 35: 5816-5828.
[20]
GASTEIGER J, WEIÜENBERGER S, GVNNEMANN S. Diffusion improves graph learning[C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver: NIPS Foundation, 2019: 13366-13378.
[21]
CHEN C, PETTY K, SKABARDONIS A, et al. Freeway performance measurement system: mining loop detector data[J]. Transportation Research Record, 2001, 1748(1): 96-102.