融合时空与全局上下文信息的车辆重识别算法

扩展功能

加入引用管理器

Email Alert

文章信息

许明, 马力, 姜彦吉.

XU Ming, MA Li, JIANG Yanji

融合时空与全局上下文信息的车辆重识别算法

Spatio-temporal and global context information fusion based vehicle re-identification algorithm

公路交通科技, 2025, 42(11): 21-28

Journal of Highway and Transportation Research and Denelopment, 2025, 42(11): 21-28

10.3969/j.issn.1002-0268.2025.11.003

文章历史

收稿日期: 2023-09-28

Abstract

PDF

Figures

Tables

引用本文

许明, 马力, 姜彦吉. 融合时空与全局上下文信息的车辆重识别算法[J]. 公路交通科技, 2025, 42(11): 21-28.

XU Ming, MA Li, JIANG Yanji. Spatio-temporal and global context information fusion based vehicle re-identification algorithm[J]. Journal of Highway and Transportation Research and Denelopment, 2025, 42(11): 21-28.

融合时空与全局上下文信息的车辆重识别算法

许明 , 马力 , 姜彦吉

辽宁工程技术大学软件学院, 辽宁兴城 125105

收稿日期: 2023-09-28；修改日期: 2025-09-14

基金项目: 辽宁省教育厅项目(LJKZ0338)

*通信作者: 许明(1980-), 男, 辽宁沈阳人, 博士, 副教授, 研究方向为时空数据挖掘与数据驱动的交通仿真建模

摘要: 目标针对外观和颜色差异细微车辆之间难以区分的问题, 提出了一种融合时空与全局上下文信息的车辆重识别算法, 旨在提升智能交通场景中复杂条件下的检索与跟踪性能。方法该方法首先利用SE-block和自注意力机制提取图像全局特征, 突出重要信息并抑制冗余特征。随后通过动态多层感知器(DMLP)在高维空间中自适应地融合图像特征与时空信息, 动态生成权重实现非线性映射, 从而提升特征的区分性。训练过程中结合三元组损失与交叉熵损失优化模型参数, 以同时保证类间分离性和类内紧凑性。结果在公开数据集VeRi-776上的评估表明, 该模型取得了81.9%的平均精度均值和96.5%的Rank-1准确率, 较当前最优算法分别提升2.4%和0.9%。消融试验进一步验证了SE-block和DMLP在全局上下文建模与时空特征融合中的关键作用, 证明其在对外观高度相似的车辆进行区分时具有显著优势。结论提出的算法通过融合时空与全局上下文信息能够有效增强车辆重识别的判别能力, 为智能交通系统中跨摄像头目标检索和跟踪提供了可靠的技术支持, 并为后续在更大规模和更复杂场景下的扩展应用奠定了基础。

关键词: 智能交通车辆重识别动态多层感知器车辆图像全局上下文信息

Spatio-temporal and global context information fusion based vehicle re-identification algorithm

XU Ming, MA Li, JIANG Yanji

School of Software, Liaoning Technical University, Xingcheng, Liaoning 125105, China

Abstract: Objective To address the challenge of distinguishing vehicles with subtle differences in appearance and color, this study proposes a vehicle re-identification algorithm integrating spatio-temporal and global contextual information. It aims to enhance the retrieval and tracking performances in ITS scenarios and complex conditions. Method First, the algorithm employed SE-block and self-attention mechanism to extract global image features, highlighting critical information while suppressing redundant ones. Second, a dynamic multi-layer perceptron (DMLP) was used to adaptively fuse image features and spatio-temporal information in a high-dimensional space, where dynamic weights were generated for nonlinear mapping to improve discriminability. Finally, the model parameters were jointly optimized by using triplet loss and cross-entropy loss during training, ensuring both inter-class separability and intra-class compactness. Result The experimental evaluation on dataset VeRi-776 shows that the model achieves a mean average precision of 81.9%, and a Rank-1 accuracy of 96.5%, representing improvements of 2.4% and 0.9% over the best existing methods. Ablation studies further confirm the effectiveness of SE-block and DMLP in global context modeling and spatio-temporal feature fusion, demonstrating clear advantages in distinguishing vehicles with highly similar appearances. Conclusion The proposed algorithm effectively enhances the discriminative capability of vehicle re-identification through the integration of spatio-temporal and global contextual information. It provides a reliable support for cross-camera retrieval and tracking in intelligent transportation systems, and establishes a foundation for future applications in larger-scale and more complex scenarios.

Key words: intelligent transport vehicle re-identification dynamic multi-layer perceptron vehicle images global context information

0 引言

车辆重识别是指在多个非重叠摄像头拍摄的车辆图像中检索某一目标车辆的问题。其方法在交通监控系统中有着广泛应用，例如定位和目标车辆跟踪等。

近年来，随着深度学习^[1-3]技术的快速发展和交通智能化^[4-7]水平的不断提高，车辆重识别技术^[8-16]也受到了广泛的关注。现有的大多数车辆重识别方法^{[8, 17-18]}主要利用外观信息。Liu^[8]根据车牌是车辆身份唯一标识这一特性, 通过检测图像中车牌的位置, 将车牌字符从整幅图像中分割出来, 并进一步根据车牌号进行车辆重识别。Feris^[17]提出了一种基于属性的监控场景车辆搜索方法。车辆按不同的属性分类，如车型和颜色。然后对数据库中具有相似属性的车辆进行检索。Dominik^[18]利用三维边界框对汽车图像进行校正，然后将成对的汽车图像颜色直方图特征进行拼接，训练一个二元线性支持向量机来验证图像对是否具有相同身份。然而，这类方法具有较大局限性，不同汽车可能具有非常相似的颜色和外观，特别是同一制造商相同型号的汽车。另外存在非正面视角、分辨率低、光照差以及细微特征不易提取等诸多方面因素，仅使用外观信息很难实现准确的车辆重识别。

另一方面，时空信息被广泛用于多相机系统中的目标关联任务^[19-22]，Ellis^[21]首先从多相机网络中获取单视图目标跟踪独立轨迹数据，在此基础上提出了一种同时学习拓扑变换和时间转换的方法。Neumann^[22]提出了一种结合结构估计和运动估计的方法，以恢复物体精确的三维时空描述。Loy^[23]提出了一种多摄像机活动相关性分析方法，该方法估计了摄像机网络的时空拓扑结构。随着时空信息的提出以及广泛的应用，使得模型准确性变得越来越高。

为了克服仅使用外观信息识别方法的局限性，一些研究尝试结合时空信息，来提升车辆重识别的性能。Wang^[24]提出了一种融合空间多尺度信息车辆重识别方法，该文设计了多尺度空间上下文特征选择模块，提高了车辆空间位置感知能力，但未考虑区域间的空间几何结构关系和时间信息，模型性能仍有较大提升空间。Liu^[25]利用图像的时间和位置信息来计算图像间的时空距离。然而，这样的时空正则化过于简单，对数据集的依赖较高，泛化能力弱。

针对上述问题，本研究提出了一种融合时空与全局上下文信息的车辆重识别方法。首先利用SE-block模块^[26]的自注意力机制学习每个通道的重要程度并进行特征加权，更好地整合全局上下文信息。其次，在图像表示之间引入动态映射，充分挖掘时空信息的潜在联系，并使用动态自适应感知器DMLP学习时空信息权重^[27]，增强图像特征的表示能力。然后通过融合时空与全局上下文信息对车辆进行重识别。最后，使用数据集VeRi-766^[8]进行试验，证明本方法的有效性。

1 信息融合

本节介绍了一种融合时空与全局上下文信息的车辆重识别框架，旨在通过融合时空信息提高识别能力。该框架包括图像路径和时空路径，分别用于处理图像和时空信息。首先，利用SE-block模块的残差网络提取图像特征，通过MLP主干网络提取时空特征，使用DMLP更新图像特征用于车辆重识别，损失函数结合了三元组损失和交叉熵损失。

1.1 框架

本研究框架设计了图像路径和时空路径如图 1所示，分别用于处理图像和时空信息，使用DMLP进行信息融合，在时空信息基础上增强图像表示。分别将输入图像标记为F_i，时空信息标记为F_m。将通过特征提取模块得到的原始图像特征标记为Z_i，时空特征标记为Z_m，并将框架设计成多层架构，更多层的动态映射可以使模型的性能更好。Z_iⁿ (n∈ (1, 2，…, N)) 定义为DMLP更新n次后的图像表示。

图 1 总体框架 Fig. 1 Overall framework

图选项

图像全局上下文信息提取如图 2所示，给定输入图像F_i，通过残差块得到特征图U，在SE-block中，使用全局平均池化(GAP)求得每个通道c的特征图平均值。

图 2 全局上下文信息提取 Fig. 2 Global context information extraction

图选项

$ \bar{X}_{\mathrm{c}}=G\left(U_{\mathrm{c}}\right)=\frac{1}{W \cdot H} \sum\limits_{i=1}^W \sum\limits_{j=1}^H U_{\mathrm{c}}(i, j), $

(1)

式中，G (·)为全局平均池化；W和H分别为特征图的宽和长；c为通道数，且c∈{1, 2, …，}; X为特征图的平均值。

然后通过SE-block两层全连接构成的门控机制：

$ S_1=\operatorname{ReLU}(f(\bar{X})), $

(2)

$ \boldsymbol{S}=\operatorname{Sigmoid}\left(f\left(S_1\right)\right), $

(3)

式中，ReLU (·)和Sigmoid (·)分别为ReLU激活函数和Sigmoid激活函数；f (·)为全连接层。得到门控单元 S后，最后的输出Z为 S和 U的向量积：

$ \bar{Z}_{\mathrm{c}}=S_{\mathrm{c}} \times U_{\mathrm{c}}, $

(4)

式中，Z_c为Z的一个特征通道的特征图；S_c为门控单元S中的一个标量值。

随后，将增强后的特征拼接在一起，并采用残差机制，将拼接后的特征与初始化特征逐项相加，使网络模型能够关注车辆的关键区域，提升模型对于全局上下文信息的感知能力，从而获得更好的特征表示Z_i。该整合过程可以表示为:

$ Z_i=\bar{Z}_{\mathrm{c}} \oplus F_i, $

(5)

式中$\oplus$表示残差机制中的对应元素相加操作。

同时，时空路径接收外部信息作为输入，如经度、纬度和时间。外部信息被归一化为[― 1, 1]，然后进行通道连接：

$ \hat{X}_{m}=\operatorname{Concat}(\{{ lat }, { lon }, { time }\}), $

(6)

式中，lat，lon和time分别为经度、纬度和时间；Concat（·）为按通道拼接；$\hat{X}_{m} \in \mathbb{R}^{3}$为时空信息的中间编码，然后时空信息$\hat{X}_{m}$映射到$X_{m} \in \mathbb{R}^{6}$：

$ X_{m}=\left[\sin \left({\rm{\mathsf{π}}} \hat{X}_{m}\right), \cos \left({\rm{\mathsf{π}}} \hat{X}_{m}\right)\right], $

(7)

式中，$\sin (\cdot)$和$\cos (\cdot)$分别为正弦和余弦函数，使用MLP骨干网提取时空信息$Z_{m}$。

在获得图像和时空特征后，通过DMLP进行融合。Z_i通过全连接层得到Z_i⁰，将Z_i⁰和Z_m作为DMLP的初始输入，通过N层堆叠DMLP对信息进行处理，DMLP的细节将在1.2节详细阐述，在调整后的特征与原始特征之间加入跳跃连接，得到最终图像表示。损失函数结合了三元组损失L_Tri和交叉熵损失L_ID。

整体框架提取了高质量的视觉全局上下文信息，并融合时空特征获得图像表示。传统的卷积层或线性层的参数对所有实例都是固定的，与其不同，本研究框架中DMLP的权重能根据数据的时空信息动态调节。对两个外观相似的车辆识别时，可以提高识别准确度。

1.2 DMLP结构

DMLP是一种循环结构，能够自适应地提高图像特征表示能力。图 3展示了DMLP的一个单元。当前DMLP块的每个输入图像特征都是前一个块的输出。对于每个时空信息块的输入，本研究统一使用原始特征。值得注意的是，DMLP的所有信息块除通道维度外都相同。为DMLP块指定一个比原始输入维度d更小的隐藏通道h，其表现为一个瓶颈架构如图 4所示。

图 3 DMLP单元 Fig. 3 Unit of DMLP

图选项

图 4 瓶颈架构 Fig. 4 Bottleneck architecture

图选项

动态映射如图 5所示，将图像和时空特征作为输入，并在一次迭代中输出高维图像特征。首先，根据时空特征生成动态映射的权重：

$ \boldsymbol{W}=\operatorname{Reshape}\left(f\left(Z_{m}\right)\right), $

(8)

图 5 动态映射 Fig. 5 Dynamic mapping

图选项

式中，Reshape(·)将一维特征重构为二维矩阵。

1.3 动态映射

在本节中，比较了之前工作和DMLP在时空特征高维映射上的差异。旨在证明，之前的工作在扩大图像特征空间中距离表示方面存在局限性。对于拼接策略，给定图像特征$Z_{i} \in \mathbb{R}^{d_{i}}$和时空特征$Z_{m} \in \mathbb{R}^{d_{m}}$，其中$d_{i}$和$d_{m}$表示特征通道，可以通过零填充将$Z_{i}$和$Z_{m}$扩展到"$d_{i}+d_{m}$"维度：$\tilde{Z}_{i}=\left[Z_{i}^{1}, \cdots, Z_{i}^{d_{i}}, 0, \cdots\right.$，$0]$，在$Z_{i}$后填充$d_{m}$个0。同样的方式能得到用$d_{i}$个0填充的$\tilde{Z}_{m}=\left[0, \cdots, 0, Z_{m}^{1}, \cdots, Z_{m}^{d_{m}}\right]$。最终的推导公式为：

$ y=h\left(\operatorname{Concat}\left(\left\{Z_{i}, Z_{m}\right\}\right)\right)=h\left(\tilde{Z}_{i}+\tilde{Z}_{m}\right), $

(10)

式中，y为最终输出结果；h (·)为分类器。融合过程是对输出进行逐元素相加：

$ y=h\left(Z_{i}\right)+h\left(Z_{m}\right) 。$

(11)

DMLP的权重是从时空信息中动态映射的，通过原始图像表示和时空特征加权进行映射获得动态细化的图像表示：

$ y=h\left(f\left(Z_i, Z_m\right)\right)=h\left(\sum\left(\hat{Z}_i^n \cdot \hat{Z}_m^1\right), \cdots, \sum\left(\hat{Z}_i^n \cdot \hat{Z}_m^{d_i}\right)\right) 。$

(12)

1.4 损失函数

损失函数采用三元组损失$L_{\mathrm{Tri}}$和交叉熵损失$L_{\mathrm{ID}}$相结合。$L_{\mathrm{Tri}}$定义为：

$ L_{\mathrm{Tri}}=\frac{1}{Q} \sum\limits_{j=1}^{Q}\left[\max\limits_{z_{p} \in P\left(z_{j}\right)} D\left(z_{j}, z_{p}\right)-\min\limits_{z_{n} \in N\left(z_{j}\right)} D\left(z_{j}, z_{n}\right)+M\right]_{+}, $

(13)

式中，$Q$为批处理大小；$P\left(z_{j}\right)$和$N\left(z_{j}\right)$分别为正样本集和负样本集，其中$z_{j}$为第$j$个输入样本的特征；$M$为控制负例与正例特征之间最小距离的参数；$D(\cdot, ~ \cdot)$为两个特征间的欧氏距离，$[\cdot]_{+}$等价于$\max (\cdot, 0)$。$L_{\text {ID }}$定义为：

$ L_{\mathrm{ID}}=-\frac{1}{Q} \sum\limits_{i=1}^{Q} \log \frac{\mathrm{e}^{\sigma_{i}^{y_{i}}}}{\sum\limits_{j=1}^{C} \mathrm{e}^{\sigma_{i}^{j}}}, $

(14)

式中，$\sigma_{i}^{j}$为第$i$个输人图像类别为$j$的概率；$C$为车辆类别总数；$y_{i}$为第$i$个输入图像的真实类别。总体损失函数为两个损失的组合，如式（15）所示。

$ L_{\mathrm{all}}=L_{\mathrm{Tri}}+L_{\mathrm{ID}}。$

(15)

2 试验验证 2.1 数据集和评价指标

为了评估本研究的车辆重识别框架的有效性，在VeRi-776数据集^[8](目前唯一提供空间和时间标注的车辆重识别数据集)上进行了试验。其中包含776辆汽车的49 357张图像，具有身份标识、图像时间戳、相机地理位置、汽车类型和颜色信息。每辆车在24 h内由20个摄像头在市区内拍摄。数据集被分为一个包含37 781张576辆车的训练集和一个包含11 579张200辆车的测试集。在测试集中，选择200辆汽车的1 678张图像作为查询集，其余图像作为图库。

选择全类平均精度均值(mAP)和累计匹配性能Rank-1与Rank-5作为评价指标。每个查询图像q的平均精度P_A为：

$ P_{\mathrm{A}}=\frac{\sum\limits_{k=1}^{n} P(k) \times {rel}(k)}{N}, $

(16)

式中，$n$为数据集图像总数；$N$为目标车辆的图像总数。$P(k)$为在匹配序列中第$k$位的检索精度，如果第$k$个结果正确匹配，则${rel}(k)$等于1，否则${rel}(k)$等于0。然后计算所有查询图像的平均精度均值：

$ P_{\mathrm{mAP}}=\frac{\sum\limits_{q=1}^{Q} A P(q)}{Q}, $

(17)

式中，$P_{\mathrm{mAP}}$为平均精度均值；$Q$为查询集图像总数；$A P(q)$为每个查询车辆检索结果的平均值。累计匹配性能（Rank）表示查询图像$q$在前$k$个检索结果中找到正确结果的概率，其通过公式计算为：

$ R a n k-k=\frac{\sum\limits_{q=1}^{Q} {rel}(q, k)}{Q}, $

(18)

式中，$Q$为查询集图像总数，当图像$q$的正确匹配目标出现在检索结果序列的第$k$位之前，${rel}(q, k)$等于1。

2.2 试验设置

本研究试验设备为一台有4个NVIDIA 3090 GPU的机器，编程使用PyTorch。在重识别网络训练时，所有输入图像尺寸调整为256×256。在训练过程中，DMLP和其他模型都使用基于ResNet-50^[28]主干。优化器使用Adam^[29]，动量为0.9。对于优化器，将基础学习率设为3e-4。采用平衡采样训练策略^[30]将网络训练的批量大小设置为32，即每次随机采样8辆车，每辆车选取4张图片。在数据处理时使用随机水平翻转和随机擦除^[31]进行数据增强。在训练和测试阶段，使用欧式距离来评估查询图像和图库图像之间的特征相似度。

2.3 与主流算法的性能比较

将DMLP与各种主流的车辆重识别方法在VeRi-776数据集上进行比较，包括(1)基于局部的方法：PRN^[10]和PVEN^[32]。(2)基于注意力的方法：AAVER^[33]。(3)基于属性的方法：SAN^[34]和FACT^[8]。(4)基于时空信息的方法：PROVID^[25]和Siamese-CNN+Path-LSTM^[35]。(5)其他方法：VAMI^[36]，SPAN^[13]，TransReID^[37]。试验结果如表 1所示。本研究方法mAP值达到了81.9%，比排名第二的PVEN高出2.4%，Rank-1和Rank-5的数值也达到了96.5%和98.6%。在mAP值和Rank-1方面本研究方法均达到最佳性能。

表 1 VeRi-776数据集上与主流方法性能对比 Tab. 1 Performances comparison with state-of-the-art methods on dataset VeRi-776

主流方法	mAP值/%	Rank-1/%	Rank-5/%
FACT ^[8]	18.5	50.9	73.5
PROVID^[25]	27.8	61.4	78.8
PRN ^[10]	74.3	94.3	98.6
PVEN^[32]	79.5	95.6	98.4
AAVER^[33]	61.2	89.0	94.7
VAMI^[36]	61.3	89.5	94.5
SAN^[34]	72.5	93.3	97.7
SPAN^[13]	68.9	94.0	97.6
TransReID^[37]	77.2	95.6	98.3
Siamese-CNN+Path-LSTM ^[35]	58.3	83.5	90.0
本研究方法	81.9	96.5	98.6

表选项

2.4 消融试验

为了证明提出模型的各子模块的有效性, 在VeRi-776数据集上基于三元组损失L_Tri和交叉熵损失L_ID联合优化网络模型构建消融试验，得到各模块对算法的提升效果。

2.4.1 通道尺寸

首先通过控制变量法评估输入和隐藏通道维度对DMLP性能的影响。表 2给出了评估结果。当N固定时，不同d和h下Rank-1和Rank-5的精度，d=0表示仅有图像信息。观察到与其他维度组合相比，h=64，d=256达到最佳的准确性。

表 2 在不同维度组合结果比较 Tab. 2 Comparison of results with different dimensional combinations

d	h	Rank-1/%	Rank-5/%
0	—	86.2	96.4
256	32	91.2	98.1
	64	96.5	98.6
	128	92.2	98.1
	256	93.1	98.2
32	64	91.2	98.0
64		92.0	98.0
128		93.3	98.1
256		96.5	98.6

表选项

2.4.2 DMLP层数

将h设置为64，d设置为256，评估DMLP不同层数的性能差异。表 3显示，N=3达到了最佳识别效果。本研究使用N=3进行试验。

表 3 不同迭代次数的比较 Tab. 3 Comparison among different numbers of iteration

迭代次数/次	Rank-1/%	Rank-5/%
1	96.3	98.3
2	96.3	98.5
3	96.5	98.6
4	96.1	98.4

表选项

2.4.3 SE-block位置

在本节中，通过使用最优设置(d=256，h=64，N=3)，并将SE-block模块放置在残差网络的不同位置(表 4)来进行比较。观察到，在每个阶段引入SE-block都会带来性能的提升，而且不同阶段的提升幅度也是不同的。因此，可以在所有阶段都引入SE-block来获得最佳效果。然而，考虑到参数量，本研究选择在第4阶段添加SE-block以获得更好的效果。

表 4 SE-block在残差网络不同阶段的准确率 Tab. 4 SE-block accuracy at different phases of residual network

阶段	Rank-1/%	Rank-5/%	参数量(×10⁶)
1	95.6	96.3	13 814
2	95.8	97.2	13 818
3	96.0	97.8	13 872
4	96.5	98.6	14 248
全部	97.3	99.1	15 168

表选项

3 结论

本研究提出了一个新颖的车辆重识别深度学习模型。利用SE-block模块的自注意力机制学习各通道的重要程度，更好地整合全局上下文信息。其次，使用DMLP动态自适应感知器学习时空信息权重，增强图像特征的表示能力。然后通过融合时空与全局上下文信息对车辆进行重识别。在VeRi-766公开数据集上进行评估，本研究方法平均精度均值(mAP)达到了81.9%，Rank-1准确度达到了96.5%，与最先进算法相比，分别提高了2.4%和0.9%。验证了模型的有效性。

后续工作将收集更全面的带有时空信息的车辆图像数据集，进一步提升算法各方面性能。

参考文献

[1]	LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. DOI:10.1038/nature14539

[2]	GOODFELLOW I, BENGIO Y, COURVILLE A. Deep learning[M]. Cambridge: MIT Press, 2016.

[3]	AHMED E, JONES M, MARKS K T, et al. An improved deep learning architecture for person re-identification[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: Institute of Electrical and Electronics Engineers, 2015: 3908-3916.

[4]	李晓欢, 霍科辛, 颜晓凤, 等. 基于特征加权视觉增强的雷视融合车辆检测方法[J]. 公路交通科技, 2023, 40(2): 182-189. LI Xiaohuan, HUO Kexin, YAN Xiaofeng, et al. A method for radar-camera fusion vehicle detection based on feature weighted and visual enhancement[J]. Journal of Highway and Transportation Research and Development, 2023, 40(2): 182-189. DOI:10.3969/j.issn.1002-0268.2023.02.022

[5]	施俊庆, 陈林武, 李素兰, 等. 基于CNN的城市道路交通事件检测算法[J]. 公路交通科技, 2022, 39(3): 176-182. SHI Junqing, CHEN Linwu, LI Sulan, et al. Urban road traffic incident detection algorithm based on CNN[J]. Journal of Highway and Transportation Research and Development, 2022, 39(3): 176-182. DOI:10.3969/j.issn.1002-0268.2022.03.022

[6]	唐俊义, 冯麟, 周志祥, 等. 基于单目视觉测量技术的车辆尺寸识别方法[J]. 公路交通科技, 2023, 40(3): 228-236. TANG Junyi, FENG Lin, ZHOU Zhixiang, et al. A method for recognizing vehicle dimensions based on monocular vision measurement technology[J]. Journal of Highway and Transportation Research and Development, 2023, 40(3): 228-236. DOI:10.3969/j.issn.1002-0268.2023.03.027

[7]	胡剑琇, 朱前坤, 张琼, 等. 基于智能手机的城市道路车辆即时识别[J]. 公路交通科技, 2023, 40(1): 208-217. HU Jianxiu, ZHU Qiankun, ZHANG Qiong, et al. Real-time recognition of vehicle on urban road based on smart phone[J]. Journal of Highway and Transportation Research and Development, 2023, 40(1): 208-217. DOI:10.3969/j.issn.1002-0268.2023.01.024

[8]	LIU X C, LIU W, LIU H, et al. Large-scale vehicle re-identification in urban surveillance videos[C]// 2016 IEEE International Conference on Multimedia and Expo (ICME). NewYork: IEEE, 2016: 1-6.

[9]	LIU H C, TIAN Y, YANG Y, et al. Deep relative distance learning: Tell the difference between similar vehicles[C]// 2016 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: Institute of Electrical and Electronics Engineers, 2016: 2167-2175.

[10]	HE B, LI J, ZHAO Y F, et al. Part-regularized near-duplicate vehicle re-identification[C]// 2019 IEEE/ CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2019: 3997-4005.

[11]	罗浩, 姜伟, 范星, 等. 基于深度学习的行人重识别研究进展[J]. 自动化学报, 2019, 45(11): 2032-2049. LUO Hao, JIANG Wei, FAN Xing, et al. A survey on deep learning based person re-identification[J]. Acta Automatica Sinica, 2019, 45(11): 2032-2049.

[12]	张小瑞, 陈旋, 孙伟, 等. 基于深度学习的车辆再识别研究进展[J]. 计算机工程, 2020, 46(11): 1-11. ZHANG Xiaorui, CHEN Xuan, SUN Wei, et al. Progress of vehicle re-identification research based on deep learning[J]. Computer Engineering, 2020, 46(11): 1-11.

[13]	CHEN T S, LIU C T, WU C W, et al. Orientation-aware vehicle re-identification with semantics-guided part attention network[C]//European Conference on Computer Vision (ECCV). Cham: Springer, 2020: 330-346.

[14]	CHEN W T, CHEN I H, YEH C Y, et al. SJDL-Vehicle: Semi-supervised joint defogging learning for foggy vehicle re-identification[C]// 2022 AAAI conference on artificial intelligence. Washington D.C. : Association for the Advancement of Artificial Intelligence, 2022: 347-355.

[15]	CHEN X, SUI H G, FANG J, et al. Vehicle re-identification using distance-based global and partial multi-regional feature learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(2): 1276-1286. DOI:10.1109/TITS.2020.2968517

[16]	JIN Y, LI C N, LI Y D, et al. Model latent views with multi-center metric learning for vehicle re-identification[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(3): 1919-1931. DOI:10.1109/TITS.2020.3042558

[17]	FERIS R S, SIDDIQUIE B, PETTERSON J, et al. Large-scale vehicle detection, indexing, and search in urban surveillance videos[J]. IEEE Transactions on Multimedia, 2012, 14(1): 28-42. DOI:10.1109/TMM.2011.2170666

[18]	ZAPLETAL D, HEROUT A. Vehicle re-identification for automatic video traffic surveillance[C]// 2016 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New York: IEEE, 2016: 25-31.

[19]	JAVED O, SHAFIQUE K, RASHEED Z, et al. Modeling inter-camera space-time and appearance relationships for tracking across non-overlapping views[J]. Computer Vision and Image Under-standing, 2008, 109(2): 146-162. DOI:10.1016/j.cviu.2007.01.003

[20]	WU F Z, LI S N, ZHAO T H, et al. Model-based face reconstruction using sift flow registration and spherical harmonics[C]//2016 23rd International Conference on Pattern Recognition (ICPR). New York: IEEE, 2016: 1774-1779.

[21]	ELLIS T, MAKRIS D, BLACK J. Learning a multi-camera topology[C]// 2nd Joint IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance(VS-PETS). New York: IEEE, 2003: 165-171.

[22]	NEUMANN J, ALOIMONOS Y. Spatio-temporal stereo using multi-resolution subdivision surfaces[C]// Proceedings IEEE Workshop on Stereo and Multi-Baseline Vision (SMBV). New York: IEEE, 2001: 103-108.

[23]	LOY C C, XIANG T, GONG S G. Multi-camera activity correlation analysis[C]// 2009 IEEE /CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2009: 1988-1995.

[24]	王振学, 许喆铭, 雪洋洋, 等. 融合全局与空间多尺度上下文信息的车辆重识别[J]. 中国图象图形学报, 2023, 28(2): 471-482. WANG Zhenxue, XU Zheming, XUE Yangyang, et al. Global and spatial multi-scale contexts fusion for vehicle re-identification[J]. Journal of Image and Graphics, 2023, 28(2): 471-482.

[25]	LIU X C, LIU W, MEI T, et al. A deep learning-based approach to progressive vehicle re-identification for urban surveillance[C]// European Conference on Computer Vision (ECCV). Cham: Springer, 2016: 869-884.

[26]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2018: 7132-7141.

[27]	YANG L F, LI X, SONG R J, et al. Dynamic MLP for fine-grained image classification by leveraging geographical and temporal information[C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2022: 10935-10944.

[28]	HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// 2016 IEEE /CVF Conference on Computer Vision and Pattern Recognition (CVPR), New York: IEEE, 2016: 770-778.

[29]	KINGMA D P, BA J. Adam: A method for stochastic optimization[C]// In Proceedings of the International Conference on Learning Representations (ICLR). California: Computational and Biological Learning Society, 2014: 448-456.

[30]	HUANG P, HUANG R, HUANG J, et al. Deep feature fusion with multiple granularity for vehicle re-identification[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New York: IEEE, 2019: 80-88.

[31]	ZHONG Z, ZHENG L, KANG G L, et al. Random erasing data augmentation[C]// AAAI. 2020 AAAI Conference on Artificial intelligence. Wanshington D.C. : Association for the Advancement of Artificial Intelligence, 2020: 13001-13008.

[32]	MENG D C, LI L, LIU X J, et al. Parsing-based view-aware embedding network for vehicle re-identification[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2020: 7103-7112.

[33]	KHORRAMSHAHI P, KUMAR A, PERI N, et al. A dual-path model with adaptive attention for vehicle re-identification[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE, 2019: 6132-6141.

[34]	QIAN J J, JIANG W, LUO H, et al. Stripe-based and attribute-aware network: A two-branch deep model for vehicle re-identification[J]. Measurement Science and Technology, 2020, 31(9): 1-11.

[35]	SHEN Y T, XIAO T, LI H S, et al. Learning deep neural networks for vehicle re-ID with visual-spatio-temporal path proposals[C]// 2017 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE, 2017: 1918-1927.

[36]	ZHOU Y, SHAO L. Viewpoint-aware attentive multi-view inference for vehicle re-identification[C]// 2016 IEEE/ CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2018: 6489-6498.

[37]	HE S T, LUO H, WANG P C, et al. TransReID: Transformer-based object re-identification[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV), New York: IEEE, 2021: 14993-15002.