基于Transformer的激光点云与相机多模态融合三维目标检测算法

扩展功能

加入引用管理器

Email Alert

文章信息

孟佳颖, 彭涛, 陈强, 冯新昀, 李海涛.

MENG Jiaying, PENG Tao, CHEN Qiang, FENG Xinyun, LI Haitao

基于Transformer的激光点云与相机多模态融合三维目标检测算法

Transformer-based multimodal fusion algorithm for 3D object detection using LiDAR point cloud and camera data

公路交通科技, 2025, 42(11): 179-189

Journal of Highway and Transportation Research and Denelopment, 2025, 42(11): 179-189

10.3969/j.issn.1002-0268.2025.11.019

文章历史

收稿日期: 2025-02-09

Abstract

PDF

Figures

Tables

引用本文

孟佳颖, 彭涛, 陈强, 冯新昀, 李海涛. 基于Transformer的激光点云与相机多模态融合三维目标检测算法[J]. 公路交通科技, 2025, 42(11): 179-189.

MENG Jiaying, PENG Tao, CHEN Qiang, FENG Xinyun, LI Haitao. Transformer-based multimodal fusion algorithm for 3D object detection using LiDAR point cloud and camera data[J]. Journal of Highway and Transportation Research and Denelopment, 2025, 42(11): 179-189.

基于Transformer的激光点云与相机多模态融合三维目标检测算法

孟佳颖 , 彭涛 , 陈强 , 冯新昀 , 李海涛

天津职业技术师范大学汽车与交通学院, 天津 300222

收稿日期: 2025-02-09；修改日期: 2025-09-21

基金项目: 国家自然科学基金项目(52172350);天津市多元投入基金重点项目(21JCZDJC00700);天津市教委社会科学重大项目(2023JWZD48);天津市教委科研计划项目(2021KJ015)

作者简介: 孟佳颖(2002-)，女，江苏泰兴人，硕士，研究方向为智能网联汽车、道路交通运输

*通信作者: 彭涛(1983-)，男，山东临朐人，博士，副教授，研究方向为智能网联汽车人机安全驾驶

摘要: 目标针对自动驾驶系统三维目标检测精度不足的技术瓶颈, 本研究提出一种融合激光雷达与相机多模态数据的基于Transformer的三维目标检测方法。方法构建多模态变换卷积神经网络, 引入体素自注意力机制、自适应关键点选择和多特征聚合策略, 实现点云与图像的深度特征提取与融合。其中, 体素自注意力机制增强空间特征表达, 自适应关键点选择策略提高相似目标区分度, 多特征聚合在颜色信息引导下提升检测鲁棒性。结果在KITTI数据集上的试验表明, 该方法在远距离和小目标检测方面仍具较高准确性。试验结果显示, 在中等难度下, 汽车、行人和骑行者的检测精度分别达到82.43%, 58.53%和66.72%, 对比PV-RCNN等主流方法均有显著提升。结论体素自注意力机制提升了稀疏区域目标检测能力, 自适应关键点选择降低了小目标误检率, 多特征聚合策略增强了复杂场景下的识别性能。综上, 该方法有效提升了三维目标检测的准确性与稳定性, 为自动驾驶感知系统提供了高效可靠的检测方案。

关键词: 汽车工程三维目标检测多模态融合 Transformer 自动驾驶

Transformer-based multimodal fusion algorithm for 3D object detection using LiDAR point cloud and camera data

MENG Jiaying, PENG Tao, CHEN Qiang, FENG Xinyun, LI Haitao

School of Automobile and Transportation, Tianjin University of Technology and Education, Tianjin 300222, China

Abstract: Objective To address the technical bottleneck of insufficient accuracy in 3D object detection for autonomous driving systems, this study proposes a Transformer-based 3D object detection method that integrates multimodal data from LiDAR and cameras. Method A multimodal transformer point-voxel region-based convolutional neural network was constructed. It incorporated a voxel self-attention mechanism, an adaptive key point selection strategy, and a multi-feature aggregation scheme to achieve deep feature extraction and fusion of point clouds and images. Specifically, the voxel self-attention mechanism enhanced spatial feature representation; the adaptive key point selection improved discrimination among similar targets; and the color-guided multi-feature aggregation enhanced detection robustness. Result The tests conducted on KITTI dataset demonstrate that the proposed method maintains high accuracy in long-range and small-object detection. With moderate difficulty settings, the detection accuracies for cars, pedestrians and cyclists reach 82.43%, 58.53% and 66.72% respectively. It shows significant improvements over mainstream methods, e.g., PV-RCNN. Conclusion The voxel self-attention mechanism strengthens detection in sparse regions. The adaptive key point selection reduces false detections of small objects. The multi-feature aggregation strategy enhances recognition performance in complex scenarios. Overall, the proposed method effectively improves both accuracy and stability of 3D object detection, providing an efficient and reliable detection scheme for autonomous driving perception systems.

Key words: automotive engineering 3D object detection multimodal fusion Transformer autonomous driving

0 引言

随着现代科技的飞速发展，激光雷达与相机等视觉传感器的研究得到了显著提升。在自动驾驶领域，为了保障人的安全，车辆对外部环境的感知至关重要。激光雷达与相机可以获得环境的详细信息，因此，智能车辆充分利用二者的特征聚合，以达到高效目标检测的目的。

早期激光雷达与相机融合^[1-2]能够将点云(或者从点云中生成的区域建议)投影到2D图像上进行检测，虽然能实现两者数据的融合，但存在明显缺陷。由于其过于依赖图像，破坏了点云的3D结构，使得点云精确的空间位置信息优势未能充分发挥，同时，还丢失了部分图像丰富的语义特征。近年来，激光雷达与相机融合技术在三维目标检测领域取得了显著进展，但仍存在诸多挑战。早期研究主要集中于将点云投影到2D图像上进行检测，这种方法虽然实现了数据的初步融合，但由于过度依赖图像，破坏了点云的3D结构，导致点云精确的空间位置信息未能充分发挥，同时丢失了部分图像丰富的语义特征。例如，Vora和Lang^[3]提出的Point Painting方法通过二维图像的语义分割网络为点云添加语义信息，但这种方法在处理复杂场景时，语义信息的准确性和鲁棒性仍有待提高。Chen^[4]提出的MV3D方法通过多视图特征提取和鸟瞰图生成感兴趣区域，虽然在一定程度上提升了检测精度，但在特征融合过程中仍存在信息丢失的问题。

近几年，基于深度卷积神经网络的目标检测技术得到了迅猛发展。例如，TransFusion^[5]算法使用两个Transformer解码器层作为检测头，第1个解码器依据图像从点云中获得初始边界框，第2层解码器使用自注意力机制融合点云与图像特征并进行最终的检测。Wu^[6]采用的VirConv-S等算法可以快速有效地解决深度补全过程中伪点云的噪声和密度问题。Liu^[7]所采用的BEV Fusion算法将点云与图像统一到鸟瞰图中，保留更多点云的三维结构和图像的纹理信息，有效地将两种不同的数据融合起来。Yan^[8]在交叉模态变换器(Cross Modal Transformer，CMT)算法中提出一种坐标编码模块，在多模态特征中添加位置先验信息，通过对象查询的方式与所有特征进行交互。

上述算法在传感器融合的目标检测中取得了部分成果，但仍然存在图像与点云信息融合不完全或者检测精度低的问题。

为解决上述问题，本研究提出一种基于Transformer的激光点云与相机多特征聚合的三维目标检测方法，主要思路是将图像和激光雷达点云首先在数据级上进行融合，然后使用Transformer网络对融合后的特征进行提取，以提高网络的检测性能。所提方法主要由体素自注意力机制、自适应关键点选取和多特征聚合3个模块构成。本研究框架采用体素与点云结合的策略^[9]，首先从体素特征中选取能够最大程度区分相似目标的关键点，然后对融合后的点云应用多特征聚合方法^[10]提取初步特征，最后通过抽象特征提取方法^[11](如VSA)进一步融合并丰富总体特征，从而提升特征表征能力，最后送入3D目标检测器中。

1 MTPV-RCNN的整体研究思路与步骤

本研究所提多模态变换卷积神经网络(MTPV-RCNN)是一种两阶段的目标检测网络，总体结构图如图 1所示。在网络的第1阶段，使用稀疏卷积将点云切分成大小一致的体素块，通过自适应关键点选取网络并找到目标物体区别最大的特征点并对体素化之后的体素块进行自注意力机制，并分别对空体素和非空体素提取特征，最后通过高度压缩将点云图转换成伪2D图像进行初步目标检测。

图 1 总体结构图 Fig. 1 Overall framework

图选项

在网络的第2阶段，把带颜色的点云输入至多特征聚合模块。在该模块中，首先借助颜色权重生成模块，把图像的颜色信息以权重形式与点云相融合，接着针对融合后的点云特征展开特征提取操作。再运用抽象特征提取方式(如VSA)将这两个阶段所生成的特征信息予以融合整合，最终将其输入检测头以执行检测任务。

1.1 体素自注意力机制

本节引入了适应体素的Transformer网络框架，对空体素与非空体素N_s进行特征提取，扩大模型的感受野，并引入高斯搜索方法加快网络运行速度^[12]。空体素与非空体素的特征提取表示如图 2所示。

图 2 空体素与非空体素的特征提取 Fig. 2 Feature extraction from empty voxels and non-empty voxels

图选项

对于体素化的点云，本研究将点云图按照一定的大小划分成N_d个体素特征，使用一个×3维度的索引数组V代表体素，使用N_s×d的特征数组F代表非空体素的特征，其中N_s代表体素的数量，由于在点云图中大部分空间并不存在点云，所以总的体素个数N_d远远大于非空体素数量。在自注意力机制中，利用多头自注意力机制建立非空体素之间的关联，首先要选定一个体素i，计算出参与注意力机制的范围Ω(i)∈V，对范围内的体素j∈Ω(i)进行计算得到被选定的体素特征f_i以及参与计算的体素特征f_j，其中v_i和v_j分别对应被选定体素与参与计算体素的索引。

通过公式p=r·(V+0.5)将V_i和V_j对应的真实体素中心坐标P_i和P_j计算出来，其中r代表体素尺寸。单头注意力机制及位置编码计算式如下：

$ \left\{\begin{array}{l} \boldsymbol{Q}_i=f_i \boldsymbol{W}_{\mathrm{q}} \\ \boldsymbol{K}_j=f_j \boldsymbol{W}_{\mathrm{k}}+\boldsymbol{E}_{\mathrm{p}} \\ \boldsymbol{V}_j=f_j \boldsymbol{W}_{\mathrm{v}}+\boldsymbol{E}_{\mathrm{p}} \end{array}。\right. $

(1)

查询向量Q_i，关键向量K_i，值向量V_i, W_q, W_k, W_v分别由查询向量，关键向量和值向量的线性投影，位置编码E_p= (b_i-b_j)W_p。则体素的注意力机制计算公式如下：

$ f_i=\sum\limits_{j \in \varOmega(i)} \psi\left(\frac{\boldsymbol{Q}_i \boldsymbol{K}_j}{\sqrt{d}}\right) \cdot \boldsymbol{V}_j, $

(2)

式中ψ(·)为归一化函数softmax。

由于体素包含空体素与非空体素两类，标准的Transformer块难以有效提取非空体素的特征^[13]。因此，需要对Transformer模块进行一定的调整。首先要考虑的就是非空体素，因为其包含所有的特征信息，需要以被查询体素为中心点向四周扩散，找出一定范围内所有参与计算的非空体素，为实现更优质的体素特征学习成效，去除全部的dropout层。对于空体素则直接使用系数卷积进行操作，但是在空体素中没有办法找到一个可以被用来查询的向量Q_i。所以，需要结合参与注意力机制的体素特征f_i式(3)给出Q_i在空体素位置上的代表值，如图 3所示。

$ \boldsymbol{Q}_i=\underset{j \in \varOmega(i)}\varLambda\left(f_i\right), $

(3)

图 3 多层神经网络中的体素特征提取模块 Fig. 3 Voxel feature extraction module in multilayer neural networks

图选项

式中Λ为应用于参与自注意力机制的体素特征f_i的最大池化。

1.1.1 基于哈希表的体素查询方法

假设采用遍历所有非空体素的方法去查询选定体素i一定范围内参与计算的非空体素，需要大量的时间才能做到。为增加计算效率，本研究构建一个如图 4所示N_h×2大小的哈希表对非空体素进行精确查找，其中N_s<N_h<N_d。首先建立一个数组V来存储索引值j，对每一个被选定的体素通过注意力机制得到参与计算的体素V_j∈Ω(i)，然后从哈希表中找到非空体素V_j对应的索引值j，如果返回值为1则代表是非空体素可以参与注意力机制计算。经过体素注意力机制以及基于哈希表的体素查询方法就能够获得在被选定体素i范围内可以参与计算体素的索引值V_j以及特征f_i^[14]。

图 4 基于哈希表的体素查询 Fig. 4 Hash table-based voxel queries

图选项

1.2 自适应关键点选取网络

最远点采样(Farthest Point Sampling，FPS)过程中所得关键点在捕获丰富多尺度特征时能够保留较多局部信息^[15]，但是对于一些形状相似的物体容易产生误检。例如，在点云场景之中，行人与电线杆的区分存在一定难度。此时，若能在二者差异最为显著的范围内保留更多的关键点，着重凸显行人的核心特征，将会对形状相似物体的甄别起到极为关键的辅助作用。鉴于点云于空间内呈现出非均匀的分布态势，引入自适应关键点选取模块能够切实有效地提高对小目标的检测精准度^[16]，从而为点云场景中物体的精准识别与分析提供有力的技术支撑与保障，有利于相关领域研究的深入推进与拓展应用。本研究使用公式对关键点进行了重新选择。

$ \boldsymbol{f}_i^{\prime}=\frac{1}{n} \operatorname{ReLU}(\sum\limits_{j \in N(i)} W_{\text {offest }}\left(\boldsymbol{f}_i-\boldsymbol{f}_j\right) \cdot\left(\boldsymbol{v}_i-\boldsymbol{v}_j\right), $

(4)

$ \boldsymbol{V}_i^{\prime}=\boldsymbol{V}_i+\tanh \left(W_{\text {align }}\left[\boldsymbol{f}_i^{\prime}\right]\right), $

(5)

式中，f_i^′为更新后的特征向量；ReLU表示激活函数；N(i)为第i层关键点的邻近点；W_offest为学习矩阵的权重参数；V_i^′为新的关键点；W_align为位置信息的学习矩阵的权重参数。

为更清晰地区分点云中的前景点与背景点，通过式(6)将更新后的关键点特征输入简单的分割模块，以突出前景特征并弱化背景点。

$ \begin{gathered} g=\sigma\left(\mid W_{\text {gate }} \boldsymbol{f}_i+b_{\text {gate }}\right), \\ \boldsymbol{f}_i^{\mathrm{g}}=g \odot W_{\mathrm{fe}} \boldsymbol{f}_i, \end{gathered} $

(6)

式中，W_gate为输入关键点特征向量对应的权重参数；b_gate为常量参数；σ为sigmoid函数；W_fc为当前的权重参数。

1.3 多特征聚合网络

本节构建了一个以自注意力机制作为核心组件的Point Transformer网络结构，自注意力机制在处理序列数据时能够动态地捕捉不同位置之间的依赖关系，从而有效地提取关键特征。

具体而言，此网络结构的设计充分考虑了图像数据的多样性和复杂性。在数据输入阶段，将图像中的颜色信息和点云特征进行了深度聚合。图像的颜色信息包含了丰富的视觉语义，而点云特征则能够精确地描述物体的空间结构。通过特定的融合算法，将这两种不同类型的特征有机地结合在一起，形成了更为全面和丰富的特征表示。完成特征聚合之后，融合后的特征被输入到残差结构中。残差结构采用了先下采样再上采样的策略。下采样过程通过卷积等操作，能够降低特征图的分辨率，减少计算量，同时提取图像的高级语义特征。上采样过程则通过转置卷积等技术，将低分辨率的特征图恢复到原始尺寸，以便更好地与输入数据进行匹配和融合。最终，经过处理的特征被输出，为后续的任务，如图像分类、目标检测等提供了高质量的输入，如图 5所示。

图 5 多特征聚合网络 Fig. 5 Multi-feature aggregation network

图选项

1.3.1 颜色权重生成模块

目标图像区域通常具有比背景区域更丰富的上下文特征，但是如果以图像特征为主要依据来进行目标检测，检测结果往往过度依赖于二维检测器的检测精度。为了解决这个问题，本研究提出了一种将图像提供的特征作为辅助特征与点云特征进行融合的方法，具体操作是对关键点赋予颜色权重，对颜色特征丰富的目标特征，网络会赋予其更高的权重。权重的生成通过神经网络实现如图 6所示。

图 6 颜色权重生成模块 Fig. 6 Color weight generation module

图选项

其具体步骤如下：

通过FPS提取关键点，以$Q_{\mathrm{Re}}(P)$的RGB值$C^0= \left\{C_1^0, \cdots, C_n^0\right\}$为输入，使用MLP（Multi－Layer Perceptron，多层感知机）和Max pooling（最大池化）提取全局颜色特征$F_{\mathrm{G}}^C$，同时以$Q_{\mathrm{K}}(P)$的RGB值$C_{\mathrm{K}}^0 \left\{C_1^0, \cdots, C_n^0\right\}$使用MLP提取第$i$个关键点的颜色特征$F_i^c$，该关键点的颜色权重$\boldsymbol{W}$如式（7）所示：

$ \boldsymbol{W}=\sigma\left[f\left(F_i^{\mathrm{C}}\right)\right] \oplus F_{\mathrm{G}}^{\mathrm{C}}, $

(7)

式中，$\oplus $为级联操作; f为MLP拟合的函数; σ为Sigmoid激活函数。则全局特征提取函数计算式(8)如下：

$ h_\theta\left(X_i, X_j, C_i, C_j\right)=h_\theta\left[X_i, X_j-X_i, W\left(C_i, C_j\right)\right], $

(8)

式中，对全局特征提取函数使用对称聚合操作ϕ，生成点云的坐标与颜色信息聚合后的点云特征，第i个关键点在多特征聚合网络的输出表达式为：

$ P_i^1=\underset{j:(i, j) \in \varepsilon}{\phi} h_\theta\left[X_i, X_j-X_i, \quad W\left(C_j^0-C_i^0\right)\right] 。$

(9)

式中，全局特征提取函数h_θ和对称聚合操作ϕ均通过MLP实现。X_i提供点云的全局形状信息；X_j－X_i提供局部邻域信息；W提供点云的全局颜色信息；C_j⁰－C_i⁰提供关键点的局部颜色信息。

1.3.2 Point Transformer

由于三维点云是空间中的一个个分散的点^[17]，因此需要对其进行编码以满足Transformer结构的需求。本研究使用的编码计算式(10)为：

$ \delta=\theta\left(p_i-p_j\right)。$

(10)

这是一种可以学习位置参数的编码方式，这里的p_i和p_j分别代表点云i和j的位置信息，θ是由两个线性层和一个非线性层ReLU构成。

Transformer的结构与点云是非常契合的，因为点云本质上就是嵌入在空间中的一个点。采用式(11)对点云进行处理：

$ y_i=\sum\limits_{x_j \in X(i)} \rho\left[\gamma\left(\varphi\left(x_i\right)-\psi\left(x_j\right)+\delta\right)\right] \odot\left(\alpha\left(x_j\right)+\delta\right), $

(11)

式中，y_i为经过Transformer处理之后的输出特征；φ，ψ和α是线性投影或MLP。x_i为第i个体素的输入特征；δ为位置编码函数；ρ为归一化函数；γ为一个具有两个线性层和一个ReLU非线性层的MLP，结构如图 7所示。

图 7 点云处理变换结构 Fig. 7 Point clouds processing and transformation

图选项

下采样与上采样过程的输入输出如图 8所示。下采样模块的主要作用是减少数据量^[18]，首先对输入的点云进行最远点采样，在不影响三维点云结构的情况下尽量减少点云数目加快后续的处理速度。将采样后的点云使用KNN获取点云局部邻域信息并进行批量归一化和ReLU，最后通过一个最大池化层输出一次下采样的结果。在上采样过程中，使用一种U型网络设计，首先将输入的点云特征进行线性处理，然后通过线性插值^[19]映射到具有更高分辨率的点集上，最后与对应阶段的编码器特征进行结合。

图 8 点云采样的数据处理和转换流程 Fig. 8 Data processing and transformation process of point cloud sampling

图选项

2 试验结果与分析

本研究基于KITTI数据集实施系列评估，提出目标检测网络MTPV-RCNN。KITTI数据集包含7 481个激光点云图和7 518个与激光点云对应的二维图像用于训练和测试。按照KITTI官方给出的评价指标，分为汽车，行人，骑行者3个类别，基于精确率-召回率曲线计算设定不同的IoU交并比阈值，并按照不同遮挡程度分为简单，中等，困难3个等级。

在绝大多数文章里, 将训练样本分成训练集(3 712)和验证集(3 769)，车辆、行人、骑行者的IoU阈值分别为0.7，0.5，0.5，并按照RP _ 40的召回率进行计算检测精度。最后，通过消融试验根据平均精度的平均值(mean Average Precision)，评估模型在不同类别上的检测效果^[20-21]。

表 1和表 2分别为3D目标检测和BEV目标检测性能试验结果，其中，L表示激光雷达，LC表示激光雷达与相机融合输入。如表 1所示，针对3D汽车检测任务(IoU=0.7)，PV-RCNN算法在简单、中等和困难3个难度级别上的检测精度分别为90.25%，81.43%和76.82%，EQ-PV-RCNN算法分别为90.13%，82.01%和77.53%。PG-RCNN算法分别为89.58%，82.13%和77.33%。本研究所采用的算法分别将检测精度提高到了91.75%，82.43%，80.09%，在各个难度级别上均取得了一定提升。主要原因在于，MTPV-RCNN算法在关键点选取的过程中更偏向于远处的稀疏区域和小目标群体，而通过注意力机制依然可以召回远距离处点云稀疏的车辆目标，这也是即使在车辆类别不同的情况下精度依然能够提升的原因。对于3D行人检测(IoU=0.5)，本研究算法在简单、中等和困难级别上分别将行人的精度提高到了65.49%，58.53%，54.46%。在骑行者检测方面(IoU=0.5)，本研究的方法在简单、中等和困难3个级别上的精度提高到了85.60%，66.72%，62.56%。

表 1 基于多模态输入的3D目标检测性能对比 Tab. 1 Comparison of multimodal input-based 3D object detection performances

检测网络	输入	车辆3D检测AP_R40				行人3D检测AP_R40				骑行者3D检测AP_R40
检测网络	输入	简单	中等	困难	mAP值	简单	中等	困难	mAP值	简单	中等	困难	mAP值
PV-RCNN^[22]	L	90.25	81.43	76.82	82.83	52.17	43.29	40.29	66.73	78.60	63.71	57.65	66.65
EQ-PVRCNN^[23]	L	90.13	82.01	77.53	83.22	55.84	47.02	42.94	68.38	85.41	69.10	62.30	72.27
PG-RCNN^[24]	L	89.38	82.13	77.33	82.95	47.90	41.03	37.98	65.53	82.77	67.82	61.25	70.61
VPFNet^[25]	LC	88.51	80.97	76.74	82.07	54.65	48.36	44.98	68.04	77.64	64.10	58.00	66.58
GraphAlign^[26]	LC	90.90	82.23	79.67	84.27	41.38	36.89	34.95	64.33	78.42	64.43	58.71	67.18
TSF^[27]	LC	89.94	82.76	76.04	82.91	70.74	63.47	56.56	74.63	84.72	64.22	56.78	68.57
UPIDet^[28]	LC	89.13	82.97	80.05	84.05	55.59	48.77	46.12	69.53	86.74	74.32	67.45	76.17
MTPV-RCNN	LC	91.75	82.43	80.09	84.76	65.49	58.53	54.46	73.93	85.60	66.72	62.56	71.62

表选项

表 2 基于多模态输入的BEV目标检测性能对比 Tab. 2 Comparison of multimodal input-based BEV object detection performances

检测网络	输入	车辆BEV检测AP_R40				行人BEV检测AP_R40				骑行者BEV检测AP_R40
检测网络	输入	简单	中等	困难	mAP值	简单	中等	困难	mAP值	简单	中等	困难	mAP值
PV-RCNN	L	94.98	90.65	86.14	90.5	59.86	50.57	46.74	74.22	82.49	68.89	62.41	71.26
EQ-PVRCNN	L	94.55	89.09	86.42	90.02	61.73	52.81	49.87	74.93	86.25	73.30	65.49	75.01
PG-RCNN	L	84.94	70.65	64.03	73.21	51.63	45.48	43.30	61.89	84.94	70.65	64.03	73.21
VPFNet	LC	93.94	90.52	86.25	90.24	60.07	52.41	50.28	54.25	80.83	67.66	61.36	69.95
GraphAlign	LC	90.73	94.46	88.34	91.18	46.61	41.95	40.05	70.47	80.71	69.43	63.57	71.24
TSF	LC	93.21	90.41	85.91	89.84	75.96	68.61	61.45	80.77	88.56	84.36	63.20	78.71
UPIDet	LC	91.36	92.96	86.80	90.37	58.91	53.32	50.82	74.93	89.65	78.19	71.13	79.66
MTPV-RCNN	LC	95.02	88.91	88.40	90.78	69.80	62.66	58.95	79.22	88.36	68.06	63.77	73.4

表选项

从表 2可以看出，在激光雷达与相机图像的多种融合方法中，本研究提出的方法在行人和骑行者的检测上表现出显著改进。这主要是由于纯点云中，行人和骑行者的样本数量较少，检测难度较大。通过结合关键点自适应选取和多特征聚合网络的特点，本方法能够将关键点对准最具区分性的区域，从而有效突出行人和骑行者的主要特征。在点云量较少的情况下，这种优化策略显著提高了行人和骑行者的检测精度。

2.1 试验结果可视化与分析

MTPV-RCNN可以在不同距离下准确地检测出想要的目标，即使在距离较远点数量较少的目标中依然可以进行检测。基于KITTI数据集试验内容，针对不同的场景开展测试，所涉场景包括近远景、复杂街景、存在遮挡的场景以及不同光照强度的情形。图 9~13为模型在不同场景下的检测结果可视化。每组结果的上半部分为原始相机图像，下半部分为对应的三维检测结果。图中，位于道路区域的三维框为车辆，位于路缘或人行道上的较小三维框为行人，而介于二者之间、与车辆共享道路空间的狭长三维框则为骑行者。图中的箭头指示了自我车辆的行驶方向。图 9与图 10分别展示了在近景与远景下的检测结果，由此可说明本研究所提网络具有较为精准的检测结果。

图 9 近景识别结果 Fig. 9 Close-range recognition results

图选项

图 10 远景识别结果 Fig. 10 Scene recognition results

图选项

图 11 复杂场景下的识别结果 Fig. 11 Recognition results in complex scenarios

图选项

图 12 不同光照下的识别结果 Fig. 12 Recognition results in different lighting conditions

图选项

图 13 遮挡场景下的识别结果 Fig. 13 Recognition results in occlusion scenarios

图选项

图 11展示了网络模型在复杂环境下的检测结果。即使场景复杂，本研究提出的MTPV-RCNN对于一些相似物体如路牌、行人、树等物体和远距离目标，在杂乱的场景中仍然具有较高的检测精度，因为本研究提出的关键点自适应模块可以自适应地选择目标间最具区别的特征点，提高对相似物体检测的精度。由图 12得知本研究提出的网络在不同光照下仍然有较高的准确性，不管是在光照不足的树阴下还是在强曝光的马路上，对于检测精度影响不大，说明光照变化对本研究网络的检测结果不造成太大的影响。图 13展示的是在具有较大遮挡情况下的检测效果，因为本研究使用Transformer结构可以更加有效地提取和学习目标特征，从而提升检测精度，所以在一定遮挡范围和一定检测距离内网络都具有较高的准确性。

由图 9~13识别结果表明，本研究提出的网络模型适合各种复杂场景下的三维目标检测。

2.2 消融试验

为了进一步验证本算法的检测精度及各模块的有效性，本研究的3个模块(体素注意力机制、自适应关键点选取网络、多特征聚合网络模块)基于KITTI数据集分别进行了不同场景下的消融试验。由图 14可以看出，随着算法的逐步优化，预测精度不断提升。其中，图中的14(f)和14(h)展示了本研究算法理想的检测效果，在三维框区域内相较于各优化阶段表现出明显优势，有效降低了小目标的误检率。具体而言，图 14(a)和图 14(c)显示了原始算法PV-RCNN的检测结果。可以看到，在三维框范围内存在明显的误检和漏检现象，例如将杆、树木和墙误检为行人或骑行者。图 14(b)和图 14(d)展示了加入F1模块(体素注意力机制)后的检测结果。尽管对行人的误检有所减少，但仍然存在部分误检和漏检的情况，例如未能检测出远处的行人或将路标误检为行人。在此基础上，图 14(e)和图 14(g)引入了自适应关键点选取模块后，能够成功检测出远处的行人，但仍存在一定的误检。最终，图 14(f)和图 14(h)展示了加入所有模块后的检测结果，远处行人能够被准确检测，且误检最少，说明本研究提出的各模块在算法中均发挥了正向作用。

图 14 基于KITTI数据集的消融试验对比 Fig. 14 Comparison of ablation experiments based on KITTI dataset

图选项

此外，表 3列出了3个模块(F1，F2，F3)在3D检测标准下的测试结果，显示各模块在不同难度的检测任务中均有不同程度的提升。试验结果表明，与基准算法PV-RCNN相比，加入体素注意力机制后，算法在中等难度的检测精度上，车辆、行人和骑行者类别分别提升了0.98%，16.69%和― 3.46%。在此基础上，进一步加入自适应关键点选取网络后，检测精度分别变化为― 0.02%，― 1.1%和3.01%。当3个模块全部加入基准算法PV-RCNN后，最终检测结果相较于基准算法，在中等难度的车辆、骑行者和行人检测精度分别提升了2%，15.24%和3.01%。

表 3 3D目标检测模块对比试验结果 Tab. 3 Comparative test result of 3D object detection modules

F1	F2	F3	车辆3D检测AP_R40	行人3D检测AP_R40	骑行者3D检测AP_R40	检测帧率/FPS	参考量
—	—	—	81.43	43.29	63.71	9.25	13.1M
√	—	—	82.41	59.08	60.25	9.09	14.3M
√	√	—	82.49	57.98	63.27	7.69	15.1M
√	√	√	82.43	58.53	66.72	7.14	15.5M

表选项

通过对比发现：MTPV-RCNN的检测速度(7.14 FPS)低于纯LiDAR方法PV-RCNN(9.25 FPS)，但显著高于多模态方法UPIDet(6.2 FPS)^[26]，证明多模态融合的代价可控。在“困难”级别(遮挡/远距离)下，本研究方法的汽车检测精度(80.09%)优于对比方法，充分证明了本研究提出的算法优化策略在提升目标检测精度方面的有效性和鲁棒性。

3 结论

本研究提出一种有效融合激光雷达与相机图像数据的方法，并引入Transformer网络结构，对于一些形状相似的目标，采取自适应关键点选取的方法选择相似物体间区别最大的特征点进行学习。引入体素自注意力机制，利用注意力机制的独特编码计算方式，补充3D稀疏卷积网络感受野，增强了算法模型对整个空间的理解能力，从而提高了网络检测精度。使用多特征聚合网络将点云与图像融合，并使用点云Transformer对融合后的数据进行特征提取以提高模型对于复杂场景下目标的检测能力。试验结果表明，本研究提出的方法相比其他流行方法在整体性能上有所提升，尤其在点云量较少的行人和骑行者的3D目标检测中表现突出。在中等难度下，行人和骑行者的检测精度分别达到58.53%和66.72%，汽车的检测精度提升至82.43%。

本研究主要创新总结如下：

(1) 设计了引入体素Transformer网络框架的体素自注意力机制，实现了对体素进行特征提取的同时扩大模型的感受野。

(2) 设计了自适应关键点选取网络，通过在体素特征编码中加入自适应卷积神经网络来自适应地选取相似物体间区别最大的点云关键点，能够更好地学习相似物体间最具区别的特征，从而提高相似物体的检测精度。

(3) 设计了多特征聚合网络，将图像的颜色信息以权重的形式与点云进行融合，并对融合后的点云进行点云自注意力机制特征提取，丰富目标特征的同时增强系统的鲁棒性。

在智能交通领域，精准高效的三维目标检测算法能够大幅提升自动驾驶系统的可靠性，减少交通事故的发生。同时助力智能交通管理系统更准确地监控路况、疏导交通，推动交通智能化、安全化的发展进程。当前研究主要基于KITTI数据集验证方法性能，虽已通过消融试验证明模块的有效性，但未覆盖雨雾、夜间等极端场景。下一步计划在NuScenes和Waymo Open Dataset等多元场景数据集上开展迁移试验，并结合仿真环境生成恶劣天气点云数据，进一步提升模型的泛化能力。

参考文献

[1]	ZHONG H, WANG H, WU Z, et al. A survey of LiDAR and camera fusion enhancement[J]. Procedia Computer Science, 2021, 183: 579-588. DOI:10.1016/j.procs.2021.02.100

[2]	郭贺, 张蕊, 成英, 等. 基于深度学习与数据回归的智能车单目测距方法[J]. 公路交通科技, 2025, 42(3): 11-20. GUO He, ZHANG Rui, CHENG Ying, et al. Intelligent vehicle monocular ranging method based on deep learning and data regression[J]. Journal of Highway and Transportation Research and Development, 2025, 42(3): 11-20.

[3]	VORA S, LANG A H, HELOU B, et al. Point painting: Sequential fusion for 3D object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2020: 4603-4611.

[4]	CHEN X Z, MA H M, WAN J, et al. Multi-view 3D object detection network for autonomous driving[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2017: 691.

[5]	WEI M, LI J, KANG H, et al. BEV-CFKT: A LiDAR-camera cross-modality-interaction fusion and knowledge transfer framework with transformer for BEV 3D object detection[J]. Neurocomputing, 2024, 582: 12527. DOI:10.1016/j.neucom.2024.127527

[6]	WU H, WEN C L, SHI S S, et al. Virtual sparse convolution for multimodal 3D object detection[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 21653-21662.

[7]	LIU Z J, TANG H T, AMINI A, et al. Bevfusion: Multi-task multi-sensor fusion with unified bird 's-eye view representation[C]//2023 IEEE International Conference on Robotics and Automation (ICRA). London: IEEE, 2023: 2774-2781.

[8]	YAN J J, LIU Y F, SUN J J, et al. Cross modal transformer: towards fast and robust 3D object detection[C]//2023 IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 18268-18278.

[9]	XU Y, TONG X, STILLA U. Voxel-based representation of 3D point clouds: Methods, applications, and its potential use in the construction industry[J]. Automation in Construction, 2021, 126: 103675. DOI:10.1016/j.autcon.2021.103675

[10]	CHEN J J, ZHAO Y D, MENG C T, et al. Multi-feature aggregation for semantic segmentation of an urban scene point cloud[J]. Remote Sensing, 2022, 14(20): 5134. DOI:10.3390/rs14205134

[11]	WANG Y X. Basic research on machine vision underpinned by image frame algebra (VFA) and visual semantic algebra (VSA)[C]//2023 7th International Conference on Machine Vision and Information Technology (CMVIT). New York: IEEE, 2023: 1-4.

[12]	WANG Y, XU H, SONG M, et al. A convolutional transformer-based truncated gaussian density network with data denoising for wind speed forecasting[J]. Applied Energy, 2023, 333: 120601. DOI:10.1016/j.apenergy.2022.120601

[13]	WANG H Y, SHI C, SHI S S, et al. DSVT: Dynamic sparse voxel transformer with rotated sets[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 13520-13529.

[14]	MAO J G, XUE Y J, NIU M Z, et al. Voxel transformer for 3D object detection[C]//2021 IEEE/CVF International Conference on Computer Vision, Montreal: IEEE, 2021: 3164-3173.

[15]	MA L F, LI Y, LI J, et al. Multi-scale point-wise convolutional neural networks for 3D object segmentation from LiDAR point clouds in large-scale environments[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 22(2): 821-836.

[16]	ZHANG J, WANG J J, XU D, et al. HCNet: A point cloud object detection network based on height and channel attention[J]. Remote Sensing, 2021, 13(24): 5071. DOI:10.3390/rs13245071

[17]	BELLO S A, YU S S, WANG C, et al. Deep learning on 3D point clouds[J]. Remote Sensing, 2020, 12(11): 1729. DOI:10.3390/rs12111729

[18]	POUDEL R P K, LIWICKI S, CIPOLLA R. Fast-SCNN: Fast semantic segmentation network[J]. arXiv preprint arXiv: 1902.04502, 2019. (2019-02-12)[2025-04-27]. https://doi.org/10.48550/arXiv.1902.04502. https:doi.org/10.48550/arXiv.1902.04502

[19]	ZHANG K Y, HUA Z Y, LI Y M, et al. Uformer-ICS: A U-shaped transformer for image compressive sensing service[J]. IEEE Transactions on Services Computing, 2023, 17(5): 2974-2988.

[20]	傅荟璇, 刘凌风, 王宇超. 基于改进PV-RCNN的3D目标检测算法试验研究[J]. 试验技术与管理, 2022, 39(2): 23-28. FU Huixuan, LIU Lingfeng, WANG Yuchao. Experimental study on 3D object detection algorithm based on improved PV-RCNN[J]. Experimental Technology and Management, 2022, 39(2): 23-28.

[21]	马军, 刘大海, 薛梦婕, 等. 基于车辆跟踪的高速公路全天候违停检测算法[J]. 公路交通科技, 2024, 41(11): 78-85. MA Jun, LIU Dahai, XUE Mengjie, et al. Expressway all-weather illegal parking detection algorithm based on vehicle tracking[J]. Journal of Highway and Transportation Research and Development, 2024, 41(11): 78-85.

[22]	SHI S S, GUO C X, JIANG L, et al. PV-RCNN: Point-voxel feature set abstraction for 3D object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 10529-10538.

[23]	YANG Z T, JIANG L, SUN Y N, et al. A unified query-based paradigm for point cloud understanding[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2022: 8541-8551.

[24]	KOO I, LEE I, KIM S H, et al. PG-RCNN: Semantic surface point generation for 3D object detection[C]//2023 IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 18142-18151.

[25]	WANG C H, CHEN H W, CHEN Y, et al. VoPiFNet: Voxel-pixel fusion network for multi-class 3D object detection[J]. IEEE Transactions on Intelligent Transportation Systems, 2024, 25(8): 8527-8537. DOI:10.1109/TITS.2024.3392783

[26]	SONG Z Y, WEI H Y, BAI L, et al. GraphAlign: enhancing accurate feature alignment by graph matching for multi-modal 3D object detection[C]//2023 IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 3358-3369.

[27]	QI H, SHI P C, LIU Z Q, et al. TSF: Two-stage sequential fusion for 3D object detection[J]. IEEE Sensors Journal, 2022, 22(12): 12163-12172. DOI:10.1109/JSEN.2022.3175192

[28]	ZHANG Y, ZHANG Q, HOU J, et al. Unleash the potential of image branch for cross-modal 3D object detection[J]. Advances in Neural Information Processing Systems, 2023, 36: 51562-51583.