基于机器学习的城镇化地区多车道公路交通事故预测

扩展功能

加入引用管理器

Email Alert

文章信息

宝然, 唐琤琤, 王德羽.

BAO Ran, TANG Chengcheng, WANG Deyu

基于机器学习的城镇化地区多车道公路交通事故预测

Multi-lane highway traffic accident prediction in urbanized area based on machine learning

公路交通科技, 2025, 42(6): 58-66

Journal of Highway and Transportation Research and Denelopment, 2025, 42(6): 58-66

10.3969/j.issn.1002-0268.2025.06.006

文章历史

收稿日期: 2024-05-20

Abstract

PDF

Figures

Tables

引用本文

宝然, 唐琤琤, 王德羽. 基于机器学习的城镇化地区多车道公路交通事故预测[J]. 公路交通科技, 2025, 42(6): 58-66.

BAO Ran, TANG Chengcheng, WANG Deyu. Multi-lane highway traffic accident prediction in urbanized area based on machine learning[J]. Journal of Highway and Transportation Research and Denelopment, 2025, 42(6): 58-66.

基于机器学习的城镇化地区多车道公路交通事故预测

宝然 , 唐琤琤 , 王德羽

交通运输部公路科学研究院，北京 100088

收稿日期: 2024-05-20；修改日期: 2025-04-17

基金项目: 城镇化地区公路交通安全设施设计规范(制定)项目(JTG-202212)

作者简介: 宝然(1999-)，男，内蒙古赤峰人，硕士，研究方向为道路交通安全

*通信作者: 唐琤琤(1970-)，女，安徽合肥人，博士，研究员，研究方向为道路交通安全

摘要: 目标针对中国城镇化地区公路交通事故多发、交通安全问题日益严峻的现状，开展多车道公路路段交通事故预测模型的构建及优化研究。方法首先，采集了某省3个地市城镇化地区多车道公路的数据，总计1 338.74 km，涵盖3 a的12 088起事故，信息包括路段横断面布置、交通安全设施类型、交通量及事故记录等。然后，针对所采集的数据进行了数据关联与融合，并依据停车视距剔除交叉口影响范围，采用等质划分路段的方法，构建了城镇化地区多车道公路路段事故数据集。最后，采用随机森林、LightGBM和XGBoost建立路段事故预测模型，并对模型进行评估。结果 XGBoost模型效果最佳，使用粒子群优化算法对其参数进行优化，显著提升了模型的拟合优度。通过SHAP可视化方法对优化后的模型进行解释分析，结果显示非机动车道或硬路肩宽度、机非隔离设施类型及交通量等因素对交通安全具有显著影响。结论在断面条件受限的道路环境下，建议适当压缩机动车道宽度、拓宽非机动车道，并优先设置实体隔离设施，其中，中央分隔带宽度控制在1~5 m范围内更有利于提升交通安全水平。

关键词: 智能交通交通事故预测可解释机器学习多车道公路城镇化地区 XGBoost SHAP

Multi-lane highway traffic accident prediction in urbanized area based on machine learning

BAO Ran, TANG Chengcheng, WANG Deyu

Research Institute of Highway, Ministry of Transport, Beijing 100088, China

Abstract: Objective Aiming at the high frequency of highway traffic accidents and increasingly severe traffic safety issues in urbanized areas of China, this study investigated the construction and optimization of traffic accident prediction models for multi-lane highway segments. Method First, the data were collected from multi-lane highways in three urbanized cites of a province, covering a total length of 1 338.74 km and 12 088 accidents over a three-year period. The dataset included information on road cross-section layouts, traffic safety facility types, traffic volumes, and accident records. Second, the collected data were processed through correlation and fusion. The traffic accident dataset for multi-lane highway segments in urbanized areas was constructed by using an equilibrium segmentation method, which excluded intersection influence based on stopping sight distance. Finally, the sectional accident prediction model was established with Random Forest, LightGBM, and XGBoost; and the model was evaluated. Result XGBoost outperforms other models. The parameter optimization via particle swarm optimization algorithm significantly improves XGBoost goodness-of-fit. The optimized model was analyzed by using SHAP visualization method. The result indicates that some factors have significant influence on traffic safety, e.g., width of non-motorized lanes or hard shoulders, types of separation facilities for motorized and non-motorized traffic, and traffic volume. Conclusion In cross-section-constrained road environments, it is recommended to moderately reduce the width of motorized lanes, widen non-motorized lanes, and prioritize the implementation of physical isolation facilities. A central median width of 1-5 m is found to be more effective in enhancing traffic safety.

Key words: intelligent transport traffic accident prediction interpretable machine learning multi-lane highway urbanized area XGBoost SHAP

0 引言

随着中国城镇化进程的快速推进，城镇空间不断扩张，产业布局持续调整，人口日益集中，机动化水平显著提高。城镇化的加快推动了交通路网体系的完善，2021年中国发布了《城镇化地区公路工程技术标准》(JTG 2112—2021)，指出城镇化地区公路是兼顾服务当地短途交通、非机动车及行人交通的公路路段，包括城镇出入口路段、穿城镇路段等。同时，随着城乡交通网络的不断完善和交通流量的持续增长，城镇化地区公路在断面布置上逐步采用二级公路增设慢车道、一级公路增设辅路等断面布置方式，以满足日益增长的通行需求。然而，城镇化进程中公路功能及需求的多元化也使得交通安全问题日益严峻。因此，本研究通过建立城镇化地区公路路段事故预测模型，分析影响路段交通安全的关键因素，并基于此为城镇化地区公路路段交安设施的设置提出建议，对减少此类路段交通事故，提升道路安全水平具有重要意义。

交通事故预测模型主要包括事故数量预测与事故严重程度预测^[1]，高精度的事故数量预测模型能够为设计、管理者提供决策依据，从而提升道路交通安全情况。早期的研究主要基于传统统计模型，如Morrison^[2]建立贝叶斯条件自回归logit模型研究自行车事故影响因素，结果表明较高的车速与狭窄的自行车道均能显著增加自行车事故风险。Das^[3]对郊区公路的事故建立了负二项回归模型，结果表明速度、交通量、道路宽度和中分带宽度是主要影响因素。Yang^[4]使用贝叶斯修正的负二项回归模型识别出6个导致高速公路事故发生的显著变量，包括坡度、路段长度、是否为出入口、隧道状况、曲率、交通量。

近年来，机器学习方法在交通事故预测领域应用愈发广泛^[5]，并在许多研究中展现出较传统统计模型更明显的优势。Silva^[6]研究指出，基于机器学习的预测模型在预测精度等方面比统计模型具有更明显的优势。高雪林^[7]对中国某高速公路事故进行预测，其中数据集包括事故、交通及ETC门架信息，结果显示XGBoost的效果最好。Wen^[8]对美国德克萨斯州3 a发生的事故建立事故预测模型，研究结果发现LightGBM在平均绝对误差和均方根误差方面表现明显更好。吕路^[9]使用XGBoost进行高速公路事故持续时间预测，并使用PSO算法进行模型优化。于翔海^[10]使用XGBoost对交通事故风险进行预测，结果显示XGBoost鲁棒性较好。夏萧菡^[11]基于G25高速公路异常驾驶行为数据，采用随机森林构建实时事故风险预测模型，结果显示急加速和急减速等行为显著提升事故风险。Santos^[12]研究指出，在以往的研究中随机森林是效果结果最好的算法，然而与传统统计模型相比，机器学习模型在可解释性方面存在一定不足。Yannis^[13-14]的研究中指出大多数国家的道路管理部门在实施安全决策过程中并没有系统地使用事故预测模型，因此在进行事故预测过程中应注重模型的可解释性，能够对既有数据集中的变量进行分析。机器学习在事故预测方面已经有成熟的应用，对于其可解释性，可解释性方法(Shapley Additive Explanations, SHAP)是一种有效的措施。在交通安全研究中，Li^[15]基于LightGBM模型并结合TPE(Tree-structured Parzen Estimator)优化方法构建了交通事故严重程度预测模型，并采用SHAP分析了模型中的特征重要性，结果表明事故发生经纬度与事故发生时间是影响事故严重程度的关键特征。Parsa^[16]通过XGBoost模型及一组实时数据进行事故检测，并采用SHAP分析，结果显示事故发生前5 min与事故发生后5 min的速度差对事故发生的影响相对较大。赵晓华^[17]使用XGBoost分析快速路立交出口事故致因，SHAP结果显示拥堵指标是重要影响因素。

综上，机器学习方法在事故预测方面已体现出优势，尤其是随机森林等基于“树”的机器学习模型在以往的研究中表现出优异的预测能力，且可采用网格搜索、粒子群算法等方式进行模型优化，以及使用SHAP对模型进行可视化与可解释性分析。基于此，本研究针对城镇化地区多车道公路采集并构建事故数量预测数据集，运用随机森林、LightGBM和XGBoost构建城镇化地区多车道公路路段事故数量预测模型，采取PSO算法对模型进行优化，并利用SHAP方法分析影响此类路段行车安全性的关键因素。最后，根据模型分析结果提出相应的路段安全提升策略与建议，为相关部门在城镇化地区公路安全管理与决策中提供数据支撑。

1 事故预测数据集构建 1.1 数据来源

本研究所采用的数据涵盖了中国城镇化水平较高的某省3个地级市，时间跨度为2020至2022年。数据主要来源于交警部门记录的交通事故信息，包括简易事故中的伤人事故和一般事故中的伤亡事故，以及公路部门交通调查站提供的交通流量和交通组成数据。

本研究同时针对城镇化地区机非混行严重、过境交通与当地交通冲突频繁等特点，实地采集了包括路段及交叉口桩号、断面组成、路侧开发程度等在内的横断面与交通安全设施信息总计16项。研究重点采集了横断面布置中的关键因素，如车道宽度、中分带类型、中分带宽度、非机动车道宽度机非隔离类型等。共收集3个地级市多车道公路37条，总里程为1 338.74 km，事故12 088起，为后续数据集及预测模型构建提供了数据支撑。

1.2 数据预处理与构建

首先根据市、路号、年份及桩号对3个数据源进行拟合。然而，在此过程中部分路段存在桩号对应不一致及事故记录异常的情况。为此，将事故点位按照桩号绘制事故密度分布图，并对事故记录过少或异常集中(过量)的路段进行剔除，最终保留总里程约为1 211.23 km、事故8 961起的有效数据集。

构建事故数据集时，首先对路段进行划分。现有研究中的划分方法主要有等质划分与等长划分这2种^[18]，考虑到城镇化地区多车道公路接入密度较高，本研究采取等质划分的方式。根据《公路工程技术标准》(JTG B01—2014)规定的停车视距，按设计速度为100，80，60 km/h，把停车视距160，110，75 m作为交叉口影响范围，将2个交叉口之间的路段作为一个样本。同时按照JTG B01—2014标准中的最小接入密度及统计结果的置信区间，对过长或过短的路段进行剔除。

最终获取样本2 011个，包含路段事故4 086起，路段总长度1 444.81 km，其中单个样本平均长度为0.59 km。以路段事故数量为因变量，自变量总计为17个，类别为路段特征、环境特征、交通安全设施、交通量及交通组成。数据集构建框架如图 1所示。

图 1 数据集构建示意图 Fig. 1 Schematic diagram of dataset construction

图选项

1.3 变量描述 1.3.1 路段特征

路段特征包括7个变量，分别为路段长度(两交叉口之间剔除交叉口影响范围后的距离)、车道数(包括双向4，6，8车道)、车道宽度、路面宽度、路面类型(包括沥青混凝土和水泥混凝土)、设计速度、技术等级(一级公路和二级公路)。其中路面宽度、路面类型和技术等级为交调站数据，路段长度、车道数和车道宽度为实地采集数据。

1.3.2 环境特征

环境特征包括路侧开发程度和路段是否设置照明这2个变量。其中路侧开发程度为本研究重点考虑的变量，在城镇化进程中是影响路段的重要因素。本研究根据《公路交通安全设施精细化提升关键技术指南》^[19]中的路侧干扰值进行判断, 将路侧干扰值≤100的路段定义为低开发程度城镇化地区公路，将路侧干扰值＞100的路段定义为高开发程度城镇化地区公路。

1.3.3 交通安全设施

交通安全设施包括5个变量：中央分向设施(包括用于分向的隔离设施及双黄线)的类型和宽度、硬路肩/机非隔离设施类型、硬路肩/非机动车道宽度、是否设置防眩设施。其中硬路局/非机动车道宽度为连续变量，其他变量为分类变量。交通安全设施分类变量编码如表 1所示，其中中央分向设施类型分为8类，中央分向设施宽度分为5类，硬路肩/机非隔离设施类型分为5类。

表 1 交通安全设施分类变量编码 Tab. 1 Traffic safety facility classification variable codes

变量名称	变量分类及编码
中央分向设施类型	1—实体中分带+波形梁钢护栏；2—实体中分带+混凝土护栏；3—实体中分带+城市栏杆；4—实体中分带；5—波形梁钢护栏；6—城市栏杆；7—小于0.3 m的中心线(双黄线)；8—大于等于0.3 m的较宽中心线(双黄线)
中央分向设施宽度	0—非实体中央分隔；1—实体中央分隔带宽度 < 1 m；2—实体中央分隔带宽度1~5 m；3—实体中央分隔带宽度5~10 m；4—实体中央分隔带宽度≥10 m
硬路肩/机非隔离设施类型	0—白实线；1—实体分隔带；2—波形梁护栏；3—混凝土护栏；4—城市栏杆
是否设置防眩设施	0—否；1—是

表选项

1.3.4 交通量及交通组成

交通量和交通组成共涉及3个变量，研究从交调站获取了包括小客车、货车、摩托车等在内共计9类车型的流量和速度数据，以全面反映不同车辆类型在不同时段的通行特征与交通构成。由于交调站平均覆盖长度为20 km，速度数据为平均速度，无法代表样本的实际行驶速度特征，故本研究不采用速度数据。根据JTG B01—2014标准中的车辆折算系数, 将交通量转换为年平均日交通量(AADT)。考虑到城镇化地区公路的本地交通与过境交通的冲突是影响此类路段交通安全性的重要因素，因此计算了路段货车比例及摩托车比例作为交通组成变量。

2 事故数量模型构建与优化 2.1 评价指标选取

分别选取均方误差、均方根误差、平均绝对误差及决定系数作为指标进行模型评价，评价指标描述如下。

(1) 均方误差(MSE)是衡量模型的预测值与实际值之间差异的指标，通过计算预测值与实际观测值之间差异的平方的平均值得到。较小的MSE能够表明模型的预测值和实际值之间差异较少，但MSE受异常值的影响较大，因为异常值的平方差异会被放大，用符号S_ME表示MSE值计算公式为：

$ S_{\mathrm{ME}}=\frac{1}{m} \sum\limits_{i=1}^n\left(y_i-\hat{y}_i\right), $

(1)

式中，m为样本数量，$\hat{y}_i$为模型在第i个时间步的预测值；y_i为对应的真实值。

(2) 均方根误差(RMSE)也用于衡量模型预测值与实际值之间差异的指标，但由于它是MSE的平方根，因此具有与原始数据相同的量纲，便于解释。通过计算预测值与实际观测值之间差异的平方的均值，并取其平方根得到。与MSE相同，RMSE越小表示模型的预测值和实际值之间的差异更小，同符号S_RME表示RMSE值，计算公式为：

$ S_{\mathrm{RME}}=\sqrt{\frac{1}{m} \sum\limits_{i=1}^n\left(y_i-\hat{y}_i\right)} 。$

(2)

(3) 平均绝对误差(MAE)是预测值与实际值之间绝对差异平均值的指标，通过计算预测值与实际观测值之间差异的绝对值的平均值得到。MAE与MSE相比，受异常值的影响较小，因为它使用了差异的绝对值，不受正负方向的影响，因此反映了预测误差的绝对大小而不是误差的平方大小，用符号E_MA表示MAE值, 计算公式为：

$ E_{\mathrm{MA}}=\frac{1}{m} \sum\limits_{i=1}^n\left|y_i-\hat{y}_i\right| \text { 。} $

(3)

(4) 决定系数(R²)是衡量模型拟合优度的指标，取值范围为0~1，此指标能够表示模型对观测值与其平均值之间差异的解释程度，此值越接近1表示模型对数据的解释能力越强，计算公式为：

$ R^2=1-\frac{\sum\nolimits_i\left(\hat{y}_i-y_i\right)}{\sum\nolimits_i\left(\bar{y}_i-y_i\right)}, $

(4)

式中$\bar{y}_i$为实际值的平均值。

2.2 模型构建及选取

选取随机森林、LightGBM和XGBoost构建城镇化地区多车道公路路段事故预测模型。为确保各模型构建时的一致性及可比较性，将整体数据集(共计2 011条样本)按照7∶3的比例划分为训练集和测试集，并将随机种子设为42以保证结果的可重复性。

各模型评价结果如表 2所示。从各指标评价结果来看，XGBoost的预测效果最优，尤其是R²在3个模型中最高，因此选取XGBoost作为最终使用的预测模型。XGBoost具有并行速度快、复杂度可控、容错性好、泛化能力强等优点^[20]；此外，XGBoost也提供了多个可调整的参数，能够灵活地根据数据集进行模型参数调整，包括树的数量、深度等，从而进一步提升模型性能。

表 2 模型评价结果 Tab. 2 Model evaluation result

机器学习方法	MSE	RMSE	MAE	R²
随机森林	23.961 8	2.043 0	4.895 1	0.501 2
LightGBM	24.071 8	2.168 8	4.960 3	0.498 9
XGBoost	22.969 5	1.925 3	4.729 6	0.521 8

表选项

2.3 基于PSO的模型优化

粒子群优化(Particle Swarm Optimization，PSO)是于1995年提出的一种基于种群的随机优化算法^[21]。算法初期将随机产生一群粒子，即初始的可行方案，每一个粒子均被赋予一个速度和一个位置，以及一个评判粒子优化效果的适应度值。在每次更新优化的过程中，每个粒子都结合自身的历史最优位置(即个体最优适应度值)和整个粒子群的最优位置(即全局最优适应度值)来更新自身的速度和位置，以朝着更优解迈进。为了进一步提高模型的可信度，采取PSO对XGBoost模型进行优化，调整后的XGBoost模型中的7个参数如表 3所示。

表 3 调整后的XGBoost模型参数 Tab. 3 Adjusted XGBoost model parameters

参数名称	说明
n_estimators	构建“树”的个数，即在运行梯度提升过程中要进行的迭代次数，增加此值通常会提高模型复杂度及性能
max_depth	指定每棵“树”的最大深度，通常来说深度较大的“树”能够更好地学习数据的细节
learning_rate	控制每颗“树”对最终预测的贡献
subsample	控制每棵“树”随机采样的比例，防止模型过拟合
colsample_bytree	每次构建“树”时列的采样比例，防止模型对于特定列的依赖，从而增强模型的泛化能力
reg_alpha	L₁正则化项，会导致模型许多参数的值变为0，从而实现特征的选择
reg_lambda	L₂正则化项，会惩罚权重的平方，使得权重值较小，减少模型在训练数据上的过拟合

表选项

在粒子群优化算法中，需要通过适应度函数对每个粒子的表现进行评估。选取R²作为性能验证指标，即在调整参数时达到R²值最高。与其他优化方法类似，PSO的性能对算法参数(如粒子数量、迭代次数等)的设定高度敏感。由于计算量较大，每次迭代都需要对每个粒子(即每组参数设置)进行模型训练和验真，因此本研究中设定最大迭代次数为100次，并设置粒子群大小为50，并为参数设定上、下界。在经过粒子群算法优化后，模型精度显著提升。XGBoost模型优化前后的评价指标对比如表 4所示。

表 4 XGBoost模型优化前后的评价指标对比 Tab. 4 Evaluation indicators comparison before and after XGBoost model optimization

评价指标	优化前	优化后
MSE	22.969	10.668
MAE	1.925	1.737
RMSE	4.793	3.266
R²	0.522	0.778

表选项

从优化结果来看，各指标均有一定的提升，其中R²达到了0.778，较优化前提高了0.256，在拟合度方面有所提高。在误差指标方面，MAE值降低了约9.8%，RMSE值降低了约31.9%，MSE值降低了约53.6%。结果显示，经粒子群算法优化后的模型在预测精度与误差控制方面均有显著改善。

3 基于SHAP可解释结构的最优模型结果可视化

可解释性方法(Shapley Additive Explanations, SHAP)是一种模型解释方法，该方法能够解释各类机器学习模型的决策过程，并以可视化的形式呈现，从而提升模型的可解释性。Strumbel^[22]研究表明，SHAP值可以用来解释任意的机器学习模型，使得SHAP在机器学习领域逐渐推广，成为一种广泛应用的模型解释工具，可通过模型为每个测试样本生成一个预测值。SHAP值通过分解预测结果来量化每个特征的贡献，这些值可以揭示每个特征对给定测试样本预测结果的具体影响。基于此，本研究利用SHAP的概要图和依赖图，对影响城镇化地区多车道公路路段安全性的关键因素进行分析，重点分析交通量、路侧开发程度、隔离设施及车道宽度等因素对路段交通安全的影响。

3.1 特征贡献度分析

首先，绘制SHAP特征重要性排序图如图 2所示，图中以每个特征的平均绝对SHAP值为依据，衡量其对模型预测结果的重要性。结果显示，影响路段安全性的前5个关键特征依次为路段长度、硬路肩/非机动车道宽度、硬路肩/机非隔离设施类型、AADT和路面宽度。在城镇化地区多车道公路路面宽度受限的情况下，应优先保障非机动车道的设置需求，尤其是对于非机动车道宽度的设置。

图 2 SHAP特征重要性排序 Fig. 2 SHAP feature importance ranking

图选项

3.2 路段交通安全影响因素分析

使用单因素及双因素的SHAP依赖图对自变量和因变量的关系进行探索分析，根据特征贡献度分析及研究重点考虑的因素，对AADT、隔离设施类型及宽度、车道宽度进行分析。

3.2.1 单因素分析

绘制路肩/非机动车道类型及宽度、中央分向设施类型及宽度、车道宽度及AADT的单因素依赖图，如图 3所示。

图 3 单因素依赖图 Fig. 3 Single factor dependency graphs 注：硬路肩/机非隔离设施类型：0—白实线; 1—实体分隔带; 2—波形梁护栏; 3—混凝土护栏; 4—城市栏杆；
中央分向设施类型：1—实体中心带+波形梁钢护栏; 2—实体中心带+混凝土护栏; 3—实体中心带+城市栏杆; 4—实体中分带; 5—波形梁钢护栏; 6—城市栏杆; 7—小于0.3 m的中心线(双黄线); 8—大于等于0.3 m的较宽中心线(双黄线)；
中央分向设施宽度：0—非实体中央分隔; 1—实体中央分隔带宽度 < 1 m; 2—实体中央分隔带宽度1~5 m; 3—实体中央分隔带宽度5~10 m; 4—实体中央分隔带宽度≥10 m。

图选项

(1) 硬路肩/机非隔离设施类型及硬路肩/非机动车道宽度

如图 3(a)所示，不同硬路肩/机非隔离设施类型间的SHAP值差异不明显。未设置机非隔离的路段其SHAP值与实体机非隔离设施的差异并不显著。在对所收集的交通安全设施数据进一步统计后发现，高城镇化地区有74.6%的路段设置了机非隔离，而低城镇化地区仅为20.8%。事故统计结果显示，多车事故中机非事故占比最高，为71.8%，且机非事故中涉及电动自行车的占比达到78.4%。由于本研究缺乏非机动车流量数据的统计，在分析中央分向设施类型时难以直接评估非机动车出行需求的影响。然而，通过对事故类型和机非隔离设施的统计分析可推测，在机非出行需求较高的路段应优先设置实体机非隔离设施，以减少机非冲突, 提升路段安全性。

对于不同宽度的硬路肩/非机动车道，随着路肩/非机动车道宽度的增加，SHAP值逐渐降低，表明事故数量有减少的趋势，如图 3(b)所示。同时，在路肩/非机动车道宽度为1~2 m时SHAP值较高，这说明此类路段安全性较差。因此，建议在实际设置时应将非机动车道宽度设置在2 m以上，为非机动车提供足够的通行空间。

(2) 中央分向设施类型及宽度

如图 3(c)所示，中央分向设施类型对路段安全性的影响差异较小，SHAP值接近。对于实体中分带的宽度(见图 3(d))，当实体中分带宽度为1~5 m时，SHAP值较低，这表明此宽度范围有利于提升路段安全性。

(3) 车道宽度

如图 3(e)所示，车道宽度对路段安全性的影响未呈现出单向变化趋势，随着车道宽度的增加，SHAP值先下降, 后上升。当车道宽度小于3.50 m或大于3.75 m时，与宽度为3.50 m或3.75 m的路段相比，安全性有所降低。这意味着车道宽度在一定范围内(如3.50 ~3.75 m)时，有助于提高路段的交通安全性。

(4) AADT

如图 3(f)所示，随着AADT的增加，SHAP值呈现先上升，后下降的趋势。在交通量较低至中等水平时，伤亡事故数量可能随着交通量的增加而上升；但当交通量超过35 000 pcu/d后，伤亡事故数量有所减少。这可能是由于交通量较大时，路段整体车速降低，从而减少了严重事故的发生。在后续研究中，可进一步引入简易事故中的非伤人事故数据，以更加全面地分析交通量对这类路段事故的影响。

3.2.2 特征交互分析

SHAP可用于分析任意2个变量之间的交互作用及其对模型的影响。本研究选取部分变量绘制了双因素依赖图，如图 4所示。

图 4 双因素依赖图 Fig. 4 Two-factor dependency graphs

图选项

(1) 硬路肩/机非隔离设施类型和硬路肩/非机动车道宽度

如图 4(a)所示，在未设置机非隔离设施(仅施画白实线)的路段，随着硬路肩宽度的增加，SHAP值逐渐增大，这表明在此类路段硬路肩较窄时交通安全性更高，这可能与此类路段非机动车通行需求较少有关。而在设置了机非隔离设施的情况下，非机动车道宽度较窄的路段SHAP值显著较高，反映出此类路段的交通安全性较差。

由于本研究缺乏非机动车流量数据，无法对非机动车流量对路段安全性的影响进行定量分析。然而，从路段交通安全设施的设置情况来看，通常设置机非隔离设施的路段非机动车流量较大。因此，对于机非隔离需求较高的路段，合理增加非机动车道宽度是提升路段交通安全性的有效措施。

(2) 硬路肩/非机动车道宽度和AADT

如图 4(b)所示，在交通量较小且硬路肩/非机动车道宽度较窄的路段，SHAP值较高，这表明此类路段的交通安全性较差。这可能是因为在低交通量的情况下，车辆行驶速度较高，增加了事故风险。

(3) 中央分向设施类型和中央分向设施宽度

如图 4(c)所示，中央分向设施的类型与宽度的交互作用对交通安全的影响并不显著。各类型设施在不同宽度条件下的SHAP值差异较小，这表明中央分向设施的类型和宽度对此类路段交通安全的影响较小。

(4) 中央分向设施类型和中央分向设施宽度

如图 4(d)所示，在交通量较小且城镇化程度较低的路段，更易发生伤亡事故。图中灰颜色的点代表低开发程度的城镇化地区，当交通量较小时，部分样本的SHAP值较高，反映出此类路段的安全性较差。这说明在低开发程度城镇化地区，需针对低交通量路段的安全问题采取额外的改善措施，以降低伤亡事故发生的风险。

4 结论

本研究基于多源数据构建了城镇化地区多车道公路路段事故预测数据集，分别使用随机森林、LightGBM和XGBoost构建预测模型，并通过粒子群算法优化XGBoost模型参数。最终对最优模型采用SHAP方法进行可视化分析。

(1) 在本研究的数据集中，XGBoost是表现最优的模型，使用PSO对模型进行参数调整能够有效地提高模型的拟合优度及可信度。通过粒子群算法优化后，模型的R²提高了0.256；MAE，RMSE，MSE值分别降低了9.8%，31.9%，53.6%。

(2) 通过SHAP值排序得到城镇化地区路段伤亡事故数量影响最大的变量排序依次为路段长度、硬路肩/非机动车道宽度、硬路肩/机非隔离设施类型、AADT、路面宽度。

(3) 机非事故是城镇化地区多车道公路的主要事故类型。为提高交通安全性，可在断面宽度一定的条件下，适当压缩机动车道宽度，增加非机动车道宽度，以降低车速并为非机动车提供足够的通行空间，其中非机动车道宽度建议设置在2 m以上。同时，在非机动车通行需求较大的路段，应优先考虑设置机非隔离设施。本研究中，不同类型实体机非隔离设施对事故的影响差异不显著。

(4) 中央分向设施类型和宽度对伤亡事故的整体影响较弱，但在采用实体中分带的情况下，1~5 m的宽度区间更有助于提升交通安全水平。

(5) AADT是影响交通安全的重要变量。随着交通量的增加，路段伤亡事故数量呈现先增加, 后减少的趋势，这可能与交通量较大时路段整体车速降低相关。

参考文献

[1]	AHMED S, HOSSAIN M A, RAY S K, et al. A study on road accident prediction and contributing factors using explainable machine learning models: Analysis and performance[J/OL]. Transportation Research Interdisciplinary Perspectives, 2023, 19: 100814. https://doi.org/10.1016/j.trip.2023.100814.

[2]	MORRISON C N, THOMPSON J, KONDO M C, et al. On-road bicycle lane types, roadway characteristics, and risks for bicycle crashes[J]. Accident Analysis & Prevention, 2019, 123: 123-131.

[3]	DAS D K. Exploring the significance of road and traffic factors on traffic crashes in a South African city[J]. International Journal of Transportation Science and Technology, 2023, 12(2): 414-427. DOI:10.1016/j.ijtst.2022.03.007

[4]	YANG Y H, ZHANG Y, ZHENG T, et al. Research on traffic accident prediction of expressway tunnel based on B-NB model[J]. Traffic Injury Prevention, 2024, 25(3): 527-536. DOI:10.1080/15389588.2024.2310584

[5]	ABDULHAFEDH A. Road crash prediction models: Different statistical modeling approaches[J]. Journal of Transportation Technologies, 2017, 7(2): 190-205. DOI:10.4236/jtts.2017.72014

[6]	SILVA P B, ANDRADE M, FERREIRA S. Machine learning applied to road safety modeling: A systematic literature review[J]. Journal of Traffic and Transportation Engineering (English Edition), 2020, 7(6): 775-790. DOI:10.1016/j.jtte.2020.07.004

[7]	高雪林, 汤厚骏, 沈佳平, 等. 基于XGBoost的高速公路事故类型及严重程度预测方法[J]. 交通信息与安全, 2023, 41(4): 55-63. GAO Xuelin, TANG Houjun, SHEN Jiaping, et al. A method for predicting the type and severity of freeway accidents based on XGBoost[J]. Journal of Transport and Safety, 2023, 41(4): 55-63.

[8]	WEN X, XIE Y C, WU L T, et al. Quantifying and comparing the effects of key risk factors on various types of roadway segment crashes with LightGBM and SHAP[J/OL]. Accident Analysis & Prevention, 2021, 159: 106261. https://doi.org/10.1016/j.aap.2021.106261.

[9]	吕路, 李杰, 郭忠印, 等. 高速公路交通事故持续时间计算方法研究[J]. 公路交通科技, 2022, 39(12): 155-162. LV Lu, LI Jie, GUO Zhongyin, et al. Study on calculation method of expressway accident duration[J]. Journal of Highway and Transportation Research and Development, 2022, 39(12): 155-162. DOI:10.3969/j.issn.1002-0268.2022.12.019

[10]	于翔海, 白佃国, 于光, 等. 基于XGBoost模型的城市道路实时交通事故风险预测研究[J]. 公路交通科技, 2023, 40(4): 237-247. YU Xianghai, BAI Dianguo, YU Guang, et al. Study on predicting real-time traffic accident risk of urban road based on XGBoost model[J]. Journal of Highway and Transportation Research and Development, 2023, 40(4): 237-247. DOI:10.3969/j.issn.1002-0268.2023.04.029

[11]	夏萧菡, 陆建, 马潇驰, 等. 异常驾驶行为数据驱动的高速公路实时事故风险预测[J]. 公路交通科技, 2024, 41(10): 1-7. XIA Xiaohan, LU Jian, MA Xiaochi, et al. Real-time expressway crash risk prediction based on abnormal driving behavior[J]. Journal of Highway and Transportation Research and Development, 2024, 41(10): 1-7. DOI:10.3969/j.issn.1002-0268.2024.10.001

[12]	SANTOS K, DIAS J P, AMADO C. A literature review of machine learning algorithms for crash injury severity prediction[J]. Journal of Safety Research, 2022, 80: 254-269. DOI:10.1016/j.jsr.2021.12.007

[13]	YANNIS G, DRAGOMANOVITS A, LAIOU A, et al. Use of accident prediction models in road safety management: An international inquiry[J]. Transportation Research Procedia, 2016, 14: 4257-4266. DOI:10.1016/j.trpro.2016.05.397

[14]	YANNIS G, DRAGOMANOVITS A, LAIOU A, et al. Road traffic accident prediction modelling: A literature review[J]. Proceedings of the Institution of Civil Engineers: Transport, 2017, 170(5): 245-254. DOI:10.1680/jtran.16.00067

[15]	LI K, XU H C, LIU X. Analysis and visualization of accidents severity based on LightGBM-TPE[J/OL]. Chaos, Solitons & Fractals, 2022, 157: 111987. https://doi.org/10.1016/j.chaos.2022.111987.

[16]	PARSA A B, MOVAHEDI A, TAGHIPOUR H, et al. Toward safer highways, application of XGBoost and SHAP for real-time accident detection and feature analysis[J/OL]. Accident Analysis & Prevention, 2020, 136: 105405. https://doi.org/10.1016/j.aap.2019.105405.

[17]	赵晓华, 亓航, 姚莹, 等. 基于可解释机器学习框架的快速路立交出口风险预测及致因解析[J]. 东南大学学报(自然科学版), 2022, 52(1): 152-161. ZHAO Xiaohua, QI Hang, YAO Ying, et al. Risk prediction and causation analysis of expressway interchange exits based on an interpretable machine learning framework[J]. Journal of Southeast University (Natural Science Edition), 2022, 52(1): 152-161.

[18]	GHADI M Q, TÖRÖK Á. Comparison of different road segmentation methods[J]. Promet-Traffic & Transportation, 2019, 31(2): 163-172.

[19]	交通运输部. 公路交通安全设施精细化提升关键技术指南[M]. 北京: 人民交通出版社, 2023. Ministry of Transport. Key technical guidelines for refined improvement of highway traffic safety facilities[M]. Beijing: China Communications Press, 2023.

[20]	ZHANG C, ZOU X, LIN C. Fusing XGBoost and SHAP models for maritime accident prediction and causality interpretability analysis[J]. Journal of Marine Science and Engineering, 2022, 10(8): 1154.

[21]	KENNEDY J, EBERHART R. Particle swarm optimization[C]//Proceedings of ICNN '95-International Conference on Neural Networks. IEEE: New York, 1995.

[22]	ŠTRUMBEL J E, KONONENKO I. Explaining prediction models and individual predictions with feature contributions[J]. Knowledge and Information Systems, 2014, 41(3): 647-665.