基于Bayesian-LightGBM模型的国省道路面性能预测

扩展功能

加入引用管理器

Email Alert

文章信息

裴莉莉, 余婷, 张艳红, 周晶, 李伟.

PEI Li-li, YU Ting, ZHANG Yan-hong, ZHOU Jing, LI Wei

基于Bayesian-LightGBM模型的国省道路面性能预测

A Prediction on National and Provincial Pavement Performance Based on Bayesian-LightGBM

公路交通科技, 2023, 40(11): 18-26

Journal of Highway and Transportation Research and Denelopment, 2023, 40(11): 18-26

10.3969/j.issn.1002-0268.2023.11.003

文章历史

收稿日期: 2022-02-14

Abstract

PDF

Figures

Tables

引用本文

裴莉莉, 余婷, 张艳红, 周晶, 李伟. 基于Bayesian-LightGBM模型的国省道路面性能预测[J]. 公路交通科技, 2023, 40(11): 18-26.

PEI Li-li, YU Ting, ZHANG Yan-hong, ZHOU Jing, LI Wei. A Prediction on National and Provincial Pavement Performance Based on Bayesian-LightGBM[J]. Journal of Highway and Transportation Research and Denelopment, 2023, 40(11): 18-26.

基于Bayesian-LightGBM模型的国省道路面性能预测

裴莉莉¹ , 余婷² , 张艳红^3,4,5 , 周晶^3,4,5 , 李伟²

1. 长安大学数据科学与人工智能研究院, 陕西西安 710064;
2. 长安大学信息工程学院, 陕西西安 710064;
3. 中国公路工程咨询集团有限公司, 北京 100097;
4. 公路建设与养护技术、材料及装备交通运输行业研发中心, 北京 100097;
5. 中交集团公路路面养护技术研发中心, 北京 100097

收稿日期: 2022-02-14

基金项目: 陕西省重点研发计划项目(2022JBGS3-08);中国交建重点科技研发项目(ZZJJZDYF-2017-006)

作者简介: 裴莉莉(1995-)，女，河北邯郸人，博士

*通信作者: 李伟(1981-), 男, 陕西兴平人, 博士, 教授

摘要: 路面损坏状况指数(PCI)是评价路面质量的重要指标, 可以综合地量化公路路面状况的优劣。针对由于日常养护干预造成的国省干线公路PCI预测不准的问题, 通过研究西南某省全省普通国省干线公路的路面检测等相关数据, 构建了基于贝叶斯优化的LightGBM预测模型。深入挖掘日常养护干预模式下的PCI指标历年变化规律, 实现对普通国省干线公路PCI的预测。首先, 对原始路面检测数据、交通量数据以及养护历史数据等多源数据进行融合, 并从中抽取有效信息进行新特征构建。其次, 基于多表间时空信息关联进行异常值辨识与修复等多源异构数据处理工作。然后, 建立了LightGBM预测模型与采用贝叶斯优化算法对该模型的重要超参数进行了优化。结果表明: 贝叶斯优化后的LightGBM模型与优化前相比, PCI的预测精度提高4.6%, 平均绝对误差降低15.1%, 仅为1.902;与支持向量机、随机森林等机器学习模型相比, 预测精度最高达到0.945, 平均绝对误差和均方根误差均最低, 分别为1.902和2.486。提出的Bayesian-LightGBM模型路面破损状况指数预测方法效果最优, 可以基于多源历史数据实现对特定路段未来PCI指数的精确预测, 为公路养护管理部门制订合理的养护方案, 为降低道路养护成本提供一定的数据依据。

关键词: 道路工程路面性能预测机器学习路面损坏状况指数 LightGBM 贝叶斯优化

A Prediction on National and Provincial Pavement Performance Based on Bayesian-LightGBM

PEI Li-li¹, YU Ting², ZHANG Yan-hong^3,4,5, ZHOU Jing^3,4,5, LI Wei²

1. Institute of Data Science and Artificial Intelligence, Chang'an University, Xi'an Shaanxi 710064, China;
2. School of Information Engineering, Chang'an University, Xi'an Shaanxi 710064, China;
3. China Highway Engineering Consulting Corporation, Beijing 100097, China;
4. Research and Development Center of Transport Industry for Highway Construction and Maintenance Technology, Material and Equipment, Beijing 100097, China;
5. CCCC Research and Development Center for Highway Pavement Maintenance Technology, Beijing 100097, China

Abstract: The pavement condition index (PCI) is an important indicator for evaluating pavement quality, and comprehensively quantify the quality of highway pavement conditions. In response to the current issue of inaccurate PCI prediction for national and provincial trunk highways caused by daily maintenance interventions, a LightGBM prediction model based on Bayesian optimization is established by studying relevant data such as road surface detection for ordinary national and provincial trunk highways in a certain province in southwestern China. The model aims to deeply explore the changes in PCI over the years under the daily maintenance intervention mode, realize the prediction of pavement damage index for ordinary national and provincial trunk highways. First, multi-source data such as original road detection data, traffic volume data and maintenance history data are fused, and effective information is extracted for new feature construction. Second, based on the spatiotemporal information association among multiple tables, perform multi-source heterogeneous data processing work is carried out such as outlier identification and repair. Then, establish a LightGBM prediction model and use Bayesian optimization algorithm to optimize the important hyperparameters of the model. The result shows that (1) the Bayesian-LightGBM model has a 4.6% higher prediction accuracy for PCI compared with before optimization, and an average absolute error decreases by 15.1%, which is only 1.902; (2) compared with machine learning models such as support vector machines and random forests, the prediction accuracy is the highest, reaching 0.945, and the average absolute error and root mean square error are the lowest, which are 1.902 and 2.486 respectively. The proposed PCI prediction method based on Bayesian-LightGBM has the best performance and can accurately predict the future PCI of specific road sections based on multi-source historical data, providing a certain data basis for the highway maintenance management department to develop reasonable maintenance plans and reduce road maintenance costs.

Key words: road engineering prediction on pavement performance machine learning pavement condition index LightGBM Bayesian optimization

0 引言

路面的使用性能会受使用时间、交通荷载及自然环境因素等影响而日益降低^[1-2]。在《公路技术状况评定标准》(JTG H20-2018)中，PCI是评价路面使用性能较为综合的指标^[3]，能够量化普通国省干线公路的路面技术状况。通过分析该指标的衰变规律，能够辅助养护部门对路面将会出现的问题进行提前预判，尽早制订合理的路面养护方案并降低养护成本，促进普通国省干线公路养护管理模式逐步向科学化和精细化迈进^[4]。

世界各国目前都建立了自己的路面养护管理系统，并随着对路面使用性能的深入研究，逐步开始对路面性能进行预测^[5-7]。在性能预测方面，刘黔会等^[8]在结合模型中存在的二次损失函数的情况下，对传统支持向量机进行深入研究，结合非线性映射构建一个高维空间的最优超平面，从而建立一个用于沥青路面使用性能相关的预测评价模型。赵静等^[9]对沥青路面使用性能的各种影响因素通过灰色关联度分析法进行降维处理，得到相关度最为密切的特征，开发了采用灰色关联度分析和支持向量机回归(Grey Relation Analysis-Support Vector Machine，GRA-SVR)的沥青路面使用性能预测模型。李绍华等^[10]采用灰色马尔科夫模型预测路面使用性能指标，例如PCI (Pavement Condition Index)、RQI (Riding Quality Index)、SRI (Skidding Resistance Index)，得出水泥混凝土路面的养护时间节点和具体实施方案，并且对提出的方案实施效果展开评估。荣建国等^[11]针对西部某地区高速公路路网多年检测数据，整理影响PCI衰变的主要因素，得出PCI衰变的曲线模型，总结相关衰变规律。于晓贺等^[12]通过解决灰色预测模型依赖初始值的问题，建立修正灰色预测模型，结合某路段沥青路面使用性能检测数据验证，修正灰色预测模型与灰色预测模型相比具有更高的预测精度。余婷和Pedro Marcelino等^[13-14]分别通过验证分析不同的实际路面性能数据，提出了一种泛化性能强于人工神经网络的随机森林预测模型。

在目前所采用的研究方法中，一些新的基础模型被提出。众多研究人员为了使模型能够更好地应用于本领域，从不同方面对模型进行了改进。Pei等^[15]在分析集料形态参数特征重要性的基础上，构建了基于XGBoost算法的集料形状自动分类模型。韩皓^[16]等通过分析轨道交通客流的线网结构与时间维度构建基于LightGBM算法的短时客流预测模型。李海莲等^[17]结合SVM (Support Vector Machine)理论和改进萤火虫算法，建立了一种IFA-SVM (Improve Firefly Algorithm-Support Vector Machine)预测模型。结果表明IFA-SVM模型在实例验证中表现出较高的精度和运行效率。Li等^[18]提出了采用模糊趋势时间序列和粒子群优化(Particle Swarm Optimization，PSO)方法的国际平整度指数(International Roughness Index，IRI)预测模型。结果表明，该方法优于多项式拟合、自回归积分移动平均法和反向传播神经网络方法。Wang^[19]等构建了一个改进的LightGBM血糖预测模型，通过贝叶斯优化算法优化集成学习模型超参数，试验证明，该方法得到的参数相比较遗传算法和随机搜索可以降低模型的误差使模型误差更小。

以上研究表明，众多学者设计了不同的研究方案，对路面损坏状况指数的预测问题展开深入研究，并对路面使用性能的衰变规律进行综合评价和探索。但大多基于灰色理论或数学模型，有些研究只适用于小样本量，当样本量增加时，预测性能会急剧下降，难以对大量样本具有适用性。同时，在日常养护记录大量缺失的情况下，传统计算模型无法计算有日常养护干预情况下的PCI值，这使得PCI的预测趋于实验室中理想化自然衰变，却与实际情况不符。因此，本研究基于西南某省普通国省干线公路路面真实检测指标，综合多源异构数据(国检评定、交通量、养护历史等)进行数据融合，建立基于不同机器学习算法的路面使用性能衰变模型，通过对比分析不同模型的预测精度，提出了基于贝叶斯优化的LightGBM普通国省道路面性能预测模型，实现对未来路面损坏状况指数的预测，从而辅助公路管理部门降低养护投资，确定最佳的养护时机。

1 基于Bayesian-LightGBM的PCI预测

将某省公路路面检测指标数据，交通量数据以及其养护历史数据进行数据融合，数据清洗和归一化，建立检测与养护数据集。使用LightGBM模型对PCI进行预测，将路面检测与养护数据集的70%作为训练集，30%作为测试集，并采用贝叶斯方法对模型参数进行调整和优化，得到PCI指标预测模型并输出预测结果。最后利用复相关系数，均方根误差，平均绝对值误差为评价指标，得到最优的Bayesian-LightGBM模型。在日常养护干预模式下的基于Bayesian-LightGBM技术路线图如图 1所示。

图 1 PCI预测技术路线图 Fig. 1 Technical route of PCI prediction

图选项

1.1 LightGBM模型

LightGBM算法的基本思想是由梯度提升决策树(Gradient Boosting Decision Tree，GBDT)演变来的^[20]，是将多个弱学习器通过Boosting集成策略进行组合，得到强学习器的集成算法。梯度提升指利用损失函数的负梯度作为回归问题提升树残差的近似值。

LightGBM以回归树为基础弱学习器，需要计算每个样本数据预测值与真实值的残差，并将该值作为下个弱学习器的学习任务。同时每个新构建的回归树都需要学习前面所有弱学习器的预测结论与上述残差，最后将多颗回归树(弱学习器)的预测结果相叠加，并以此作为该预测模型(强学习器)的最终输出结果。LightGBM首先利用直方图算法对所有待输入特征进行预排序，并利用带有深度限制的节点展开方式进行树的构建，该方式不仅可以降低训练误差还能够提高模型精度，这比极限梯度提升算法中的展开算法更高效。因为若不对树模型深度进行限制可能使得回归树变得复杂而庞大，这样的模型在对小样本数据集处理上容易导致过拟合的发生，因此多加一个深度限制可以使模型更高效而且准确。

1.2 贝叶斯优化的LightGBM模型

由于LightGBM算法涉及众多超参数设置，相较于常用的人工搜索、网格搜索等超参数寻优方法，贝叶斯方法能够快速搜索超参数的最优解，使得模型性能更佳。

贝叶斯优化方法的思路是首先生成一个初始候选解集合，然后通过最大化采集函数寻找下一个有可能是极值的点，即利用之前已搜索点的信息确定下一个搜索点。

贝叶斯优化根据已经搜索点的函数值估计真实目标函数值的均值和方差(即波动范围)，将新得到的点添加到已知评估点集合中，更新概率代理模型依次循环从而得到最优解。根据均值和方差可以构造出采集函数，即对每一点是函数极值点的可能性估计，同时反映了每一个点值的搜索程度，该函数的极值点是下一个搜索点，具体流程见图 2。

图 2 贝叶斯优化LightGBM流程 Fig. 2 Process of Bayesian-LightGBM

图选项

2 实例分析 2.1 多源道路检测与养护数据获取

路面损坏状况指数PCI是《公路技术状况评定标准》(JTG H20—2018)中评价路面破损的一项综合指标，评价包括各类裂缝、沉陷、车辙等各项损坏类型在内的综合路面状况。路面损坏状况指数PCI应按式(1)、式(2)计算：

(1)

(2)

式中参数解释见表 1。

表 1 PCI计算参数 Tab. 1 Calculation parameters of PCI

参数名	参数解释
DR	路面破损率，各种损坏面积之和与调查面积的百分比
a₀	沥青路面取值15.00，水泥混凝土路面取值10.66
a₁	沥青路面取值0.412，水泥混凝土路面取值0.461
A_i	第i类路面损坏的累积面积
A	路面检测或调查的面积
w_i	第i类路面损坏的换算系数
i	路面损坏类型，包括损坏程度(轻、中、重)
i₀	损坏类型总数

表选项

国省道路面检测数据是由多功能路况快速检测系统(CiCS)采集的，在对道路状况测量的同时，该检测车可以记录位于车辆前方的道路图像信息及其对应的空间位置信息GPS。路面指数PCI检测装置由线扫描成像和照明系统组成，检测裂缝宽度小于等于1.0 mm的路面损坏，具有功耗低、通过性好、高颠簸路段适应性强的特点，可实现全车道检测，图像质量好，在夜晚和隧道能正常检测，不受环境光干扰，没有阴影等特点效果。

检测原始数据表部分数据实例如表 2所示。同时路面养护历史数据从道路养护部门获取，数据主要包括路段编码、养护类型、养护时间，养护后PCI值以及一些辅助位置信息。从养护原始数据表选取2个年份相同的路段进行数据样例展示，如表 3所示。可以发现在2014年进行养护后，路段G108**32和G108**33的PCI分别从2013年检测时的50.40和67.10提高至100，由此说明在进行路面衰变性能的预测时，养护历史数据中的有效信息是不可忽略的。

表 2 检测原始数据样例 Tab. 2 Sample of raw data for detection

路段编码	起点桩号	路段长度/ m	技术等级	路面宽度/ m	路面破损率 (DR)	路面损坏状况指数(PCI)	年份
G108**03	2123+000	1 000.00	二级公路	7.50	0.05	95.60	2012
G108**04	2124+000	1 415.00	二级公路	7.50	0.03	96.50	2012
G108**01	2125+415	585.00	一级公路	15.00	0.25	91.50	2012
G108**02	2126+000	1 211.00	一级公路	15.00	0.07	95.00	2012

表选项

表 3 养护历史原始数据样例 Tab. 3 Sampleof raw data of maintenance history

路段编码	起点桩号	路段长度/ m	技术等级	路面宽度/ m	路面破损率 (DR)	路面损坏状况指数(PCI)	年份
G108**32	2659+000	1 000.00	二级公路	7.50	18.22	50.40	2013
G108**33	2660+000	762.00	二级公路	7.50	6.73	67.10	2013
G108**32	2659+000	1 000.00	二级公路	7.50	0.00	100.00	2014
G108**33	2660+000	762.00	二级公路	7.50	0.00	100.00	2014

表选项

2.2 数据质量提升 2.2.1 多源数据融合与新特征构建

从该省历年路面检测数据中抽取2012—2018年间国检评定、交通量、养护历史等路面多源异构数据作为原始待整合数据，通过分析不同数据时域和空域信息，将多源异构表中数据进行数据融合。

该省各州市路面检测数据整合后数据汇总如图 3所示，图中横坐标A~U分别表示该省内不同城市，纵坐标表示每个城市对应的可用数据量，共5 166条。首先对技术等级、路面类型等指标采用编码方式进行特征构建。

图 3 路面数据汇总 Fig. 3 Summary of pavement data

图选项

其次，为了整合来自养护部门的路面养护大数据，需要对养护数据中的养护年份和养护级别等能与道路检测数据匹配的信息进行数据抽取，并与检测数据的有效信息融合。一个路段可能在不同的年份均进行了养护，该信息无法直接作为特征输入网络，因此需要将养护数据中的养护年份等相关信息构建为养护次数和养护时间两个新特征加入网络输入。

由于起始数据从2012年开始获得，因此新特征养护时间其实是一种距离待测年份的养护间隔时间等级编码。具体来说，给定某一路段A在养护历史数据表中最后一次养护年份为y_n，待预测年份为y_p, 则养护时间等级评分t=y_p-y_n，即按照最后一次养护时间距离待预测年份的时间给出评分。养护次数则定义为2012年到待测年份间真实养护次数(若一直未养护则为0)。

因为该省每年的路况外业检测由检测单位以减少绕行的原则自行安排路段检测，所以首先将获取到的历年数据以路段编码为唯一标识字段完成匹配。其次对检测数据和养护数据进行多信息提取，将提取到的有效信息进行数据融合与处理，通过区分是否养护和不同养护情况来建立数据集。

融合后的数据集共有19个特征，如表 4所示。从表中可以看出，在2012—2018这6年内，每个路段平均养护次数基本为3次，养护次数最多的路段达到4次，这意味着这些路段的PCI值不会呈现自然衰变，而是波动的状态。同时结合交调站采集的断面交通流数据以及该省路域环境信息(气候特点、地理环境等)，发现养护频繁是由于这些路段性能衰变速度快。根据养护时间的定义，可以发现平均最近一次养护时间距待测年份(2018)的间隔为1.6年。所有路段的平均PCI分布在84~91之间。

表 4 融合数据描述性分析 Tab. 4 Descriptive analysis on fusion data

特征	平均值	最小值	最大值
技术等级	2.315 382	1	4
路面类型(沥青=1，水泥=0)	0.874 855	0	1
路面宽度/m	8.406 373	4.5	30
养护次数	2.992 639	0	4
养护时间	1.642 58	0	4
路面破损率2012(DR)	2.752 756	0	79.208 1
路面破损率2013(DR)	2.922 305	0	73.692 06
路面破损率2014(DR)	3.267 998	0	94.695 45
路面破损率2015(DR)	1.618 616	0	94.930 64
路面破损率2016(DR)	1.804 445	0	94.226 11
路面破损率2017(DR)	1.696 009	0	94.226 11
路面破损率2018(DR)	2.029 779	0	67.177 58
路面损坏状况指数2012(PCI)	86.384 44	12.1	100
路面损坏状况指数2013(PCI)	84.873 36	11.8	100
路面损坏状况指数2014(PCI)	84.730 74	2.2	100
路面损坏状况指数2015(PCI)	89.611 88	2.1	100
路面损坏状况指数2016(PCI)	87.997 96	0	100
路面损坏状况指数2017(PCI)	90.084 57	2.474 66	101.351 6
路面损坏状况指数2018(PCI)	88.161 22	15.1	100

表选项

根据对原始路段的逐条分析，发现其中还存在大量路段PCI后一年比前一年高，若是后年数据比前一年数据提高很多，而不是小幅波动，则应该是在该年进行了养护工作，或者是检测异常，或人为因素造成了不可接受的检测数据错误。有些出现后年数据明显提升情况的路段，在养护记录的原始表中未查询到该路段在特定时间的养护记录。和相关检测技术人员沟通后，推测这类数据应为不同市政部门开展的日常养护，或是路面破损状况快速处置以及检测过程中因年检设备不同、天气不同、道路表面干净与否、人工操作等原因导致的随机误差造成的，因此在养护部门安排的大中修养护记录表中没有这些记录。这类数据也是后续研究在养护干预模式下路面衰变研究关注的重点数据。

2.2.2 基于多表间时空信息关联的异常数据辨识与修复

该省路面检测数据除了会存在一些重复值、缺失值、异常值等不合理的数据，还需要规范数据类型以便计算机进行方便的读取与分析，这些都需要对其进行数据清洗这一预处理操作。考虑到异常值可能包含路段养护维修带来的路况数据变化，分如下4种情况：

(1) 对于因路段养护维修带来的路况数据数值升高属正常情况，不予修正，此处主要是结合养护历史数据表中提出的时空特征进行分析的。

(2) 若养护历史数据中没有养护信息，但PCI数据在某年有小幅上升的情况，默认这部分数据的上浮为检测系统误差或是由未记录的小规模人工干预日常性养护造成的，也不予修正。

(3) 对于连年下降的路况数据某一年下降幅度突变，属正常情况，不予修正。

(4) 对于不是因路段养护维修带来的路况数据数值明显升高，作异常值处理。

对比同一路段连续两年检测指标值相同和不同路段同一年检测指标值相同的两种异常情况如表 5、表 6所示。由于相邻路段同一年的检测值或同一路段不同年份的检测值，前后数据值存在共同特征，较为类似，因此针对同一路段连续几年的检测值异常情况，采用该路段前后连续路段的检测均值进行修复；针对连续路段同一年的检测值异常情况，采用该路段异常值前后两年检测均值进行修复。2013年部分路段PCI异常值修复结果如图 4所示。图 4中实线为部分路段PCI原始异常值曲线，虚线为异常修复后的曲线，虚线上的标记点为异常值修复后的数值。

表 5 同一路段2012和2013年检测值相同数据汇总样例 Tab. 5 Summary of data with same detection values on same road section in 2012 and 2013

路段编码	技术等级	路面宽度/m	路面损坏状况指数(PCI)
路段编码	技术等级	路面宽度/m	2012	2013	2014	2015	2016	2017
S106**04	二级公路	15	95.3	95.3	96	90.9	88.7	95.3
S106**15	二级公路	7.5	91.3	91.3	68.7	96	91.7	59.9
G108**10	三级公路	6	93.7	93.7	58.5	98	100	100
S206**09	二级公路	10.5	90.2	90.2	79.3	82.4	68.2	68.7

表选项

表 6 G317线2013年不同路段检测值相同数据汇总样例 Tab. 6 Summary of data with same detection values at different sections of G317 in 2013

路段编码	起点桩号	路段长度/m	养管单位	技术等级	路面宽度/m	路面破损率 (DR)	路面损坏状况指数 (PCI)	国际平整度指数 (IRI)	路面行驶质量指数 (RQI)	路面使用性能指数 (PQI)
G317**10	517+000	1 000	**州	四级公路	6.4	7.82	65.0	5.8	65.0	65.0
G317**11	518+000	1 000	**州	四级公路	6.4	7.82	65.0	5.8	65.0	65.0
G317**12	519+000	1 000	**州	四级公路	6.4	7.82	65.0	5.8	65.0	65.0
G317**13	520+000	1 000	**州	四级公路	6.4	7.82	65.0	5.8	65.0	65.0

表选项

图 4 2013年PCI检测原始与修复对比 Fig. 4 Original v.s. repaired PCI in 2013

图选项

2.3 结果对比与分析

随机选取100个路段在2018年的PCI值作为测试集，提出基于贝叶斯优化的LightGBM模型对测试集数据展开预测。Bayesian-LightGBM算法参数表述、取值范围、最终取值情况如表 7所示。

表 7 Bayesian-LightGBM超参数信息 Tab. 7 Information of Bayesian-LightGBM hyperparameters

参数名	取值范围	参数解释	参数取值
learning_rate	0.01~0.3	学习率	0.2
max_bin	>0	feature将存入的bin的最大数量	50
n_estimators	>0	迭代次数	700
bagging_fraction	0~1	每轮迭代采用的数据量占比	0.85
feature_fraction	0.5~0.9	每次迭代中随机选择一定比例的参数来建树	0.7

表选项

Bayesian-LightGBM对2018年PCI指标的预测结果如图 5所示。从图中可以看到，Bayesian-LightGBM模型对PCI的预测值与路面实测值的差距较小，图中两条曲线重合度较高，说明预测效果较优。

图 5 Bayesian-LightGBM对测试集的预测结果 Fig. 5 Prediction results of Bayesian-LightGBM on test set

图选项

同时采用多种模型对PCI进行预测，为更好地量化预测结果，采用复相关系数(R²)^[21]、均方根误差(Root Mean Square Error, RMSE)和平均绝对值误差(Mean Absolute Error, MAE)对多个模型预测值与实测值之间的精确度和误差进行评价，指标计算结果如表 8所示。

表 8 不同模型预测结果评价指标 Tab. 8 Evaluation indicators for prediction result with different models

模型	RMSE	MAE	R²
多元线性回归	6.164	4.311	0.423
SVM	3.931	3.146	0.781
随机森林	3.477	2.579	0.858
LightGBM	3.052	2.053	0.899
Bayesian-Light GBM	2.486	1.902	0.945

表选项

由表 8展示的不同模型对路面性能指标预测的R²结果，可以推测由于PCI变化是复杂的非线性过程，因此使用多元线性回归模型预测时，精度仅0.423，并且误差最高。通过图 6的误差和精度趋势线，可以更加直观展示使用不同模型得到预测结果的误差和精度的变化。从图 6可以看出，使用基于随机森林和LightGBM这类集成模型，精度明显比使用SVM这种传统机器学习模型的预测精度高。通过贝叶斯过程优化，发现Bayesian-LightGBM模型的预测精度最高，R²达到0.945，误差也明显减小，这表明提出的Bayesian-LightGBM路面性能衰变预测模型能够较好地预测人工养护干预模式下的路面性能指标PCI随时间变化的值，预测值与实际值高度接近，能够为该省公路检测与养护工作规划提供理论依据。

图 6 不同模型预测结果对比 Fig. 6 Comparison of prediction results with different models

图选项

3 结论

本研究通过分析西南某省普通国省干线公路的PCI指标历年变化，提出了一种基于Bayesian-LightGBM的路面损坏状况指数预测方法。

(1) 结合养护数据、检测数据基于多表间时空信息关联对多源异构数据进行异常辨识修复以及新特征构建等工作，完成数据融合与数据集构建。

(2) 采用贝叶斯算法对LightGBM模型进行优化，完成对PCI指标的预测。并与多元线性回归、SVM、随机森林和原始LightGBM这4种模型进行对比。结果表明：贝叶斯优化后的LightGBM模型对PCI预测精度为0.945，平均绝对误差为1.902，预测性能最优。

本研究所提出的预测方法对西南某省普通国省干线公路的PCI在有人工干预模式下进行高效正确的评价，能够辅助养护部门进行科学合理的决策。

参考文献

[1]	郭晶, 张军, 靳明, 等. 精表处技术在公路沥青路面预防性养护中的应用研究[J]. 公路工程, 2019, 44(4): 217-220, 284. GUO Jing, ZHANG Jun, JIN Ming, et al. Application of Fine Surface Technology in Preventive Maintenance of Highway Asphalt Pavement[J]. Highway Engineering, 2019, 44(4): 217-220, 284.

[2]	ORETO C, BIANCARDO S A, VISCIONE N, et al. Road Pavement Information Modeling through Maintenance Scenario Evaluation[J]. Journal of Advanced Transportation, 2021, 2021(4): 1-14.

[3]	JTG H20—2018, 公路技术状况评定标准[S]. JTG H20—2018, Highway Performance Assessment Standards [S].

[4]	EL-SATTAR YOUNOS M A, EL-HAKIM R T A, EL-BADAWY S, et al. Multi-input Performance Prediction Models for Flexible Pavements Using LTPP Database[J]. Innovative Infrastructure Solutions, 2020, 5(2): 1-11.

[5]	ABDELAZIZ N, ABD EL-HAKIM, RAGAA T, et al. International Roughness Index Prediction Model for Flexible Pavements[J]. International Journal of Pavement Engineering, 2018, 1-12.

[6]	HAMED M, YAW A, WILLIAM G B. Deep Machine Learning Approach to Develop a New Asphalt Pavement Condition Index[J]. Construction and Building Materials, 2020, 247: 118513-118531. DOI:10.1016/j.conbuildmat.2020.118513

[7]	PIRYONESI S M, EL-DIRABY T E. Data Analytics in Asset Management: Cost-effective Prediction of the Pavement Condition Index[J]. Journal of Infrastructure Systems, 2020, 26(1): 4019036. DOI:10.1061/(ASCE)IS.1943-555X.0000512

[8]	刘黔会, 张挣鑫, 黄方林, 等. 基于支持向量机的沥青路面使用性能预测探究[J]. 公路工程, 2018, 43(2): 201-205. LIU Qian-hui, ZHANG Zheng-xin, HUANG Fang-lin, et al. Studied on Performance Prediction of Asphalt Pavement Based on Support Vector Machine[J]. Highway Engineering, 2018, 43(2): 201-205.

[9]	赵静, 王选仓, 丁龙亭, 等. 基于灰色关联度分析和支持向量机回归的沥青路面使用性能预测[J]. 重庆大学学报, 2019, 42(4): 72-81. ZHAO Jing, WANG Xuan-cang, DING Long-ting, et al. Performance Prediction of Asphalt Pavement Based on Grey Relational Analysis and Support Vector Machine Regression[J]. Journal of Chongqing University, 2019, 42(4): 72-81.

[10]	李绍华, 熊春龙, 虞将苗. 基于灰色马尔科夫模型的养护方案费效分析[J]. 公路, 2020, 65(5): 305-311. LI Shao-hua, XIONG Chun-long, YU Jiang-miao. Cost and Efficiency Analysis of Maintenance Scheme Based on Grey Markov Model[J]. Highway, 2020, 65(5): 305-311.

[11]	荣建国, 王浩仰. 西部地区高速公路沥青路面性能预测研究[J]. 交通科技与经济, 2020, 22(1): 59-64. RONG Jian-guo, WANG Hao-yang. Research on Performance Prediction of Western Highway Asphalt Pavement[J]. Technology & Economy in Areas of Communications, 2020, 22(1): 59-64.

[12]	于晓贺, 邱怀中, 罗蓉, 等. 基于修正灰色预测模型的沥青路面使用性能预测[J]. 武汉理工大学学报(交通科学与工程版), 2021, 45(1): 59-63. YU Xiao-he, QIU Huai-zhong, LUO Rong, et al. Prediction of Asphalt Pavement Performance Based on Modified Grey Prediction Model[J]. Journal of Wuhan University of Technology (Transportation Science & Engineering), 2021, 45(1): 59-63.

[13]	余婷, 裴莉莉, 李伟, 等. 基于随机森林算法的路面损坏状况指数预测[J]. 公路交通科技, 2021, 38(10): 16-23. YU Ting, PEI Li-li, LI Wei, et al. Prediction ofPavement Surface Condition Index Based on Random Forest Algorithm[J]. Journal of Highway and Transportation Research and Development, 2021, 38(10): 16-23. DOI:10.3969/j.issn.1002-0268.2021.10.003

[14]	PEDRO M, MARIA L A, EDUARDO F, et al. Machine Learning Approach for Pavement Performance Prediction[J]. International Journal of Pavement Engineering, 2021, 22(3): 341-354.

[15]	PEI Li-li, SUN Zhao-yun, YU Ting, et al. Pavement Aggregate Shape Classification Based on Extreme Gradient Boosting[J]. Construction and Building Materials, 2020, 256: 119356-119369.

[16]	韩皓, 徐圣安, 赵蒙. 考虑线网结构的LightGBM轨道交通短时客流预测模型[J]. 铁道运输与经济, 2021, 43(10): 109-117. HAN Hao, XU Sheng-an, ZHAO Meng. LightGBM Prediction Model of Short-time Passenger Flow for Transit Considering Network Structure[J]. Railway Transport and Economy, 2021, 43(10): 109-117.

[17]	李海莲, 林梦凯, 王起才. 基于IFA-SVM的高速公路沥青路面使用性能预测[J]. 公路交通科技, 2019, 36(12): 8-14, 78. LI Hai-lian, LIN Meng-kai, WANG Qi-cai. Prediction of Performance of Expressway Asphalt Pavement Based on IFA-SVM[J]. Journal of Highway and Transportation Research and Development, 2019, 36(12): 8-14, 78.

[18]	LI W, HU Y J, XIAO L Y, et al. International Roughness Index Prediction Based on Multigranularity Fuzzy Time Series and Particle Swarm Optimization[J]. Expert Systems with Applications: X, 2019, 2: 100006-100018.

[19]	WANG Y, WANG T. Application of Improved LightGBM Model in Blood Glucose Prediction[J]. Applied Sciences, 2020, 10(9): 3227-3241.

[20]	WANG W. Random Forest and LightGBM-based Human Health Check for Medical Device Fault Detection[J]. Journal of Healthcare Engineering, 2022, 2022: 2847112.

[21]	裴莉莉, 孙朝云, 户媛姣, 等. 基于多特征因子的路用集料粒径计算神经网络模型[J]. 华南理工大学学报(自然科学版), 2020, 48(6): 77-86. PEI Li-li, SUN Zhao-yun, HU Yuan-jiao, et al. Neural Network Model for Road Aggregate Size Calculation Based on Multiple Features[J]. Journal of South China University of Technology (Natural Science Edition), 2020, 48(6): 77-86.