公路交通科技  2025, Vol. 42 Issue (11): 63-70

扩展功能

文章信息

曾啸寒, 彭珂, 张俊.
ZENG Xiaohan, PENG Ke, ZHANG Jun
基于自注意力机制的夜间机场道面开裂损伤图像增强模型
Self-attention based image enhancement model for nighttime airport pavement cracking damage
公路交通科技, 2025, 42(11): 63-70
Journal of Highway and Transportation Research and Denelopment, 2025, 42(11): 63-70
10.3969/j.issn.1002-0268.2025.11.008

文章历史

收稿日期: 2023-06-30
基于自注意力机制的夜间机场道面开裂损伤图像增强模型
曾啸寒1 , 彭珂1 , 张俊1,2     
1. 南京航空航天大学 民航学院, 江苏 南京 211106;
2. 空军工程大学 航空工程学院, 陕西 西安 710038
摘要: 目标 针对夜间机场道面开裂损伤图像存在的亮度低、开裂细节特征不明显等问题, 提出一种基于自注意力机制的特征融合图像生成模型SAFF-CycleGAN, 旨在实现夜间低照度道面图像的有效增强, 为后续检测任务提供高质量的图像基础。方法 在CycleGAN网络基础上, 将自注意力机制与生成器和判别器相结合。生成器中的自注意力模块与残差网络协同工作, 强化裂缝特征的提取能力; 判别器中引入自注意力机制, 提升对图像全局结构的判别性能。通过建立循环训练结构, 使用循环一致性损失、对抗损失和自身损失共同优化模型参数, 实现夜间道面图像向光照良好情况的特征保持式转换。结果 消融试验表明, 自注意力机制的引入使模型在Inception Score, FID, R-precision这3项指标上相较于原始CycleGAN分别提升28.893%, 15.823%, 17.228%。增强图像与真实图像在这3项指标上的得分差异均在合理范围内; 视觉评价也证实增强后的图像能有效保持开裂特征, 避免色彩失真, 具有更好的视觉效果。结论 SAFF-CycleGAN模型能够有效实现夜间低照度机场道面开裂损伤图像的增强, 在保留损伤特征的同时显著改善图像质量, 为夜间机场道面维护检测提供了可行的技术方案。
关键词: 道路工程    图像增强    自注意力机制    生成对抗网络    夜间机场道面    
Self-attention based image enhancement model for nighttime airport pavement cracking damage
ZENG Xiaohan1, PENG Ke1, ZHANG Jun1,2    
1. College of Civil Aviation, Nanjing University of Aeronautics and Astronautics, Nanjing, Jiangsu 211106, China;
2. School of Aeronautical Engineering, Air Force Engineering University, Xi'an, Shaanxi 710038, China
Abstract: Objective Nighttime airport pavement cracking damage images often have low brightness and unclear crack details. This study proposes a self-attention based feature fusion image generation model, SAFF-CycleGAN, to enhance these low-illumination images effectively. This enhancement provides the high-quality visual foundation for subsequent detections. Method The model built on the CycleGAN framework. The self-attention was integrated into both generator and discriminator. The self-attention module collaborated with residual networks in the generator, improving the crack features extraction and the discriminative performance of global structure of images. A cyclic training architecture was established, and the model parameters were optimized with cycle-consistency loss, adversarial loss, and identity loss. This enabled feature-preserving transformation of nighttime images to well-illuminated conditions. Result The ablation tests indicate that the proposed model shows significant improvement in three image quality indexes compared with the original CycleGAN. The Inception Score increases by 28.893%. The FID score decreases by 15.823%. The R-precision improves by 17.228%. The score differences between enhanced images and real images are within the reasonable range. The visual evaluation further verifies the results. The enhanced images preserve crack features well, avoiding color distortion and showing better visual quality. Conclusion SAFF-CycleGAN model effectively enhances low-illumination airport pavement cracking damage images. It significantly improves the image quality while maintaining damage features. This provides a practical technical solution for nighttime pavement maintenance and detection.
Key words: road engineering    image enhancement    self-attention    generative adversarial networks    nighttime airport pavement    
0 引言

机场跑道表观结构病害一直是影响机场飞机起降安全的严重隐患,道面开裂损伤是机场道面主要的结构病害。《民用运输机场运行安全管理规定》中对机场跑道检测提出了较公路道面更为严格的要求。受机场管理制度要求,机场道面开裂损伤检测只能在机场夜间停航后进行,由于夜间存在光照环境恶劣、阴影等问题,致使现有的基于可见光图像的道面病害检测技术无法适用于机场道面开裂损伤检测。增加可移动光源后,会使拍摄出的图像光晕严重,无法直接识别检测,因此亟需对夜间道面低照度图像进行图像增强处理以提高其质量,这对于机场安全运营、道面维护等均有深远意义。

当前最常见的图像增强算法是生成对抗网络(GAN)[1]。自出现以来,GAN的原始结构一直在不断演变,针对特定任务的改进型GAN不断出现[2],如DCGAN[3]、CycleGAN[4]、StackGAN[5]、StyleGAN[6]等。改进的GAN在缺陷检测中体现出了强智能化和高可靠性等特点,其中CycleGAN模型不需要配对数据输入到模型中,使其在处理光照度方面具有较大的优势。

国内外学者对CycleGAN模型的应用进行了大量研究。Ostankovich[7]开展了改进GAN的夜间检测和分割问题研究,对比了GAN与CycleGAN的效果。Shao[8]提出了一种级联检测网络框架FteGanOd,通过改善对比度并抑制环境光的干扰,在夜间可高精度识别车辆。Zhao[9]提出了一种基于DD-CycleGAN的去雾方法,利用CycleGAN将有雾图像转化为无雾图像。吴佳奇[10]提出了一种基于改进CycleGAN网络的煤矿井下低照度图像增强算法,以提高井下采集图像的质量。然而,CycleGAN模型存在梯度消失和模式崩溃的问题,需要准备大量的数据进行模型训练,增加了训练的难度。

近年来,自注意力机制[11]在图像特征提取与融合领域中应用较为广泛。高广尚[12]分别从标准注意力机制、协同注意力机制、自注意力机制、层级注意力机制和多头注意力机制5个角度出发,归纳分析提高推荐模型的运行效率、泛化能力等。张健飞[13]提出了一种以结构振动加速度信号为输入的基于多头自注意力的CNN模型,该模型易于训练且具有更加优秀的辨识能力。方巍[14]提出了一种基于3D卷积和自注意力机制的卫星云图预测模型,该模型能够较准确地预测云层的形态变化和运动轨迹。Huang[15]提出了一种轻量级从粗到细稀疏的车辆Re-ID自注意力机制模型,该模型优于现有的重识别(Re-ID)方法,精度上也优于原始的自我注意机制。自注意力机制能结合图片内部像素的相关度对特征向量赋权,提高全局信息特征获取能力。

当前已有研究使用自注意力机制与GAN网络融合来实现图像增强。He[16]在传统GANs中引入残差自注意力模块,并应用于数字岩心图像的构建,加强特征之间的相关性学习,提取更多的特征。Niu[17]提出了一种新的基于差分进化的条件自注意力生成对抗网络(CSAGAN-DE)的不平衡数据分类方法。张振坤[18]采用多头自注意力方法,通过关注不同尺度时序数据的隐含信息,实现自适应挖掘序列的变化程度特征,提升序列的预测能力。何自芬[19]设计了一种融合自注意力特征嵌入的CSPTNet夜间机场跑道异物检测算法,增加了夜间机场跑道异物检测的手段。然而,关于CycleGAN模型与自注意力机制相结合实现图像增强的研究较少,并且已有的模型很少被用于夜间机场道面开裂损伤图像的处理。

综上,本研究将自注意力机制与CycleGAN网络中的生成器与判别器良性融合,使用CycleGAN对机场道面图像数据进行模态间的风格转换,从而实现低照度下开裂损伤图像的检测;提出一种自注意力机制与残差网络结合的特征提取模块,以解决不同光照强度下机场道面开裂损伤图像间特征模态的提取问题;提出一种基于自注意力机制的特征融合图像生成模型SAFF-CycleGAN,实现机场道面开裂损伤图像的特征提取、融合及生成,增强生成图像所需要的特征,使生成的图像更适用于夜间低照度机场道面开裂损伤检测。

1 基于自注意力机制的特征融合图像生成模型 1.1 模型网络结构设计

本研究提出的基于自注意力机制的特征融合图像生成模型SAFF-CycleGAN由生成器G (A)、G (B)和判别器D (A)、D (B)组成。SAFF-CycleGAN网络结构如图 1所示。将整理裁剪好的数据集Real A作为生成器G (A)的输入并生成Fake B;Fake B再作为生成器G (B)及判别器D (A)的输入进行对抗生成及判别;Fake B再作为生成器G (B)的输入,生成Rec A(还原A),完成2个映射转换。针对夜间机场道面开裂损伤图像增强问题,本研究以CycleGAN网络为基础,增加自注意力机制,针对图像风格转换,特征提取融合,建立正向反向转换通道,从而保证在图像增强过程中真实图像的开裂损伤特征信息不变,加强生成器和判别器的训练。

图 1 SAFF-CycleGAN网络结构图 Fig. 1 SAFF-CycleGAN network structure

1.2 SAFF-CycleGAN生成器结构

通过CycleGAN的工作流程可知,CycleGAN最大的特点就是需要2个生成器和2个判别器同时工作,形成循环及自身验证,SAFF-CycleGAN生成器结构如图 2所示。

图 2 SAFF-CycleGAN生成器结构 Fig. 2 SAFF-CycleGAN generator structure

图 2(a)中的数字表示特征图的批量大小、高度、宽度、通道数,例如(b, 256, 256, 3)表示批量为b、尺寸为256×256像素、通道为3的RGB输入图像。残差连接中的x表示残差块的输入特征张量,即进入残差块前的特征表示;+表示残差连接操作,将x与残差块内部运算的输出直接相加,实现恒等映射+残差学习,保证深层网络的特征传递效率,使网络既学习了输入到输出的残差,又保留了原始输入的核心信息。

图 2(a)中的生成器结构分为4层。第1层为扩充图像层,通过反射填充(见图中Pad2d(3)模块)扩大图像范围,保留边缘细节,为后续卷积操作提供更完整的特征输入。第2层为下采样层,包含3个“卷积-实例归一化-激活”组合模块(简称CIL模块),逐步降低特征图尺寸,增加通道数,实现低分辨率、高维度的特征初步提取,例如将256×256的图像逐步压缩为64×64,通道数由3提升至256。第3层为自注意力残差网络层,由9个残差块(Residual _ Block)循环执行(见图中“×9”标识),残差块通过“跳接(Skip Connection)”缓解梯度消失问题,支持网络深度增加;同时嵌入自注意力特征编码器模块(见图中Self-Attention),捕捉夜间与白天道面开裂的全局特征关联,使局部裂缝与远处结构的特征产生依赖。第4层为上采样层,通过2次反卷积操作(简称CTR模块)提升特征图尺寸,结合自注意力特征解码器模块完成夜间到白天开裂特征的融合;最终通过反射填充与卷积操作,输出尺寸与输入匹配的增强图像。

在生成器设计中采用实例标准化方法(Instance Norm)。与基于批次统计的批标准化(Batch Norm)不同,实例标准化对每个样本独立进行归一化处理。鉴于本模型批处理规模设置为1,批标准化无法有效计算批次统计特征,因此选用实例标准化更为适宜。在测试时,实例标准化可以像训练时一样,标准化每个实例。由于未使用比例或位移参数,实例标准化同样也不需要学习权重。在生成器的最后使用Tanh函数,改变输出的范围。其余层均采用ReLU函数。

1.3 SAFF-CycleGAN判别器结构

SAFF-CycleGAN判别器结构如图 3所示。判别器的输入是真实的图像和生成的图像,输出的是判别结果,即真伪的概率值。因此,先经过1次不添加实例标准化的卷积操作,再进行3次CIL模块处理,实现图像的扩大,增加自注意力增强判别模块处理,实现第1次特征增强判别;通过零填充(Zero Padding)填充图像,通过CIL模块及Zero Padding使得图像可以再次输入自注意力增强判别模块,增强特征融合判别的能力;最后卷积输出概率值,实现图像的判别。

图 3 SAFF-CycleGAN判别器结构 Fig. 3 SAFF-CycleGAN discriminator structure

1.4 自注意力机制

将自注意力机制引入CycleGAN中与残差网络相结合,采用1×1卷积操作,将输入的图像转换为可被自注意力模块识别的特征量,并且减小计算成本,加快卷积速度。使用频谱归一化(Spectral Norm)对卷积层中的网络权重参数进行归一化处理,有助于SA-CycleGAN模型更加顺利地推进学习进程,加快卷积速度。

自注意力机制模块是对卷积的补充,帮助卷积对大范围多层次跨图像区域的依赖关系建模。对于一张特征图 FRC×H×W,其中HW分别表示特征图的高度和宽度,C表示特征图的通道数,Self-attention通过一系列1×1卷积将 F中的每个位置投影为3个长度为d的隐向量 q, k, vRn×d(R表示实数域),通过这3个向量可以计算出某个位置与其他位置间的相关关系。特征图 F中某点(i, j)的注意力值计算方式为:

$ \begin{equation*} \text { Attention }\left(\boldsymbol{F}_{i, j}\right)=\sum\limits_{H=1}^{H} \sum\limits_{W=1}^{W} \operatorname{softmax}\left(\boldsymbol{q}_{i, j} \boldsymbol{k}_{H, W}^{\mathrm{T}}\right) \boldsymbol{v}_{H, W } 。\end{equation*} $ (1)

对于特征图 F中的所有位置构成的自我注意机制矩阵的计算方式为:

$ \begin{equation*} \text { Attention }(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\operatorname{softmax}_{k}\left(\frac{\boldsymbol{Q} \boldsymbol{K}^{\mathrm{T}}}{\sqrt{d_{k}}}\right) \boldsymbol{V} \text {, } \end{equation*} $ (2)

式中,Q, K, V为特征图 F上所有位置(i, j)的隐向量 q, k, v所组成的隐向量矩阵;Q, K, VRn×dn= H × W

生成器使用自注意力机制,可以抽取需要的图像特征,将局部和遥远部分的细节信息相互关联。此外采用鉴别器也能更好地进行全局图片结构的判断。在夜间与白天转变过程中,增强了特征学习,使得白天图像特征可以更好地融合在夜间图像中。自注意机制的计算流程如图 4所示。通过计算特征图中每个位置与全局的注意力关系,网络可以不断学习和优化同一特征图中不同区域间的相关关系和重要性差异,以此来捕捉夜间开裂损伤的全局语义特征,可以很好地帮助网络理解裂缝的形态。

图 4 自注意力机制计算流程 Fig. 4 Self-attention calculation flow

1.5 损失函数

模型采用最小二乘生成对抗网络(LSGAN)定义生成对抗损失,结合循环一致性损失与身份损失共同优化,使增强图像既保留道面开裂特征,又能完成从低照度到良好光照的风格转换。

(1) 生成对抗损失LGAN

生成对抗损失用于约束生成器与判别器的对抗训练,使生成图像逼近真实图像分布。判别器D (A)和D (B)与生成器协同计算损失,如式(3)所示。

$ \begin{gather*} L_{\mathrm{GAN}}=\frac{1}{2} E_{x \sim A}\left[D_{\mathrm{B}}\left(G_{\mathrm{A}}\right)-1\right]^{2}+ \\ \frac{1}{2} E_{y \sim \mathrm{~B}}\left[D_{\mathrm{A}}\left(F_{\mathrm{B}}\right)-1\right]^{2}, \end{gather*} $ (3)

式中,ExAEyB分别为从真实图像训练集A和训练集B中随机采样;xy为采样变量;GAFB分别为生成器GF对真实图像生成的伪图像;DA (·)和DB (·)分别为判别器DADB对输入图像的判定。

(2) 循环一致性损失Lcycle

为保证图像循环转换中道面开裂特征不丢失,使用CycleGAN原始的循环一致性损失Lcycle,衡量真实图像与2次生成后还原图像之间的像素级差异,如式(4)所示。

$ \begin{gather*} L_{\text {cycle }}=E_{x \sim \mathrm{~A}}\left[\left\|G\left(G_{\mathrm{A}}\right)-A\right\|_{1}\right]+ \\ E_{y \sim \mathrm{~B}}\left[\left\|G\left(G_{\mathrm{B}}\right)-B\right\|_{1}\right], \end{gather*} $ (4)

式中,|| ||1为计算2幅图像对应像素的绝对误差和;G (GA)和G (GB)分别为真实图像A和图像B经2次生成器G处理得到的Rec A和Rec B;‖GB-B1和‖GA-A‖1分别为真实图像B和图像A与其经生成器G生成的图像之间的损失。

(3) 身份损失Lidentity

身份损失用于验证生成器是否真正“理解”不同域图像的特征模态,Lidentity需尽可能小,以说明生成器能有效提取与融合道面特征,如式(5)所示。

$ \begin{gather*} L_{\text {identity }}=E_{y \sim \mathrm{~B}}\left[\left\|G_{\mathrm{B}}-B\right\|_{1}\right]+ \\ E_{x \sim \mathrm{~A}}\left[\left\|G_{\mathrm{A}}-A\right\|_{1}\right] 。\end{gather*} $ (5)

(4) 总损失L

将生成对抗损失、循环一致性损失、身份损失相加,得到基于自注意力的特征融合图像生成模型SAFF-CycleGAN的最终损失L,如式(6)所示。

$ \begin{equation*} L=L_{\text {GAN }}+L_{\text {cycle }}+L_{\text {identity }} 。\end{equation*} $ (6)
2 试验与分析 2.1 训练图像集构建

根据中国民用航空局发布的《民用机场飞行区技术标准》(MH 5001—2021),现有机场跑道和滑行道的道面类型一般为水泥混凝土或沥青混凝土道面,因此SAFF-CycleGAN拟增强生成对象为夜间低照度水泥混凝土道面和沥青混凝土道面的开裂损伤图像。试验数据中,使用数码相机拍摄了夜间低照度沥青混凝土图像1 000张、夜间低照度水泥混凝土图像1 000张,以及可见光照沥青混凝土图像1 000张,其中可见光水泥混凝土图像选用了Github上的开源数据集CCIC(Concrete Crack Images for Classification)[20]

CCIC中含有开裂损伤图像20 000张,该数据集经过预先的去色处理,排除了颜色信息对生成式对抗网络的干扰,以保证最终的学习效果。使用数码相机拍摄的路面裂缝图像分辨率为3 042×4 032,无法直接进行生成对抗网络的训练,因此本研究在使用前先将图像按照256×256分辨率进行随机裁剪。数据集分配结果如表 1所示。

表 1 沥青混凝土和水泥混凝土数据集分配结果 Tab. 1 Assignment results of asphalt concrete and cement concrete dataset
类型 沥青混凝土 水泥混凝土
训练集 测试集 训练集 测试集
时间段 夜间 白天 夜间 白天 夜间 白天 夜间 白天
分辨率 256×256 256×256 256×256 256×256 256×256 227×227 256×256 227×227
数量/张 2 000 2 000 200 200 2 000 2 000 200 200
来源 实拍 实拍 实拍 实拍 实拍 CCIC 实拍 CCIC

2.2 试验平台参数

本研究算法基于深度学习Pytorch开源框架,使用Python编程语言。工作站参数为:CPU采用i9-10900X,主频为3.7 GHz,运行内存为128 GB;GPU采用NVDIA RTX A5000,显存为24 GB;操作系统为Windows 10。

2.3 试验参数设置

本研究算法的各参数在训练过程中不断调整,最终确定Batch Size为1,优化器选用Adam,初始学习率为0.000 2,epoch为200,每训练5个epoch保存一次模型,循环损失权重为10,自身损失权重为0.1。

2.4 试验结果分析与对比 2.4.1 模型消融试验

针对本研究算法中生成器、判别器中增加的自注意机制,选择不同模型夜间沥青混凝土和水泥混凝土增强测试集与白天真实测试集进行消融试验; 对比验证自注意机制对夜间机场道面开裂损伤图像特征提取融合的有效性,消融试验结果如表 2所示。其中,Inception Score为图像之间的相对熵,得分越大则表示相差越大;FID为真实图像分布与增强图像分布之间的距离,得分越大则表示增强分布越远离真实分布;R-precision为增强图像与原始图像之间的相似概率,越大则表示二者分布描述越相关。

表 2 沥青混凝土和水泥混凝土消融试验结果 Tab. 2 Ablation test result for asphalt concrete and cement concrete
方法 沥青混凝土 水泥混凝土
Inception Score FID R-precision/% Inception Score FID R-precision/%
原始CycleGAN 12.36 85.69 57.67 14.35 89.45 60.32
去除生成器自注意力机制 11.54 80.29 63.59 12.92 83.26 61.59
去除判别器自注意力机制 11.57 77.33 64.25 12.68 80.29 65.22
本研究模型 9.55 74.84 69.47 9.32 72.47 73.09

表 2可知,在本研究模型SAFF-CycleGAN中去除自注意力机制后,3种图像质量评价指标均有不同程度的下降。在采用原始CycleGAN模型时,下降程度最大,证明自注意力机制在CycleGAN模型中的作用是正向促进的,自注意力机制在夜间机场道面开裂损伤图像训练集上有增强效果,使图片细节更加明显。针对本研究模型去除生成器自注意力机制和去除判别器自注意力机制的对比可见,自注意力机制作用在生成器中对图像质量产生的增强效果强于判别器,证明自注意力机制在特征提取方面的贡献更加明显。

2.4.2 SAFF-CycleGAN增强效果视觉评价

应用测试集测试模型生成效果,从400个测试生成的结果中随机挑选10个。本研究模型主要适用于增强夜间机场道面裂缝图像,选取生成图像中夜间转换到白天的类型进行视觉评价。基于增强生成结果通过视觉评价可知,该模型对夜间低照度机场道面开裂损伤图像有较好的增强效果。对于沥青混凝土,在epoch26及之后的图像增强转换效果良好。对于水泥混凝土,在epoch54之后开裂损伤特征提取融合效果明显。增强模型生成的图像无光晕和阴影,色彩无失真,图像信息完整且细节特征明显,有效实现了夜间低照度机场道面开裂损伤图像向良好光照条件下的增强转换,为后续目标检测和图像分割提供了较好的基础。

2.4.3 SAFF-CycleGAN增强效果客观分析

为客观评估本研究所提出模型的增强性能,在视觉评价基础上进一步采用多种图像质量评估指标进行量化分析。试验针对沥青混凝土道面和水泥混凝土道面分别展开,增强图像集包括由模型生成的夜间沥青混凝土开裂图像集Fake A,以及夜间水泥混凝土开裂图像集Fake B。真实图像集则包含2组不同来源的光照良好沥青混凝土开裂图像集Real A和Real B,以及2组对应条件下的水泥混凝土开裂图像集Real C和Real D。

首先通过计算Real A、Real B和Real C、Real D之间的指标得分,建立基准分数。该分数反映了不同真实图像集之间固有的、可接受的差异范围。随后,将增强图像集Fake A和Fake B与各真实图像集进行对比,得到相应的测试分数。通过比较测试分数与基准分数的差距,即可量化评估增强图像与真实图像的接近程度。选用Inception Score,FID和R-precision作为评估指标。对每一组图像组合进行3次评估并取平均值,最终结果如表 3所示。

表 3 图像质量评估结果 Tab. 3 Result of image quality assessment
图像集组合 Inception Score FID R-precision/%
Fake A, Real A 7.64 77.34 70.36
Fake A, Real B 7.03 72.35 68.59
Fake B, Real C 8.06 80.34 76.32
Fake B, Real D 7.59 78.59 69.86
Real A, Real B 7.93 75.39 76.56
Real C, Real D 8.62 78.34 84.39

表 3可知,本研究模型增强生成的开裂图像集与真实集在Inception Score上得分相差最多为1.03分,最少为0.29分;在FID上得分相差最多为4.95分,最少为0.25分;在R-precision上得分相差最多为14.53%,最少为6.2%。3种评价指标的对比得分相差越小则表示增强图像越接近真实图像。考虑到开裂损伤图像之间不具备配对性,并考虑到误差影响,增强图像在3种评价指标上的对比得分均在合理范围内,客观证明了本研究模型对夜间低照度机场道面开裂损伤图像有增强效果,可以实现夜间低照度图像向光照良好情况的增强。本研究模型性能明显,避免色彩失真及保留图像信息,使增强后图像具有更好的视觉效果, 更适用于夜间低照度机场道面开裂损伤检测。

综上,本研究通过采用实拍数据集与公共数据集结合的形式,保证数据集真实、多样化且数量足够大,避免数据集对于结果的影响。在试验环节设置消融试验,验证了自注意力机制在SAFF-CycleGAN的生成器与判别器中对于图像质量提升及夜间道面开裂特征的提取与融合有一定程度的效果;对于SAFF-CycleGAN的增强效果进行了主、客观评价分析,使增强数据可视化,避免了单一评价的局限性;客观评价指标选择了图像生成领域比较具有代表性的Inception Score得分与FID得分,此外还增加了R-precicion指标,这3种指标对比说明SAFF-CycleGAN在夜间机场道面开裂损伤图像增强方面具有良好的效果,可为夜间低照度机场道面开裂损伤检测提供支持。

3 结论与展望

针对夜间低照度环境下,机场道面开裂损伤图像亮度不足,开裂细节特征不明显等问题,本研究在CycleGAN的生成器与判别器中引入自注意力机制,提出了一种基于自注意力机制的夜间机场道面开裂损伤图像增强模型。

(1) 实现自注意力机制与生成器中残差网络结合,以解决不同光照强度下机场道面开裂损伤图像间特征模态的提取问题。

(2) 实现带自注意力机制的生成器与判别器结合,形成基于自注意力机制的特征融合图像生成模型SAFF-CycleGAN,实现不同光照强度下机场道面开裂损伤图像间特征模态的融合。试验证明了自注意力机制可以弥补CycleGAN网络的不足,通过视觉评价与客观试验分析,证明了本研究模型的确具有使夜间开裂图像效果增强,突出开裂特征的作用。

本模型也存在训练时间较长、网络结构待优化、夜间不同低能见度待考虑等问题,在后续研究中将关注这些问题并加以改善。

参考文献
[1]
GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144. DOI:10.1145/3422622
[2]
王强, 王浩仰, 高保全, 等. 基于DCGAN预处理和残差密集注意力网络的路面裂缝识别方法[J]. 公路交通科技, 2024, 41(8): 11-21.
WANG Qiang, WANG Haoyang, GAO Baoquan, et al. Pavement crack recognition method based on DCGAN preprocessing and residual dense attention network[J]. Journal of Highway and Transportation Research and Development, 2024, 41(8): 11-21.
[3]
RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[J/OL]. arXiv: 1511.06434. (2016-01-07) [2023-06-01]. https://doi.org/10.48550/arXiv.1511.06434.
[4]
ZHU J Y, PARK T S, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. New York: IEEE, 2017.
[5]
ZHANG H, XU T, LI H S, et al. StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks[J/OL]. arXiv: 1612.03242. (2017-08-05) [2023-06-01]. https://doi.org/10.48550/arXiv.1612.03242.
[6]
KARRAS T, LAINE S, AILA T. A style-based generator architecture for generative adversarial networks[J/OL]arXiv: 1812.04948. (2019-03-29) [2023-06-01]. https://doi.org/10.48550/arXiv.1812.04948.
[7]
OSTANKOVICH V, YAGFAROV R, RASSABIN M, et al. Application of cyclegan-based augmentation for autonomous driving at night[C]// Proceedings of 2020 International Conference Nonlinearity, Information and Robotics (NIR). New York: IEEE, 2020.
[8]
SHAO X T, WEI C K, SHEN Y, et al. Feature enhancement based on CycleGAN for nighttime vehicle detection[J]. IEEE Access, 2020, 9: 849-859.
[9]
ZHAO J M, ZHANG J, LI Z, et al. DD-CycleGAN: Unpaired image dehazing via double-discriminator cycle-consistent generative adversarial network[J]. Engineering Applications of Artificial Intelligence, 2019, 82: 263-271. DOI:10.1016/j.engappai.2019.04.003
[10]
吴佳奇, 张文琪, 陈伟, 等. 基于改进CycleGAN的煤矿井下低照度图像增强方法[J]. 华中科技大学学报(自然科学版), 2023, 51(5): 40-46.
WU Jiaqi, ZHANG Wenqi, CHEN Wei, et al. Image enhancement method of underground low illumination in coal mine based on improved CycleGAN[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2023, 51(5): 40-46.
[11]
ZHANG H, GOODFELLOW I, METAXAS D, et al. Self-attention generative adversarial networks [J/OL]arXiv: 1805.08318. (2019-06-14) [2023-06-01]. https://doi.org/10.48550/arXiv.1805.08318.
[12]
高广尚. 深度学习推荐模型中的注意力机制研究综述[J]. 计算机工程与应用, 2022, 58(9): 9-18.
GAO Guangshang. Survey on attention mechanisms in deep learning recommendation models[J]. Computer Engineering and Applications, 2022, 58(9): 9-18.
[13]
张健飞, 黄朝东, 王子凡. 基于多头自注意力机制和卷积神经网络的结构损伤识别研究[J]. 振动与冲击, 2022, 41(24): 60-71.
ZHANG Jianfei, HUANG Chaodong, WANG Zifan. Research on structural damage identification based on multi-head self-attention and convolutional neural networks[J]. Journal of Vibration and Shock, 2022, 41(24): 60-71.
[14]
方巍, 李佳欣, 陆文赫. 基于3D卷积和自注意力机制的卫星云图预测研究[J]. 南京大学学报(自然科学), 2023, 59(1): 155-164.
FANG Wei, LI Jiaxin, LU Wenhe. Research on satellite cloud image prediction based on 3D convolution and self-attention[J]. Journal of Nanjing University (Natural Science), 2023, 59(1): 155-164.
[15]
HUANG F X, LV X F, ZHANG L. Coarse-to-fine sparse self-attention for vehicle re-identification[J/OL]. Knowledge-Based Systems, 2023, 270: 110526. (2023-06-21) [2023-06-01]. https://doi.org/10.1016/j.knosys.2023.110526.
[16]
HE L, GUI F P, HU M, et al. Digital core image reconstruction based on residual self-attention generative adversarial networks[J]. Computational Geosciences, 2023, 27: 499-514. DOI:10.1007/s10596-023-10207-4
[17]
NIU J W, LIU Z G, PAN Q, et al. Conditional self-attention generative adversarial network with differential evolution algorithm for imbalanced data classification[J]. Chinese Journal of Aeronautics, 2023, 36(3): 303-315. DOI:10.1016/j.cja.2022.09.014
[18]
张振坤, 张冬梅, 李江, 等. 基于多头自注意力机制的LSTM-MH-SA滑坡位移预测模型研究[J]. 岩土力学, 2022, 43: 477-486, 507.
ZHANG Zhenkun, ZHANG Dongmei, LI Jiang, et al. LSTM-MH-SA landslide displacement prediction model based on multi-head self-attention mechanism[J]. Rock and Soil Mechanics, 2022, 43(S2): 477-486, 507.
[19]
何自芬, 陈光晨, 王森, 等. 融合自注意力特征嵌入的夜间机场跑道异物入侵检测[J]. 光学精密工程, 2022, 30(13): 1591-1605.
HE Zifen, CHEN Guangchen, WANG Sen, et al. Detection of foreign object debris on night airport runway fusion with self-attentional feature embedding[J]. Optics and Precision Engineering, 2022, 30(13): 15941-1605.
[20]
ZHANG L, YANG F, ZHANG Y D, et al. Road crack detection using deep convolutional neural network[C]// Proceedings of 2016 IEEE International Conference on Image Processing (ICIP). New York: IEEE, 2016.