图像超分辨率重建是指采用图像处理和机器学习技术,根据一幅或多幅低分辨率图像恢复出一幅具有较高分辨率图像的技术。采用图像超分辨率重建技术提升图像分辨率具有成本低、周期短等优点,因此成为图像领域的一个研究热点,在遥感、卫星、安防、生物医药以及恢复珍贵历史图像资料等诸多领域起到了非常重要的作用[
Chinese Journal of Liquid Crystals and Displays, Volume. 39, Issue 7, 950(2024)
Single image super-resolution reconstruction based on split-attention networks
A single image super-resolution reconstruction method for splitting attention networks is proposed to address the problems of lack of texture details, insufficient feature extraction, and unstable training in the existing generation of adversarial networks under large-scale factors. Firstly, the generator is constructed using the split attention residual module as the basic residual block, which improves the generator's feature extraction ability. Secondly, Charbonnier loss function with better robustness and focal frequency loss are introduced into the loss function to replace the mean square error loss function, and regularization loss smoothing training results are added to prevent the image from being too pixelated. Finally, spectral normalization is used in both the generator and discriminator to improve the stability of the network. Compared with other methods tested on Set5, Set14, Urban100 and BSDS100 test sets at a magnification factor of 4, the peak signal-to-noise ratio of this method is 1.419 dB higher than the average value of other comparison methods in this article, and the structural similarity is 0.051 higher than the average value. Experimental data and renderings indicate that this method subjectively has rich details and better visual effects, while objectively has high peak signal-to-noise ratio and structural similarity values.
1 引言
图像超分辨率重建是指采用图像处理和机器学习技术,根据一幅或多幅低分辨率图像恢复出一幅具有较高分辨率图像的技术。采用图像超分辨率重建技术提升图像分辨率具有成本低、周期短等优点,因此成为图像领域的一个研究热点,在遥感、卫星、安防、生物医药以及恢复珍贵历史图像资料等诸多领域起到了非常重要的作用[
图像超分辨率重建技术可根据实现方法分为基于插值[
Dong等人[
生成对抗网络(Generative Adversarial Network,GAN)[
2 SRGAN
SRGAN把SRResNet作为GAN的生成网络部分,将GAN引入图像超分辨率领域。如
Figure 1.Generator network structure of SRGAN
Figure 2.Discriminator network structure of SRGAN
3 本文方法
针对SRGAN特征提取能力不足、生成图像清晰度不高、模型训练不稳定等问题,本文的网络在SRGAN基础上进行改进,如
Figure 3.Generator network structure of ours
判别器部分如
Figure 4.Discriminator network structure of ours
3.1 残差块设计
生成器中的残差块部分如
Figure 5.Comparison of ResNet and proposed residual structure.(a)ResNet structure;(b)Proposed residual structure.
增加集群数要比加深网络深度更能提高网络性能,更模块化,同时还能减少超参数的使用,从而降低过拟合的概率。与现有的大多数注意力机制不同,ResNeSt Block没有将空间注意力和通道注意力并行或串行[
Figure 6.Split attention module
3.2 归一化处理
GAN的目标函数等价于优化生成数据的分布和真实数据的分布之间的J-S(Jensen-Shannon Divergence)散度。JS散度对于没有重叠的两个分布给出的损失函数是一个常数,这就意味着没有梯度来更新模型,从而造成了梯度消失。也就是说判别器训练得越好,生成器梯度消失越严重。通过让判别器满足Lipschitz连续性,可以解决以上问题。所以本文借鉴SNGAN[
BN层对于大部分深度学习任务,如图片分类等,可以加快网络训练和收敛的速度,控制梯度爆炸,防止梯度消失,同时还可以防止过拟合。而在图像增强、图像超分辨率重建这种像素级别的“细粒度”任务中使用BN层,图像的色彩分布都会被归一化,会弱化单张图像本身特有的细节信息,不利于图像生成。在面向不同的提高峰值信噪比(Peak Signal to Noise Ratio,PSNR)的任务如图像超分辨率和去除图像模糊中,去除BN层已被证明能够提高模型的性能。
3.3 损失函数构建
SRGAN的损失函数包含内容损失和对抗损失两部分,内容损失函数又分为两部分:MSE损失和VGG损失。SRGAN的损失函数为:
本文将内容损失中的MSE损失函数替换为Charbonnier损失函数和Focal Frequency Loss[
为了保证图像低频信息的正确重建,引入了Charbonnier损失函数。MSE损失函数对大的误差惩罚力度大,对小的误差惩罚力度小。虽然可以直接优化PSNR值,但重构图像往往过于平滑,会产生模糊的预测,产生伪影,无法接近人类对自然图像的视觉感知,同时收敛性比L1损失差。L1损失虽然可以去除斑点和伪影,但却延长了重建时间。所以本文使用Charbonnier损失函数,不仅提高了重构精度,取得了较高的PSNR值,还能减少训练时间。Charbonnier损失函数表示为:
其中:
在图像的超分辨率重建过程中,真实图像和生成图像之间仍然存在差距,特别是在频域。所以本文引入Focal Frequency Loss损失函数,该损失函数允许模型通过降低容易合成的频率分量的加权,自适应地关注于难以合成的频率分量,其提供了强大的干扰能力来对抗由于神经网络的不确定性偏差造成的重要频域信息的丢失。
与SRGAN相同,本文使用预训练好的VGG16网络进行特征提取。VGG损失定义为重建图像与原始图像特征表示之间的欧几里得距离:
其中:
对抗损失同SRGAN一样,公式为:
其中:
在图像超分辨重建过程中,图像上的任何噪声都可能会对复原结果产生非常大的影响。因为在重建过程中会放大噪声,所以本文加入TV正则项来保持图像的光滑性,消除图像复原可能带来的伪影,防止图像过于像素化,如
4 实验结果与分析
4.1 实验环境
本实验的硬件设备为Intel®CoreTMi9-10920X CPU@3.50 GHz处理器,128 GB运行内存,NVIDIA GeForce RTX 3090 24 G显卡。配置的虚拟环境为Anaconda3,cuda12,Pycharm(Python 3.8),深度学习框架为Pytorch,操作系统是Win10。
4.2 实验设置
本文使用训练数据集为公开的超分辨率数据集DIV2K[
在训练阶段,图像在输入前统一被裁剪成88像素×88像素的小图像,共训练200轮次,每次抓取8个样本数进行训练。本模型使用Adam算法对收敛速度进行优化。
4.3 质量评价
本文使用图像超分辨率领域常用的峰值信噪比和结构相似性(Structural Similarity Index Measure,SSIM)对图片质量进行评价。PSNR用于检测SR图像与真实图像的相似度,值越大说明图像失真越小;SSIM则考虑了图像的结构信息、亮度与对比度,值越接近1,说明SR图像和原图像的结构越相似,效果越佳。PSNR的公式如
其中:W、H、C分别表示图像的宽度、长度和通道数,
其中:
4.4 结果分析
4.4.1 客观评估结果与分析
(1)损失函数数值变化
训练过程中的生成器损失函数值和判别器损失函数值变化如
Figure 7.Variation curve of generator function loss value
Figure 8.Variation curve of discriminant function loss value
(2)Radix与Cardinality的取值对模型性能的影响
为了探究Radix与Cardinality的取值对模型性能的影响,对Radix和Cardinality进行不同取值。分别取Radix=1,Cardinality=16;Radix=2,Cardinality=16;Radix=1,Cardinality=32;Radix=2,Cardinality=32;Radix=1,Cardinality=64;Radix=2,Cardinality=64;Radix=1,Cardinality=128;Radix=2,Cardinality=128。
|
(3)模型中改进模块的性能评估
为了验证本文提出的各部分模块的有效性,分别在SRGAN的基础上搭配不同模块组成不同模型,分析不同模块对重建效果的影响。消融实验使用DIV2K数据集进行训练。为了控制变量,所有不同的方法组合均采取了相同的训练参数设置和训练轮数,分别训练200个epoch,测试重建尺度为4时的PSNR值和SSIM值。“Baseline”表示原始SRGAN模型,“Baseline+ResNeSt”表示将经典ResNet残差块替换为ResNeSt拆分注意力残差块,“Baseline+SN”表示在判别器中采用谱归一化,“Baseline+Focal Frequency Loss”表示将Focal Frequency Loss损失函数作为像素损失函数,“Baseline+Charbonnier”表示将Charbonnier损失函数作为像素损失函数,“Ours”表示本文模型即以上模块均引入SRGAN模型。实验结果表明,在Set5数据集上,当模型引入拆分注意力残差块时,PSNR值提高0.476 11 dB,SSIM值提高0.010 6;当模型引入谱归一化处理时,PSNR值提高0.727 8 dB,SSIM值提高0.017 8;当模型引入Charbonnier损失函数时,PSNR值提高0.658 8 dB,SSIM值提高0.018 9;当模型引入Focal Frequency Loss损失函数时,PSNR值提高0.228 5 dB,SSIM值提高0.004 5。上述实验结果如
|
(4)模型整体性能评估
实验在数据集Set5、Set14、BSD100、Urban100上进行了测试。为了探究模型整体性能,将本文模型得到的超分辨率重建结果与Bicubic、ESPCN[
|
|
4.4.2 主观评估结果与分析
为了更直观地观测本文方法的重建效果并证明本文模型的通用性,采用多个数据集进行展示,在不同超分辨率重建方法中裁剪相同的区域并放大预测区域进行比较。本文在Set5测试集中选出“bird”图像,在Set14测试集中选出“ppt3”图像来进行可视化展示。通过
Figure 9.Comparison chart of reconstruction effect of “bird” in Set5
Figure 10.Comparison chart of reconstruction effect of “ppt3” in Set14
5 结论
为了使超分辨率重建图像有更多高频信息和纹理细节,本文在SRGAN模型的基础上,提出一种拆分注意力的生成对抗网络实现单图超分辨率重建方法。该方法在生成器网络中,采用拆分注意力残网络提取图像特征信息,去除了判别器网络中的BN层,防止其弱化图像细节信息。在生成器和判别器中同时使用谱归一化处理,提高网络的稳定性。采用Charbonnier损失函数和Focal Frequency Loss 损失函数代替MSE损失函数,并在损失函数中加入TV正则项平滑训练结果。在DIV2K数据集的实验表明,本文提出的网络模型能够有效提高图像的PSNR值和SSIM值,较好地解决了图像细节模糊和轮廓不清晰等重建问题。实验结果表明,在4倍放大因子下,与其他方法在Set5、Set14、BSDS100、Urban100测试集上进行测试比较,本文方法的PSNR比其他对比方法平均值提升1.419 dB,SSIM比其他方法的平均值提升0.051。
[10] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M et al. Generative adversarial nets[C], 2672-2680(2014).
[16] MIYATO T, KATAOKA T, KOYAMA M et al. Spectral normalization for generative adversarial networks[C](2018).
[20] ZEYDE R, ELAD M, PROTTER M. On single image scale-up using sparse-representations[C], 711-730(2010).
Get Citation
Copy Citation Text
Yanfei PENG, Lanxi LIU, Gang WANG, Xin MENG, Yongxin LI. Single image super-resolution reconstruction based on split-attention networks[J]. Chinese Journal of Liquid Crystals and Displays, 2024, 39(7): 950
Category: Research Articles
Received: Jun. 28, 2023
Accepted: --
Published Online: Jul. 23, 2024
The Author Email: Lanxi LIU (932134582@qq.com)