REC-ResNet： Feature enhancement model for COVID-19 aided diagnosis

Tao ZHOU; Yuncan LIU; Senbao HOU; Xinyu YE; Huiling LU

doi:10.37188/OPE.20233114.2093

Abstact： Currently， residual-neural-network-based aided diagnoses of the coronavirus disease 2019 （COVID-19） represent research hotspots. However， lesion regions within COVID-19 chest X-ray images are diverse； their sizes， shapes， and locations vary across patients； and the boundaries with surrounding tissues are blurred with low contrasts. Thus， completely extracting the effective features of lesion regions is difficult. Aiming to address the above problems， a COVID-19-aided diagnosis model called REC-ResNet is proposed in the paper； this model uses ResNet50 as its backbone network and introduces three feature enhanced strategies to improve the feature extraction ability of the model. The main contributions of this study are as follows： A residual adaptive feature fusion module is used to effectively fuse hierarchical features from different residual blocks in each stage of the model in an adaptive weighting manner； this module not only models the correlation between different channels but also learns to adaptively estimate the relative importance of different information levels. An efficient feature enhanced transformer module is introduced into the model backbone， and a feature enhanced multihead self-attention mechanism is used to extract global information from chest X-ray images to enhance the expression ability of the model， effectively compensating for the poor ability of convolutional neural networks （CNNs） in capturing global feature representations. To obtain more abundant contextual information， a cross-level attention enhanced module is proposed； this module uses channel and spatial attention to enhance deep and shallow features， respectively， and effectively integrates high-level semantic information and low-level spatial detail with complete consideration of the long-distance feature dependency to achieve cross-level attention feature enhancement. Thus， the model is capable of extracting more effective features to further improve the accuracy of model classification. Experimental results on the COVID-19 Chest X-Ray image dataset reveal that the proposed model can achieve excellent classification performance compared with other advanced CNN classification models. The Acc， Pre， Rec， F1 Score， and Spe indexes of the model are 97.58%， 97.60%， 97.58%， 97.59%， and 97.46%， respectively. Further， the model is explained through the Grad-CAM visualization technology to enhance the intuitiveness of features. Thus， the proposed method can help clinicians make correct medical judgments and better patient prognosis， as well as provide effective help for the aided diagnosis of COVID-19.

1 引言

2019年新冠肺炎（Corona Virus Disease 2019， COVID-19）的爆发导致世界面临健康危机，已于2020年3月被世界卫生组织宣布为全球流行病，截至2021年8月11日，全球确诊病例已达2.046 4亿，死亡人数超过432万，这对公共卫生和全球经济造成了严重性的破坏^［1］。COVID-19可通过多种方式传播，最主要的方式是通过感染者在打喷嚏、咳嗽、说话或呼吸时的飞沫和排泄物传播，COVID-19主要症状包括轻微症状，如咳嗽、疲劳、发烧、呼吸困难、味觉和嗅觉突然丧失，以及严重并发症，如肺炎和急性呼吸窘迫综合征（Acute Respiratory Distress Syndrome, ARDS），严重危害人类生命健康^［2］，因此，必须通过早期发现、早期治疗和隔离病毒感染病例来减少新冠病毒的传播。

最初的研究报告表明，使用计算机断层扫描（Computed Tomography， CT）和胸部X-Ray（Chest X-Ray， CXR）放射学检查可以减少逆转录聚合酶链反应（RT-PTR）测试的假阴性^［3］，与CT成像相比，CXR成像技术操作速度快、成本低、易于获得、侵入性小，且CXR图像包含更多的肺部特征，在疾病的早期诊断和治疗中发挥着不可或缺的作用，因此CXR图像被广泛用于COVID-19的诊断中。然而，其他常见的肺部感染性疾病，如病毒性肺炎具有与COVID-19相似的影像学特征，放射科医生在较大范围内对CXR图像进行目视检查非常耗时且繁琐，并且由于医生个人经验和缺乏有关病毒感染区域的先验知识的限制，可能导致误诊或者漏诊，因此从CXR图像中自动准确地识别COVID-19非常重要。目前人工智能方法与胸部放射成像技术相结合被用于高效快速地识别COVID-19，特别是深度学习技术能够在无需手动提取图像特征的情况下获得准确的识别结果，可以帮助医生快速分析医学图像中的异常，检测新冠肺炎感染者。

诸多研究表明，残差神经网络具有优异的特征提取能力，在诊断COVID-19方面取得了良好的性能^［4］。Showkat^［5］等人研究基于迁移学习的ResNet模型在COVID-19 CXR图像分类中的有效性，利用ResNet18作为模型的基础，并通过BN等附加层对其进行微调，从而实现更快、更稳定的训练，结果表明该模型获得了95%的准确率和95.9%的灵敏度，可以对CXR进行可靠分析，以促进临床决策过程。Ghosh^［6］等人提出一种基于改进的ResNet的COVID-19 CXR图像增强模型ENResNet，该模型可以生成增强的CXR图像，比大多数方法更具有鲁棒性，有助于从CXR图像中检测COVID-19，并以低成本有效地将COVID-19与普通肺炎区分开来，还被用于确定由于冠状病毒传播的胸部/肺部受影响区域。Keles^［7］等人开发一种基于ResNet架构的深度神经网络COV19-ResNet，用于从CXR图像中检测COVID-19，最终获得了97.61%的分类准确率。Ouchicha^［8］等人提出CVDNet模型，采用CXR图像对COVID-19感染、正常肺部和其他肺炎病例进行分类，该模型基于残差神经网络，通过使用两个具有不同大小卷积核的并行分支来捕捉输入图像的局部和全局特征以实现多尺度特征提取，采用在同一分支上和不同分支之间分别添加残差连接的方式合并多尺度特征，结果表明该模型在COVID-19数据集上表现出良好的分类性能，可以帮助放射科医生诊断和早期检测新冠肺炎病例。Rajpal^［9］等人提出一种区分COVID-19、肺炎和正常肺部的CXR图像分类模型，将使用ResNet50通过迁移学习获得的特征与从传统图像处理方法获得的精选特征相结合，增强了模型的学习能力，获得了0.974±0.02的总体分类准确率。Celik^［10］等人提出基于特征重用残差块和深度扩张卷积单元的CovidDWNet模型，有效地获取了胸部扫描图像中的各种特征，并结合梯度增强（Gradient Boosting， GB）算法构建CovidDWNet+GB架构，该架构在COVID-19多分类胸部X光图像数据集中的准确率达到96.81%。

尽管残差神经网络在COVID-19辅助诊断方面已经取得了良好的效果，但是由于COVID-19 CXR图像存在影响人工智能建模的挑战性因素，使得在现有的COVID-19识别研究中仍然存在一些局限性和挑战：由于CXR图像通常由不同机构在不同环境中使用不同的放射设备收集的，因此，来自不同数据库的不同类别的CXR图像在数据量、放射学特征（如亮度、对比度、分辨率）和患者特征（如骨骼、年龄、肺部区域的大小和位置）方面存在差异。此外，由于COVID-19感染的特异性，导致COVID-19 CXR图像病变区域多样化、分布广泛、形状复杂、大小不一，而且与周围组织的边界不清晰，对比度有限。以上问题均可能导致模型不能很好地关注图像中的病变信息，难以充分提取有效特征进行分类。而且现有方法通常缺乏有效提取上下文信息的能力，仅使用从网络深层提取的高级语义信息进行分类，而忽略了从网络浅层提取的空间信息，这将导致有用信息丢失，使得模型分类效果较低。

针对由于CXR图像的差异性和COVID-19感染的特异性，导致模型特征提取能力较弱的问题，本文提出包含三种特征增强策略的REC-ResNet分类模型，为COVID-19的早期临床筛查、疾病诊断和治疗后回顾提供有效帮助。主要贡献有：（1）该模型采用ResNet50作为主干网络，引入残差自适应特征融合模块（Residual Adaptive Feature Fusion Module， RA-FFM），采用自适应加权的方式有效融合每个Stage内部的分层特征，提高模型的特征提取能力。（2）考虑到CNN在局部特征提取方面具有优势，但在捕获全局特征表示方面有一定的局限性，导致不能充分提取有效特征进行识别，本文在模型主干中引入高效特征增强Transformer模块（Efficient Feature Enhanced Transformer Module， EFE-TM），采用特征增强多头自注意力（Feature Enhanced Multi-Head Self Attention， FE-MSA）捕获图像中的全局信息以增强模型的表达能力。（3）提出跨层注意力增强模块（Cross-Level Attention Enhanced Module， CAEM），在充分考虑长距离特征依赖的情况下融合浅层阶段包含的低级空间细节和深层阶段包含的高级语义信息，以实现跨层特征增强，从而获得更丰富的上下文信息并提高分类性能。

2 REC-ResNet模型

2.1　模型整体结构

本文提出REC-ResNet模型，引入三种特征增强策略，分别为残差自适应特征融合、高效特征增强Transformer和跨层注意力增强，模型整体结构如图1所示，该模型以ResNet50作为主干网络，输入的胸部X-Ray图像首先通过Conv_block提取浅层特征，Conv_block包括7×7卷积层和最大池化层，然后通过三个阶段Stage1-Stage3逐渐捕获图像中的高级语义信息，其中，每一个Stage都是由若干个残差块（Res_Block）和一个残差自适应特征融合模块（RA-FFM）组成，Res_Block为包含两个1×1卷积和一个3×3卷积的瓶颈残差块，有效地缓解了梯度消失问题，RA-FFM采用自适应融合方式，充分利用各个残差块的分层特征。如图2所示为Stage2的内部结构图，Stage2的输入为Stage1的输出，Stage2的输出传入到Stage3中，由于Stage2包含4个残差块，因此RA-FFM有4个输入，为了减少信息丢失，采用步长为2的1×1卷积对Stage2的输入特征图进行通道和空间维度的调整，再将其输入到RA-FFM中。同理，Stage3包含6个残差块，因此Stage3内部的RA-FFM有6个输入，同样采用步长为2的1×1卷积对Stage3的输入特征图进行通道和空间维度的调整，Stage1包含3个残差块，因此Stage1内部的RA-FFM有3个输入，而Stage1的输入特征图只需要改变通道维度，因此采用步长为1的1×1卷积。为了进一步提高模型的特征提取能力，在网络主干中引入高效特征增强Transformer模块（EFE-TM），采用自注意力机制捕获长距离的特征依赖，有效地弥补CNN提取全局信息能力较弱的不足。

Figure 1.Overall structure of REC-ResNet model

Table 1. Design of ablation experiments

Table 1. Design of ablation experiments

Table 2. Comparison of classification performance of different CNN models

Table 2. Comparison of classification performance of different CNN models

Table 3. Comparison of classification performance of ResNet50 model combining different attention mechanisms

Table 3. Comparison of classification performance of ResNet50 model combining different attention mechanisms

Table 4. Results of ablation experiment（%）

Table 4. Results of ablation experiment（%）

微信扫一扫：分享