Optics and Precision Engineering, Volume. 31, Issue 14, 2093(2023)

REC-ResNet: Feature enhancement model for COVID-19 aided diagnosis

Tao ZHOU1...2, Yuncan LIU1,*, Senbao HOU1, Xinyu YE1 and Huiling LU3 |Show fewer author(s)
Author Affiliations
  • 1School of Computer Science and Engineering, North Minzu University, Yinchuan75002, China
  • 2Key Laboratory of Image and Graphics Intelligent Processing of State Ethnic Affairs Commission, North Minzu University, Yinchuan75001, China
  • 3School of Science, Ningxia Medical University, Yinchuan750004, China
  • show less
    Keywords

    Abstact: Currently, residual-neural-network-based aided diagnoses of the coronavirus disease 2019 (COVID-19) represent research hotspots. However, lesion regions within COVID-19 chest X-ray images are diverse; their sizes, shapes, and locations vary across patients; and the boundaries with surrounding tissues are blurred with low contrasts. Thus, completely extracting the effective features of lesion regions is difficult. Aiming to address the above problems, a COVID-19-aided diagnosis model called REC-ResNet is proposed in the paper; this model uses ResNet50 as its backbone network and introduces three feature enhanced strategies to improve the feature extraction ability of the model. The main contributions of this study are as follows: A residual adaptive feature fusion module is used to effectively fuse hierarchical features from different residual blocks in each stage of the model in an adaptive weighting manner; this module not only models the correlation between different channels but also learns to adaptively estimate the relative importance of different information levels. An efficient feature enhanced transformer module is introduced into the model backbone, and a feature enhanced multihead self-attention mechanism is used to extract global information from chest X-ray images to enhance the expression ability of the model, effectively compensating for the poor ability of convolutional neural networks (CNNs) in capturing global feature representations. To obtain more abundant contextual information, a cross-level attention enhanced module is proposed; this module uses channel and spatial attention to enhance deep and shallow features, respectively, and effectively integrates high-level semantic information and low-level spatial detail with complete consideration of the long-distance feature dependency to achieve cross-level attention feature enhancement. Thus, the model is capable of extracting more effective features to further improve the accuracy of model classification. Experimental results on the COVID-19 Chest X-Ray image dataset reveal that the proposed model can achieve excellent classification performance compared with other advanced CNN classification models. The Acc, Pre, Rec, F1 Score, and Spe indexes of the model are 97.58%, 97.60%, 97.58%, 97.59%, and 97.46%, respectively. Further, the model is explained through the Grad-CAM visualization technology to enhance the intuitiveness of features. Thus, the proposed method can help clinicians make correct medical judgments and better patient prognosis, as well as provide effective help for the aided diagnosis of COVID-19.

    1 引 言

    2019年新冠肺炎(Corona Virus Disease 2019, COVID-19)的爆发导致世界面临健康危机,已于2020年3月被世界卫生组织宣布为全球流行病,截至2021年8月11日,全球确诊病例已达2.046 4亿,死亡人数超过432万,这对公共卫生和全球经济造成了严重性的破坏1。COVID-19可通过多种方式传播,最主要的方式是通过感染者在打喷嚏、咳嗽、说话或呼吸时的飞沫和排泄物传播,COVID-19主要症状包括轻微症状,如咳嗽、疲劳、发烧、呼吸困难、味觉和嗅觉突然丧失,以及严重并发症,如肺炎和急性呼吸窘迫综合征(Acute Respiratory Distress Syndrome, ARDS),严重危害人类生命健康2,因此,必须通过早期发现、早期治疗和隔离病毒感染病例来减少新冠病毒的传播。

    最初的研究报告表明,使用计算机断层扫描(Computed Tomography, CT)和胸部X-Ray(Chest X-Ray, CXR)放射学检查可以减少逆转录聚合酶链反应(RT-PTR)测试的假阴性3,与CT成像相比,CXR成像技术操作速度快、成本低、易于获得、侵入性小,且CXR图像包含更多的肺部特征,在疾病的早期诊断和治疗中发挥着不可或缺的作用,因此CXR图像被广泛用于COVID-19的诊断中。然而,其他常见的肺部感染性疾病,如病毒性肺炎具有与COVID-19相似的影像学特征,放射科医生在较大范围内对CXR图像进行目视检查非常耗时且繁琐,并且由于医生个人经验和缺乏有关病毒感染区域的先验知识的限制,可能导致误诊或者漏诊,因此从CXR图像中自动准确地识别COVID-19非常重要。目前人工智能方法与胸部放射成像技术相结合被用于高效快速地识别COVID-19,特别是深度学习技术能够在无需手动提取图像特征的情况下获得准确的识别结果,可以帮助医生快速分析医学图像中的异常,检测新冠肺炎感染者。

    诸多研究表明,残差神经网络具有优异的特征提取能力,在诊断COVID-19方面取得了良好的性能4。Showkat5等人研究基于迁移学习的ResNet模型在COVID-19 CXR图像分类中的有效性,利用ResNet18作为模型的基础,并通过BN等附加层对其进行微调,从而实现更快、更稳定的训练,结果表明该模型获得了95%的准确率和95.9%的灵敏度,可以对CXR进行可靠分析,以促进临床决策过程。Ghosh6等人提出一种基于改进的ResNet的COVID-19 CXR图像增强模型ENResNet,该模型可以生成增强的CXR图像,比大多数方法更具有鲁棒性,有助于从CXR图像中检测COVID-19,并以低成本有效地将COVID-19与普通肺炎区分开来,还被用于确定由于冠状病毒传播的胸部/肺部受影响区域。Keles7等人开发一种基于ResNet架构的深度神经网络COV19-ResNet,用于从CXR图像中检测COVID-19,最终获得了97.61%的分类准确率。Ouchicha8等人提出CVDNet模型,采用CXR图像对COVID-19感染、正常肺部和其他肺炎病例进行分类,该模型基于残差神经网络,通过使用两个具有不同大小卷积核的并行分支来捕捉输入图像的局部和全局特征以实现多尺度特征提取,采用在同一分支上和不同分支之间分别添加残差连接的方式合并多尺度特征,结果表明该模型在COVID-19数据集上表现出良好的分类性能,可以帮助放射科医生诊断和早期检测新冠肺炎病例。Rajpal9等人提出一种区分COVID-19、肺炎和正常肺部的CXR图像分类模型,将使用ResNet50通过迁移学习获得的特征与从传统图像处理方法获得的精选特征相结合,增强了模型的学习能力,获得了0.974±0.02的总体分类准确率。Celik10等人提出基于特征重用残差块和深度扩张卷积单元的CovidDWNet模型,有效地获取了胸部扫描图像中的各种特征,并结合梯度增强(Gradient Boosting, GB)算法构建CovidDWNet+GB架构,该架构在COVID-19多分类胸部X光图像数据集中的准确率达到96.81%。

    尽管残差神经网络在COVID-19辅助诊断方面已经取得了良好的效果,但是由于COVID-19 CXR图像存在影响人工智能建模的挑战性因素,使得在现有的COVID-19识别研究中仍然存在一些局限性和挑战:由于CXR图像通常由不同机构在不同环境中使用不同的放射设备收集的,因此,来自不同数据库的不同类别的CXR图像在数据量、放射学特征(如亮度、对比度、分辨率)和患者特征(如骨骼、年龄、肺部区域的大小和位置)方面存在差异。此外,由于COVID-19感染的特异性,导致COVID-19 CXR图像病变区域多样化、分布广泛、形状复杂、大小不一,而且与周围组织的边界不清晰,对比度有限。以上问题均可能导致模型不能很好地关注图像中的病变信息,难以充分提取有效特征进行分类。而且现有方法通常缺乏有效提取上下文信息的能力,仅使用从网络深层提取的高级语义信息进行分类,而忽略了从网络浅层提取的空间信息,这将导致有用信息丢失,使得模型分类效果较低。

    针对由于CXR图像的差异性和COVID-19感染的特异性,导致模型特征提取能力较弱的问题,本文提出包含三种特征增强策略的REC-ResNet分类模型,为COVID-19的早期临床筛查、疾病诊断和治疗后回顾提供有效帮助。主要贡献有:(1)该模型采用ResNet50作为主干网络,引入残差自适应特征融合模块(Residual Adaptive Feature Fusion Module, RA-FFM),采用自适应加权的方式有效融合每个Stage内部的分层特征,提高模型的特征提取能力。(2)考虑到CNN在局部特征提取方面具有优势,但在捕获全局特征表示方面有一定的局限性,导致不能充分提取有效特征进行识别,本文在模型主干中引入高效特征增强Transformer模块(Efficient Feature Enhanced Transformer Module, EFE-TM),采用特征增强多头自注意力(Feature Enhanced Multi-Head Self Attention, FE-MSA)捕获图像中的全局信息以增强模型的表达能力。(3)提出跨层注意力增强模块(Cross-Level Attention Enhanced Module, CAEM),在充分考虑长距离特征依赖的情况下融合浅层阶段包含的低级空间细节和深层阶段包含的高级语义信息,以实现跨层特征增强,从而获得更丰富的上下文信息并提高分类性能。

    2 REC-ResNet模型

    2.1 模型整体结构

    本文提出REC-ResNet模型,引入三种特征增强策略,分别为残差自适应特征融合、高效特征增强Transformer和跨层注意力增强,模型整体结构如图1所示,该模型以ResNet50作为主干网络,输入的胸部X-Ray图像首先通过Conv_block提取浅层特征,Conv_block包括7×7卷积层和最大池化层,然后通过三个阶段Stage1-Stage3逐渐捕获图像中的高级语义信息,其中,每一个Stage都是由若干个残差块(Res_Block)和一个残差自适应特征融合模块(RA-FFM)组成,Res_Block为包含两个1×1卷积和一个3×3卷积的瓶颈残差块,有效地缓解了梯度消失问题,RA-FFM采用自适应融合方式,充分利用各个残差块的分层特征。如图2所示为Stage2的内部结构图,Stage2的输入为Stage1的输出,Stage2的输出传入到Stage3中,由于Stage2包含4个残差块,因此RA-FFM有4个输入,为了减少信息丢失,采用步长为2的1×1卷积对Stage2的输入特征图进行通道和空间维度的调整,再将其输入到RA-FFM中。同理,Stage3包含6个残差块,因此Stage3内部的RA-FFM有6个输入,同样采用步长为2的1×1卷积对Stage3的输入特征图进行通道和空间维度的调整,Stage1包含3个残差块,因此Stage1内部的RA-FFM有3个输入,而Stage1的输入特征图只需要改变通道维度,因此采用步长为1的1×1卷积。为了进一步提高模型的特征提取能力,在网络主干中引入高效特征增强Transformer模块(EFE-TM),采用自注意力机制捕获长距离的特征依赖,有效地弥补CNN提取全局信息能力较弱的不足。

    Overall structure of REC-ResNet model

    Figure 1.Overall structure of REC-ResNet model

    Internal structure diagram of Stage2

    Figure 2.Internal structure diagram of Stage2

    此外,由于多级特征可以编码更丰富的上下文信息,为了充分利用网络不同阶段(Stage)的特征,采用跨层注意力增强模块(CAEM),旨在捕获不同阶段特征之间的长距离相关性,并指导分层特征之间的有效聚合,从而获取更多的语义信息。首先将Stage1的输出作为低级特征,将Stage2的输出作为高级特征,通过CAEM进行两者的有效融合,将浅层信息嵌入深层信息中以减少信息损失,然后将第一个CAEM的输出和Stage3的输出分别作为低级特征和高级特征输入到第二个CAEM中,同理,FETM的输出为高级特征,与第二个CAEM的输出传入第三个CAEM中,有效地融合了深层特征的高级语义信息和浅层特征的空间细节以实现跨层特征增强。最后,将三个CAEM的输出进行通道拼接,并采用1×1卷积进行降维,将降维后的特征通过全局平均池化操作,与FETM的输出经过全局平均池化的特征进行逐元素相加融合,并通过全连接(FC)层获得最终分类结果。

    2.2 残差自适应特征融合模块

    由于CNN中来自不同特征图的特征表示具有不同的重要性,为了充分利用模型的每个Stage内部的分层特征,引入残差自适应特征融合模块(RA-FFM)以自适应加权的方式有效融合每个Stage中来自不同残差块的特征信息,提高模型对病变区域的特征提取能力。该模块不仅对通道的相互依赖性进行建模,还学习自适应地估计不同层次信息的相对重要性,以便关注对识别有用的特征。该模块的结构如图3所示,由三个操作组成:Fuse,Select和Residual Connection,其中,Fuse操作融合来自多个层次的信息,以获得用于权重选择的全局性的综合特征表示。Select操作使用这些特征重新校准输入,然后重新聚合自适应加权后的特征。采用Residual Connection操作使网络结构更加紧凑,减少梯度消失问题,有利于网络训练。

    Residual adaptive feature fusion module

    Figure 3.Residual adaptive feature fusion module

    Fuse:对于Stage s1,2,3,将Stage s中的每一个残差块的输出作为RA-FFM输入的分层特征,可表示为U1s,,Ums,,UMsRH×W×C,其中M3,4,6为每个Stage所包含的残差块的个数,HW分别表示输入特征图的高度和宽度,C表示输入特征图的通道数。然后通过逐元素求和操作融合分层特征,如公式(1)所示。

    U=U1s++Ums++UMs

    其中:U=[u1,,uc, ,uC],URH×W×C表示融合后的特征。然后,采用全局平均池化将U的全局空间信息压缩到通道中,从而生成通道统计信息S=s1,,sc, ,sC, SRC×1

    sc=Fgpuc=1H×Wi=1Hj=1Wuc(i,j)

    其中:Fgp()表示全局平均池化操作,uc(i,j)表示特征图uc中坐标(i,j)的像素值。接着,通过全连接层将SRC×1压缩为ZRCr×1,其中r为衰减率,该操作通过降低维度以提高效率,并引导精确和自适应的选择,Z的计算过程如公式(3)所示:

    Z=FfcS=δ(BN(WS))

    其中:BN()表示批量归一化,δ表示ReLU激活函数,WRC/r×Cr取值为2。

    Select:通道间的软注意力可以自适应地选择信息的不同空间尺度,其被紧凑的特征信息Z引导。具体来说,通过对通道维度采用Softmax函数将Z分为与输入数量相同的分支,以生成对应于每个输入Ums的注意力向量Bm=Bm,1,,Bm,c,,Bm,C,m=1,2,,M,并将维度扩展为C×1×1

    Bm,c=eAm,cZm=1MeAm,cZ

    其中:Bm,c代表Bm的第c个元素,AmRC×C/r是一个矩阵,Am,cR1×C/r表示Am矩阵的第c行元素。

    将得到的注意力权重分别与对应的输入相乘进行动态加权,然后将V1s,,Vms,,VMsRC×H×W进行逐元素相加得到最终的融合特征VRH×W×C,具体操作如下:

    vc=m=1MBm,cUm,cs,s.t.m=1MBm,c=1

    其中:V=v1,,vc,,vCvc表示输出V的第c个特征图,Um,cs表示输入Ums的第c个特征图。

    Residual Connection:首先对融合后的特征V采用1×1卷积以进一步细化,然后将Stage s的输入经过通道和空间维度的调整之后得到的特征图IsRH×W×C,s1,2,3通过残差连接操作使得浅层特征添加到细化后的融合特征上,RA-FFM的最终输出Rout计算过程如下:

    Rout=Conv1×11V+Is

    其中:Conv1×11()表示步长为1的1×1卷积。

    2.3 高效特征增强Transformer

    由于参数共享、局部信息聚合和降维的特点,CNN在图像识别领域发挥很大的优势,然而,CNN由于其有限和固定的感受野,不能有效建模长距离依赖性,因此不具备对整个图像的全局理解,这可能会丢失一些重要的上下文信息,进一步限制分类性能。近年来,随着Transformer11的发展,模型捕获远距离信息的能力有所提高,Transformer的优势在于利用自注意力捕捉全局上下文信息,从而建立对目标的远距离依赖,并提取更强大的特征。然而,Transformer模块中的多头自注意力(Multi-Head Self Attention, MSA)中的每个头部只负责输入token的一部分,这可能会降低模型性能,特别是当每个子集中的通道维度太低时,使得QK的点积不再能够构建信息匹配函数。

    为了解决上述问题,本文将高效特征增强Transformer模块(EFE-TM)引入网络主干中,以提高模型的特征提取能力,在该模块中采用特征增强多头自注意力(FE-MSA)在保持多头多样性的同时投影跨注意力头维度的交互,增强模型的表达能力。如图4(a)所示,EFE-TM由FE-MSA和前馈网络(FFN)两个子层组成,在FE-MSA和FFN之前,分别采用层归一化(Layer Normalization, LN)操作,并在每个子层周围采用残差连接有效缓解梯度消失问题。对于一个token输入xRn×cn=h×whw分别表示输入特征图的高度和宽度,c表示输入特征图的通道数,则EFE-TM的输出y为:

    Efficient feature enhanced Transformer

    Figure 4.Efficient feature enhanced Transformer

    x^=x+FE_MSA(LN(x))

    y=x^+FFN(LN(x^))

    其中:x^表示FE-MSA子层的输出结果,FFN()LN()FE_MSA()分别表示前馈网络、层归一化和特征增强多头自注意力。

    本文采用特征增强多头自注意力(FE-MSA)代替原始Transformer模块的MSA,FE-MSA如图4(b)所示,具体操作如下。

    (1)与MSA类似,FE-MSA首先对2D输入token xRn×c采用三组投影来获得查询Q、键K和值V

    (2)在QK进行点积运算之后采用归一化操作使得训练时梯度更加稳定,其中dk=c/k是每个头部的维度,k为头部的个数,在本文中取k=8。然后引入SE模块12增强通道之间的相互依赖性,使模型更多的关注包含关键信息的通道,从而达到提高模型特征表示能力的目的。

    (3)采用1×1卷积用于模拟不同头部之间的相互作用,因此每个头部的注意力函数可能受到所有键和查询的影响,然而这将削弱MSA联合处理来自不同位置的不同代表子集信息的能力。为了恢复这种多样性能力,将Softmax操作得到的点积矩阵采用实例归一化(Instance Normalization, IN)13,并将其输出与V相乘进行加权。QKV之间的注意力函数Attention的计算过程如公式(9)所示。

    AttentionQ,K,V=

    IN(Softmax(Conv1×1(SE(QKTdk))))V

    其中:SE()表示SE模块,Softmax()表示Softmax函数,Conv1×1()表示1×1卷积,IN()表示IN操作。

    (4)最后将每个头部的输出值进行拼接并采用线性投影操作,再与原输入做残差连接运算得到最终输出。

    FFN用于特征变换和非线性,它由两个具有非线性激活的线性层组成,第一层将输入的嵌入维度从c扩展到df,第二层将维度从df减少到c。FFN公式如式(10)所示:

    FFNx^=σx^W1+b1W2+b2

    其中:W1Rc×dfW2Rdf×c分别是两个线性层的权重,b1ϵRdfb2ϵRc是偏置项,σ()是高斯误差线性单元(Gaussian Error Linear Unit, GELU)激活函数,在本文中取df=4c

    2.4 跨层注意力增强模块

    在图像分类任务中,残差神经网络的深层阶段获得的高级特征编码用于识别对象类别的语义信息,而浅层阶段获得的低级特征保留用于重建对象边界的更精确的空间细节,比如形状、纹理、边缘和轮廓等。因此,最终输出的高级特征在语义上很强,适合定位显著区域,但缺乏足够的分辨率和精确的空间细节,与之相反,低级特征适合定位边界和空间结构细节,但缺乏全局语义信息。虽然抽象的语义信息在分类任务中起着重要作用,但是未能充分利用低层次丰富的细节信息,导致有用信息损失,因此,为了充分利用网络不同阶段的分层特征,以减少信息损失,并保留有用的特征信息,本文引入跨层注意力增强模块(CAEM),采用分层特征融合方法聚合模型不同Stage输出的特征,将浅层信息嵌入到深层语义信息中,有效地融合深层特征的高级语义信息和浅层特征的空间细节以实现跨层特征增强,捕获丰富的上下文信息,使网络能够更好地定位病变区域,提取更多病变特征以提高模型的识别准确率。

    图5为CAEM的结构,考虑到低级特征FL'RH'×W'×C'包含各种空间信息,而高级特征FH'RH×W×C包含丰富的语义信息,先采用空间注意力(Spatial Attention, SA)和通道注意力(Channel Attention, CA)分别对低级特征和高级特征进行增强,其中,CA促使模型强调特征图对通道进行区分,以确定哪些特征通道提供鉴别信息;SA使得模型聚焦于病变区域,增强后的低级特征为FL''RH'×W'×C',高级特征为FHRH×W×C,为了实现跨层次注意力,首先统一不同层次特征的空间和通道维度,采用平均池化减小低级特征FL''的空间大小,并采用1×1卷积调整其通道维度得到FLRH×W×C,然后使用自注意力机制将低级特征FL嵌入到高级特征FH中,旨在聚合不同层次的特征,捕获不同层次特征之间的长距离相关性。在这里,不同层次特征的长距离相关性可以被视为图像中的潜在依赖信息,有利于构建更完整的特征表示14。注意力函数可以描述为将查询和一组键值对映射到输出,因此,将低层特征作为注意力函数中的查询,将高级特征作为键和值,对FL应用一个Linear层得到查询Q,对FH应用两个Linear层得到键K和值V,公式如式(11)所示:

    Q=FLWQ, K=FHWK,V=FHWV

    其中:WQWKWV表示可学习的参数矩阵。然后采用点积和softmax函数计算QK之间的相关权重,并将其乘以V以生成新特征。由于模型最终进行识别采用的是高级语义信息,因此将FH添加到得到的新特征上以进一步增强高级特征,获得包含分层信息的最终的聚合特征FMRH×W×C

    FM=FH+SoftmaxQKTdkV

    其中:dk表示比例因子,dkK的维度,Softmax()表示softmax函数。不同于自注意力机制中的QKV是由同一特征X生成的,该模块的QKV是分别由不同层次的特征FLFH生成的,因此,融合特征FM包含了更加丰富和多样的信息。

    Cross-level attention enhanced module

    Figure 5.Cross-level attention enhanced module

    本文采用空间注意力对低级特征进行增强,获得空间注意力权重图来突出显示CXR图像中对识别有用的区域,即病变区域。如图6所示,为了计算空间注意力,将来自局部分支(Local Branch)提取的局部细节特征与采用两个池化操作的全局分支(Global Branch)提取的全局特征进行特征融合。在这里,全局平均池化操作和全局最大池化操作用于考虑所有神经元的空间位置,以突出病变区域,而局部分支采用卷积操作来检测复杂纹理和重要细节。如图1所示,FGMPRH×W×1FGVPRH×W×1FΦRH×W×1分别为输入的低级特征FL'经过全局最大池化、全局平均池化和局部分支获得的特征,将三个分支得到的特征在通道维度上进行拼接,然后经过1×1卷积对其进行细化并实现降维得到空间注意力权重图WSARH×W×1,公式如下:

    WSA=Conv1×1(FGMP;FGVP;FΦ)

    FΦ=Conv1×1(δ(Conv3×3(FL')))

    其中:;;表示通道拼接操作,δ表示ReLU激活函数,Conv1×1()Conv3×3()分别表示1×1卷积和3×3卷积。

    Spatial attention

    Figure 6.Spatial attention

    最后将权重WSA与输入的低级特征FL'相乘进行加权得到增强后的低级特征FL'',计算公式如下,其中表示相乘操作:

    FL''=FL'WSA

    采用通道注意力来显式地建模高级特征图通道之间的相互依赖关系,可以提高表达能力并保留重要的语义特征。如图7所示,为了获得通道注意力,通道权重主要由两个方面分配:全局平均池化激活和通道细化。在全局平均池化激活中,采用全局平均池化捕获全局权重WG作为粗略的通道统计;在通道细化模块(Channel Refinement Module)中,首先通过卷积操作将输入的高级特征FH'的高度和宽度压缩为原来的一半,将语义信息聚合为FSRH/2×W/2×C,公式如式(16)

    FS=Conv3×3(FH')

    然后采用全局平均池化操作生成每个特征图的全局描述,用于进一步的语义信息统计。此外,采用两个FC层建模通道之间的联系,获得细化后的通道注意力权重WR,其中,第一层神经元个数为C/rr为衰减率,设置为2,第二层神经元个数为C。为了提高通道注意力的性能,采用WR进一步细化粗略的通道统计信息WG得到最终的通道注意力权重WCA,公式如下:

    WCA=WG+WR

    最后将权重WCA与输入的高级特征FH'相乘进行加权得到FH以增强高级特征,公式如式(18),其中表示相乘操作。

    FH=FH'WCA

    Channel attention

    Figure 7.Channel attention

    3 实验设计与结果分析

    3.1 实验环境与参数设置

    实验环境:计算机内存256 GB,Windows Server 2019 Datacenter 64位操作系统,两块并行NVIDIA TITAN Ⅴ显卡,Intel(R) Xeon(R) Gold 6154 CPU @ 3.00 GHz处理器,Python 3.7.10,Pytorch 1.7.0 深度学习框架,CUDA 11.3.58。

    参数设置:本文在模型训练中采用Adam优化器优化模型参数,并使用交叉熵损失函数改善模型性能,初始学习率设置为1×10-7,权重衰减设置为1×10-8,通过指数衰减(ExponentialLR)策略调整学习率,训练周期设置为100,批处理大小设置为32。

    实验设计:本文设计了两组对比实验和一组消融实验来验证REC-ResNet模型的有效性。对比实验设计如下:(1)REC-ResNet模型与先进的CNN分类模型进行对比;(2)REC-ResNet模型与融合不同注意力机制的ResNet50模型进行对比;消融实验设计如表1所示:(1)采用基础ResNet50模型,记为Network_0;(2)在ResNet50模型的基础上添加残差自适应特征融合模块,记为Network_1;(3)在Network_1基础上添加高效特征增强Transformer模块,记为Network_2;(4)在Network_2基础上添加跨层注意力增强模块,记为Network_3。

    • Table 1. Design of ablation experiments

      Table 1. Design of ablation experiments

      Ablation ExpModelName
      Exp1ResNet50Network_0
      Exp2ResNet50+RA-FFMNetwork_1
      Exp3ResNet50+RA-FFM+EFE-TMNetwork_2
      Exp4ResNet50+RA-FFM+EFE-TM+CAEMNetwork_3

    3.2 数据集

    本文在COVID-19 Radiography Dataset胸部X-Ray图像数据集上进行实验,以验证REC-ResNet模型的有效性。该数据集是由卡塔尔大学和达卡大学等的研究团队合作建立的,主要包括COVID-19图像、病毒性肺炎图像和正常肺部图像,图像大小均为299×299 pixel。由于该数据集中的病毒性肺炎图像只有1 345张,因此本文通过移除所有低质量和不可读的X-Ray图像对该数据集进行筛选,以进行质量控制,最终选取2 000张COVID-19图像、1 345张病毒性肺炎图像和2 000张正常肺部图像,并对病毒性肺炎图像进行水平翻转增广到2 000张以实现数据集三种类别样本数量均衡。为了减少计算量并满足模型输入大小,将所有图像随机裁剪为224×224 pixel,再将其转换成向量格式并进行像素值归一化处理。本文将处理好的数据集按照8:2的比例随机划分为训练集和测试集,每个类别训练集各1 600张,测试集各400张。

    根据指南15可知,典型的COVID-19图像中呈现出在双肺胸膜下和支气管血管束上呈现多发斑片状磨玻璃阴影(Ground Glass Opacity, GGO),被网状或增厚的小叶间隔分隔,呈碎石路征,双肺多发斑片状或大片状实变,伴有小叶间隔呈网格状或蜂窝状增厚,尤其在中、下叶。该数据集中的三类胸部X-Ray图像样本如图8所示,可以发现来自不同数据库的CXR图像在某些特征上存在差异,如肺部区域的大小和位置、患者骨骼大小、图像分辨率和亮度等。由于COVID-19导致肺部区域湿度增加,所以COVID-19 CXR图像与其他两类图像相比具有更多的白度。通常,放射科医生通过磨玻璃阴影机制监测CXR图像来确认COVID-19疾病,但是存在的问题是COVID-19和其他类型的肺炎如病毒性肺炎具有相似的影像学特征,因此很难区分它们,这可能导致预测失误、分类错误和不当的病情分析。因此,基于深度学习的计算机辅助诊断对于COVID-19识别很重要。

    Chest X-Ray dataset sample

    Figure 8.Chest X-Ray dataset sample

    3.3 评价指标

    为了合理且全面地评估REC-ResNet模型的分类性能,并便于与其他网络进行比较,本文通过构建混淆矩阵来可视化分类模型在已知真实值的测试数据集上的性能,并使用真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)这四个性能评估参数计算准确率(Accuracy, Acc)、宏平均精确率(Precision-Macro, Pre)、宏平均召回率(Recall-Macro, Rec)、宏平均特异性(Specificity-Macro, Spe)和宏平均F1 Score(F1 Score-Macro, F1 Score)评价指标值,如式(19)~式(23)所示,其中,C为类别数,取值为3,TP和TN是正确分类的正负样本数,FN和FP是错误分类的正负样本数:

    Acc=TP+TNTP+FP+FN+TN

    Pre=1Ci=1CTPiTPi+FPi

    Rec=1Ci=1CTPiTPi+FNi

    Spe=1Ci=1CTNiTNi+FPi

    F1 Score=2×Pre×RecPre+Rec

    此外,本文采用受试者操作特征曲线(Receiver Operating Characteristic, ROC)直观的展示模型对疾病的识别能力,ROC曲线以假阳性率(False Positive Rate, FPR)为横坐标,以真阳性率(True Positive Rate, TPR)为纵坐标,反映了敏感性与特异性之间的权衡,两者基本的计算公式如公式(24)所示。ROC曲线与横坐标轴围成的面积为ROC曲线下面积(Area Under Curve, AUC),ROC曲线越接近左上角,AUC值越大越接近于1,表明模型分类性能越好:

    FPR=FPTN+FP

    3.4 实验结果分析

    3.4.1 不同CNN模型的分类性能对比

    为了验证REC-ResNet模型的分类性能,本文将该模型与AlexNet,VGG16,GoogleNet,ResNet50,ResNet101,Densenet121,MobileNetV2,InceptionV3和Inception_ResNet_V2等分类模型进行了比较,以上模型均采用相同的胸部X-Ray图像数据集进行训练和测试,实验评价指标采用Acc,Pre,Rec,F1 Score和Spe进行定量分析,实验结果如表2所示(加粗字体表示相同指标下的最优结果),不同CNN分类模型的各项评价指标值对比结果如图9所示。

    • Table 2. Comparison of classification performance of different CNN models

      Table 2. Comparison of classification performance of different CNN models

      ModelAccPreRecF1 ScoreSpe
      AlexNet88.8388.9088.8388.8688.97
      VGG1691.7591.8591.7591.8091.62
      GoogleNet93.1793.5493.1793.3593.27
      ResNet5093.7593.8693.7593.8093.61
      ResNet10193.9294.0093.9293.9693.44
      Densenet12194.3394.5094.3394.4294.38
      MobileNetV294.5094.6694.5094.5894.54
      InceptionV394.0894.1594.0894.1294.02
      Inception_ResNet_V294.0094.1394.0094.0794.04
      REC-ResNet97.58(↑3.83)97.60(↑3.74)97.58(↑3.83)97.59(↑3.79)97.46(↑3.85)

    Comparison of various evaluation index values of different CNN classification models

    Figure 9.Comparison of various evaluation index values of different CNN classification models

    表2可以看出,AlexNet16模型的分类效果最差,VGG1617和GoogleNet18相比于AlexNet各项指标均有大幅提升,准确率分别提高了2.92%和4.34%。ResNet50各项指标分别为93.75%,93.86%,93.75%,93.80%和93.61%,整体预测效果优于以上三个网络,这是由于其通过堆叠多个残差单元可以解决网络加深带来的梯度消失和网络退化问题,表明残差连接机制对COVID-19 CXR图像的分类效果有更好的提升作用。相比于ResNet50,ResNet101通过加深网络使得分类效果得到进一步提升,表明ResNet101能够提取更多有效特征进行识别。Densenet12119与层数相近的ResNet101相比准确率提升了0.41%,该模型通过密集连接方式实现特征复用,将每一层与前面所有层在通道维度上进行拼接,通过复用不同层的特征图,减少层间的相互依赖性,还避免了ResNet的逐像素相加操作导致一定程度上的信息流被破坏,能够更加精确地提取CXR图像中与疾病有关的特征,从而提高识别准确率。MobileNetV220采用了与ResNet相反的残差结构,先升维再降维,增强了梯度的传播,并结合逐深度(Depth-Wise, DW)卷积和逐点(Point-Wise, PW)卷积提取特征的同时实现模型轻量化,相比于ResNet50各项指标均有一定的提升。InceptionV321与Inception_ResNet_V2的准确率很相近,分类效果较ResNet50均有所提升,但相比于MobileNetV2效果欠佳,其中,InceptionV3采用非对称卷积增加网络深度并减少了计算量,在处理复杂的空间特征和增加特征多样性方面效果良好,而且利用并行降维结构增加网络宽度的同时提取图像中更多有用的病变特征。Inception_ResNet_V2有效地结合了残差学习加速训练并防止梯度消失的优势与Inception模块可以在同一层上获得稀疏或非稀疏特征的优势,从而带来分类性能的提升。从表2中可见,本文所提出的REC-ResNet模型的Acc,Pre,Rec,F1 Score和Spe指标分别为97.58%,97.60%,97.58%,97.59%和97.46%,与以上先进的CNN分类模型相比,该模型在COVID-19 CXR图像数据集上的分类效果最好,各项指标较ResNet50都有较大的性能提升,分别提高了3.83%,3.74%,3.83%,3.79%和3.85%(见表2),能够准确地对COVID-19感染病例、病毒性肺炎感染病例和正常患者进行分类,表明该模型能够提取更多有用的特征,因此能够更好地在CXR图像数据集上实现精确分类。

    本文通过对各个CNN分类模型的测试结果采用混淆矩阵进行可视化,考察不同模型对于三类样本分类预测的标签和真实情况之间的差异,结果如图10所示,AlexNet和VGG16对病毒性肺炎的识别精度较高,但对COVID-19和正常肺部的识别效果较差,而GoogleNet对COVID-19的识别效果较好。ResNet50,Densenet121,MobileNetV2和Inception_ResNet_V2对COVID-19和病毒性肺炎的识别精度比对病毒性肺炎的识别精度更高,而ResNet101和InceptionV3对三类样本的识别能力比较均衡。通过比较10个混淆矩阵可以看出,REC-ResNet模型对三类样本的区分辨别能力更加均衡,识别效果明显优于其他CNN分类模型,其中对COVID-19的识别精度高达98%,表明该模型能够实现准确的分类。

    Confusion matrix of classification results of different CNN models

    Figure 10.Confusion matrix of classification results of different CNN models

    不同CNN模型的ROC曲线如图11所示,横坐标是假阳性率,纵坐标是真阳性率,ROC曲线直观的展示了不同模型对疾病的分类效果。从图中可以看出,本文模型在所有CNN分类模型中表现最优,其ROC曲线更接近左上角,AUC值达到0.981 9,其次是MobileNetV2和Densenet121,AUC值分别为0.958 7和0.957 5,相比之下,ResNet50的分类效果较低,AUC值为0.953 1,而AlexNet的AUC值最小,其ROC曲线离左上角最远,采用ROC曲线可视化进一步证实了本文模型具有良好的分类性能。

    ROC curve of different CNN models

    Figure 11.ROC curve of different CNN models

    3.4.2 融合不同注意力机制的ResNet50模型的分类性能对比

    为了验证REC-ResNet模型中采用的注意力模块的有效性,将该模型与ResNet50基础网络分别融合4种不同注意力机制SENet,SKNet22,CBAM23和ECANet24的分类性能进行对比。其中,SENet考虑特征通道之间的关系,通过网络学习的方式自动获取每个特征通道的重要程度,并且利用得到的重要程度来提升有效特征并抑制对当前任务不重要的特征。SKNet则是从多尺度特征表征的角度考虑,通过引入多个卷积核分支来学习不同尺度下的特征图注意力,允许网络根据输入信息的多个尺度自适应地调整感受野的大小,让网络能够更加侧重于重要的尺度特征。CBAM结合了特征通道和特征空间两个维度,通过获取每个特征通道和每个特征空间的重要程度,从而来强化重要的特征抑制非重要的特征。ECANet利用一维的稀疏卷积操作使得当前通道只与它的k个领域通道进行信息交互,优化SE模块中涉及到的全连接层操作来大幅降低参数量并保持相当的性能。所有模型的评价指标值如表3所示,模型的各项评价指标值对比结果如图12所示,可以看出,在ResNet50中引入SE模块、SK模块、CBAM模块或ECA模块均可有效提高模型性能,但REC-ResNet对分类效果的提升更为显著,在准确率上比其他4种网络分别提高了2.64%,2%,2.33%和1.75%,这是因为该模型不仅实现了对不同层次特征分别进行空间和通道维度的关注,并对其进行有效融合以实现跨层特征增强,且采用Transformer模块的自注意力机制来捕获长距离的特征依赖性,有效地弥补了CNN提取全局信息能力较弱的不足。

    • Table 3. Comparison of classification performance of ResNet50 model combining different attention mechanisms

      Table 3. Comparison of classification performance of ResNet50 model combining different attention mechanisms

      ModelAccPreRecF1 ScoreSpe
      SEResNet5094.9294.9894.9294.9594.81
      SKResNet5095.5895.6095.5895.5995.51
      ResNet50_CBAM95.2595.2895.2595.2695.18
      ResNet50_ECA95.8395.8995.8395.8695.64
      REC-ResNet97.5897.6097.5897.5997.46

    Comparison of evaluation index values of ResNet50 classification model combining different attention mechanisms

    Figure 12.Comparison of evaluation index values of ResNet50 classification model combining different attention mechanisms

    融合不同注意力机制的ResNet50模型分类结果的混淆矩阵如图13所示,SEResNet50,SKResNet50,ResNet50_CBAM,ResNet50_ECA均可有效识别三种类别的CXR图像,且对病毒性肺炎的识别精度是最优的,REC-ResNet模型较其他模型对三类样本的识别效果更显著,只有极少量样本被错误预测为其他类别,进一步验证了本文模型的有效性。

    Confusion matrix of classification results of ResNet50 model combining different attention mechanisms

    Figure 13.Confusion matrix of classification results of ResNet50 model combining different attention mechanisms

    图14所示为融合不同注意力机制的ResNet50模型的ROC曲线,从中可以看出,相比于其他模型,REC-ResNet模型的ROC曲线更接近左上角,表明该模型能够关注到更多与疾病相关的信息,相对SEResNet50,SKResNet50,ResNet50_CBAM和ResNet50_ECA能够提取更多有用的特征,因此能够更好地实现CXR图像的准确分类。

    ROC curve of ResNet50 model combining different attention mechanisms

    Figure 14.ROC curve of ResNet50 model combining different attention mechanisms

    3.4.3 消融实验

    为了验证REC-ResNet模型中的各个模块的有效性,在相同数据集上进行了消融实验,实验结果如表4所示,消融实验各项评价指标值对比结果如图15所示,随着各个模块的加入,模型的准确率逐渐提升,其中,Network_1比Network_0的分类准确率提高0.67%,表明在ResNet50基础上添加残差自适应特征融合模块能够更好的融合不同Stage内部的分层特征,充分利用各个残差块的特征从而提高分类性能。Network_2比Network_1的Acc,Pre,Rec,F1 Score和Spe分别提高了2.33%,2.19%,2.33%,2.24%和2.34%,充分体现了高效特征增强Transformer模块在提高模型表达能力方面具有很大的优势,该模块的加入使得模型分类效果得到显著提升。在Network_2的基础上添加跨层注意力增强模块之后,Network_3即本文所提模型的分类性能得到了进一步的提高,表明该模块通过高效融合深层特征的高级语义信息和浅层特征丰富的空间细节,提高了模型对病变的特征提取能力,从而提取到更多有用的特征实现准确分类。

    • Table 4. Results of ablation experiment(%)

      Table 4. Results of ablation experiment(%)

      ModelAccPreRecF1 ScoreSpe
      Network_093.7593.8693.7593.8093.61
      Network_194.4294.5794.4294.4994.33
      Network_296.7596.7696.7596.7396.67
      Network_397.5897.6097.5897.5997.46

    Comparison of evaluation index values of ablation experiment

    Figure 15.Comparison of evaluation index values of ablation experiment

    消融实验各模型的混淆矩阵如图16所示,通过对比4个混淆矩阵,进一步验证了每个模块对三类样本的CXR图像进行识别的有效性。与Network_0相比,Network_1对病毒性肺炎的识别能力有所提升,Network_2相比于Network_1对COVID-19和病毒性肺炎的识别效果有略微提升,但是对正常肺部的识别效果有显著提升,Network_3不仅对三类样本的预测结果都最优,而且比较均衡,表明REC-ResNet模型在有效特征提取方面优于只添加部分模块的性能。

    Confusion matrix of ablation experiment classification results

    Figure 16.Confusion matrix of ablation experiment classification results

    消融实验各模型的ROC曲线如图17所示,随着各个模块的加入,模型的AUC值逐渐增加,ROC曲线越来越接近左上角,分类效果越来越好,进一步验证了每个模块的有效性,也表明本文模型具有最优的综合性能。

    ROC curve of all models in ablation experiment

    Figure 17.ROC curve of all models in ablation experiment

    3.5 模型可视化分析

    为了增强特征的直观性和REC-ResNet模型的可解释性,便于帮助临床医生分析和诊断COVID-19,本文采用梯度加权类激活映射(Gradient-weighted Class Activation Mapping, Grad-CAM)25可视化技术来突出模型对CXR进行分类时所关注的重点特征区域,通过生成由Grad-CAM聚焦的定位图来实现可解释的诊断。图18为三种类别的原始CXR图像以及使用Grad-CAM方法显示出的REC-ResNet模型进行特征提取的关键区域的相应热力图,高亮区域显示了模型用于识别该类别的判别区域,红色、黄色和蓝色区域分别表示模型预测时关注度最高、较高和较低的区域,从图中可以看出,COVID-19具有更明显的特征,因此图像中的光亮区域范围更大,相比之下病毒性肺炎图像的肺部区域只产生局部光亮,而正常患者肺部区域没有病变特征,因此图像中没有明显的光亮区域。

    Three types of chest X-Ray images and corresponding heat maps

    Figure 18.Three types of chest X-Ray images and corresponding heat maps

    4 结 论

    为解决由于CXR图像的差异性和COVID-19感染的特异性,导致模型难以充分提取有效特征进行分类的问题,本文提出一种COVID-19辅助诊断模型REC-ResNet,在ResNet50主干上引入三种特征增强策略,用来提高模型的特征提取能力。首先采用残差自适应特征融合模块有效地融合模型每个Stage中来自不同残差块的特征信息,提高对病变区域的特征提取能力。然后在主干中引入高效特征增强Transformer模块,采用特征增强多头自注意力提取CXR图像中的全局特征,弥补CNN捕捉图像全局信息能力有限的不足,以增强模型的表达能力。其次为了获得更丰富的上下文信息,提出跨层注意力增强模块,分别采用通道注意力和空间注意力对深层阶段的高级语义信息和浅层阶段的低级空间细节进行增强,并在充分考虑长距离特征依赖的情况下融合不同层次的特征以实现跨层特征增强,进一步提高模型的分类准确率。在COVID-19 CXR图像数据集上的实验结果表明,本文模型的分类效果优于先进的CNN分类模型,与ResNet50模型相比,在Acc,Pre,Rec,F1 Score与Spe指标上分别提高了3.83%,3.74%,3.83%,3.79%和3.85%,能够有效地提升CXR图像的分类准确率。本文方法通过结合深度学习与医学影像,促进了COVID-19和其他肺部疾病实时诊断的发展,有助于早期筛查COVID-19病例,从而挽救宝贵的生命,并减轻医疗系统的负担。

    [1] MM MONSHI, J POON, V CHUNG et al. CovidXrayNet: Optimizing data augmentation and CNN hyperparameters for improved COVID-19 detection from CXR. Computers in Biology and Medicine, 133, 104375(2021).

    [2] AS ASHOUR, MM EISSA, MA WAHBA et al. Ensemble-based bag of features for automated classification of normal and COVID-19 CXR images. Biomedical Signal Processing and Control, 68, 102656(2021).

    [3] AS ASHOUR, MM EISSA, MA WAHBA et al. Covid-MANet: multi-task attention network for explainable diagnosis and severity assessment of COVID-19 from CXR images. Pattern Recognition, 131, 108826(2022).

    [4] [4] 4周涛, 刘赟璨, 陆惠玲, 等. ResNet及其在医学图像处理领域的应用: 研究进展与挑战[J]. 电子与信息学报, 2022, 44(1): 149-167. doi: 10.11999/JEIT210914ZHOUT, LIUY C, LUH L, et al. ResNet and its application to medical image processing: research progress and challenges[J]. Journal of Electronics & Information Technology, 2022, 44(1): 149-167.(in Chinese). doi: 10.11999/JEIT210914

    [5] S SHOWKAT, S QURESHI. Efficacy of Transfer Learning-based ResNet models in Chest X-ray image classification for detecting COVID-19 Pneumonia. Chemometrics and Intelligent Laboratory Systems, 224, 104534(2022).

    [6] SK GHOSH, A GHOSH. ENResNet: a novel residual neural network for chest X-ray enhancement based COVID-19 detection. Biomedical Signal Processing and Control, 72, 103286(2022).

    [7] A KELES, M B KELES, A KELES. COV19-CNNet and COV19-ResNet: diagnostic inference engines for early detection of COVID-19. Cognitive Computation, 1-11(2021).

    [8] C OUCHICHA, O AMMOR, M MEKNASSI. CVDNet: a novel deep learning architecture for detection of coronavirus (Covid-19) from chest X-ray images. Chaos, 140, 110245(2020).

    [9] S RAJPAL, N LAKHYANI, AK SINGH et al. Using handpicked features in conjunction with ResNet-50 for improved detection of COVID-19 from chest X-ray images. Chaos, 145, 110749(2021).

    [10] G CELIK. Detection of Covid-19 and other pneumonia cases from CT and X-ray chest images using deep learning based on feature reuse residual block and depthwise dilated convolutions neural network. Applied Soft Computing, 133, 109906(2023).

    [12] J HU, L SHEN, S ALBANIE et al. Squeeze-and-excitation networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42, 2011-2023(2020).

    [14] F L XU, G ZHANG, C SONG et al. Multiscale and cross-level attention learning for hyperspectral image classification. IEEE Transactions on Geoscience and Remote Sensing, 61, 1-15(2023).

    [15] Y H JIN, L CAI, Z S CHENG et al. A rapid advice guideline for the diagnosis and treatment of 2019 novel coronavirus (2019-nCoV) infected pneumonia (standard version). Military Medical Research, 7, 4(2020).

    [16] A KRIZHEVSKY, I SUTSKEVER, G HINTON. ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 25, 25(2012).

    [18] C SZEGEDY, W LIU, Y Q JIA et al. Going Deeper with Convolutions, 1-9(7).

    [19] T ZHOU, X Y YE, H L LU et al. Dense convolutional network and its application in medical image analysis. BioMed Research International, 2384830(2022).

    [20] M SANDLER, A HOWARD, M L ZHU et al. MobileNetV2: Inverted Residuals and Linear Bottlenecks, 4510-4520(18).

    [21] C SZEGEDY, V VANHOUCKE, S IOFFE et al. Rethinking the Inception Architecture for Computer Vision, 2818-2826(27).

    [22] X LI, W H WANG, X L HU et al. Selective Kernel Networks, 510-519(15).

    [23] J PARK, J Y LEE et al. CBAM Convolutional Block Attention Module. Computer Vision - ECCV 2018, 3-19(2018).

    [24] Q L WANG, B G WU, P F ZHU et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks, 11531-11539(13).

    [25] R R SELVARAJU, M COGSWELL et al. Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization, 618-626(22).

    Tools

    Get Citation

    Copy Citation Text

    Tao ZHOU, Yuncan LIU, Senbao HOU, Xinyu YE, Huiling LU. REC-ResNet: Feature enhancement model for COVID-19 aided diagnosis[J]. Optics and Precision Engineering, 2023, 31(14): 2093

    Download Citation

    EndNote(RIS)BibTexPlain Text
    Save article for my favorites
    Paper Information

    Category: Information Sciences

    Received: Nov. 10, 2022

    Accepted: --

    Published Online: Aug. 2, 2023

    The Author Email: LIU Yuncan (lyc9619@163.com)

    DOI:10.37188/OPE.20233114.2093

    Topics