Magnetic Resonance Image Reconstruction of Multi-scale Residual Unet Fused with Attention Mechanism
This paper integrates the attention mechanism and multi-scale residual convolution to construct a Unet network, aiming at improving the quality of magnetic resonance image (MRI) reconstructed from under-sampled k-space data. To enhance the feature representation ability of the network and prevent gradient disappearance and degradation during network training, multi-scale residual convolution was embedded in the encoding path of the Unet network to extract different scale feature information of MRI. Moreover, to accurately recover the detailed texture features of MRI, the convolution attention module was embedded in the jump connection part between the encoding and decoding path of the Unet network to respond to the key information, such as details and textures in different degrees. Experiments showed that the proposed network could effectively reconstruct high-quality MRIs with clear texture and without overlapping artifacts from the under-sampled k-space data.
李奕洁, 杨馨雨, 杨晓梅.
Li Yijie, YANG Xinyu, YANG Xiaomei.
磁共振成像(magnetic resonance imaging,MRI)是一种广泛应用于临床的医学成像方式[1],但存在k-空间数据采集时间过长的缺陷.导致磁共振图像可能因患者的运动和生理运动(如心脏搏动、呼吸活动和胃肠道蠕动)而出现明显的伪影.
压缩感知(compressed sensing,CS)[2]-MRI技术能以低于奈奎斯特采样率的频率对k-空间数据进行欠采样,从而加快成像速度.针对CS-MRI的图像重建方法利用了磁共振图像的稀疏性构建重建模型,通过非线性优化或迭代算法实现图像的重建[3].常用的稀疏变换有全变分(total variation,TV)[4,5]、离散余弦变换[6]、小波变换[7⇓-9]和字典学习[10,11]等.此外,也有学者们融合磁共振图像的稀疏性和低秩性构建CS-MRI重建模型[12,13].但由于一般的稀疏或低秩变换难以精确捕捉组织器官的复杂细节纹理,且非线性优化求解通常涉及多次迭代计算,导致重建时间相对较长,而且不适当的超参数设置将产生过度平滑或不自然的重建图像,因而获得较为满意的CS-MRI重建图像还存在一定困难.
随着深度学习的高速发展,许多基于深度学习的算法已经广泛应用于基于CS-MRI的图像重建中[14⇓-16].目前,深度学习框架下的磁共振图像重建大致采用“端到端映射”(end-to-end mapping)和“基于模型展开”(model-based unrolling)两类方法.“端到端映射”方法直接借助各种不同的深度网络(如结构简单的全卷积神经网络Unet[17]、多尺度残差网络[18]、生成对抗网络[19]等),利用海量数据离线学习“含伪影噪声的欠采样图像”和“参考图像”之间、“欠采样k-空间数据”和“全采样k-空间数据”之间的非线性映射关系,得到参数优化的重建网络.“基于模型展开”的方法则将基于CS-MRI模型的迭代求解展开为深度神经网络计算,如ADMM-Net[20]、ISTA-Net[21]和IFR-Net[22]等,每一个迭代步骤对应于一个神经网络模块,迭代次数对应于网络层数,模型的正则化参数和各种稀疏变换等超参数则成为网络的参数,使得深度网络具有可解释性.这些开创性的工作显示了深度学习在基于CS-MRI的图像重建方面的巨大潜力.
鉴于Unet网络具有使用小样本数据集也能够取得很好的网络模型训练效果的优势,本文以Unet网络为框架,并做出如下改进:(1)将多尺度残差模块(multi-scale residual convolution module,MRCM)引入Unet网络的编码结构中,这样能够更加充分地提取图像的特征信息,并且有利于网络训练时梯度的反向传播;(2)在网络的跳层拼接部分使用卷积块注意模块(convolutional block attention module,CBAM),增强模型对细节纹理的关注并且抑制伪影噪声,提出了一种基于注意力机制的多尺度残差U型网络模型(attention multi-scale residual Unet,AttMRes-Unet).本文提出的网络模型很好地恢复了图像细节,减少了重建图像中的混叠伪影,提高了重建图像的质量.
1 理论部分
1.1 基于CS-MRI的图像重建模型
其中$y\in {{C}^{m}}$,为欠采样后的k-空间数据;$x\in {{R}^{n}}$$(m\le n)$,为待恢复的磁共振图像;${{F}_{\Omega }}\in {{C}^{m\times n}}$,代表傅里叶欠采样算子;ε代表噪声.C为复数域,R为实数域,m与n代表不同的维度.
其中,$\varphi (x)$为图像的稀疏性或低秩性表示函数,可利用TV、小波变换或奇异值分解加以实现;${{\lambda }_{1}}$为拉格朗日系数,权衡保真项$\frac{1}{2}\left\| y-{{F}_{\Omega }}x \right\|_{2}^{2}$和稀疏(或低秩)信息间的权重.
1.2 基于Unet网络的MRI重建
1.3 基于注意力机制的多尺度残差Unet网络
Fig. 2
Reconstruction model based on AttMRes-Unet network
1.3.1 MRCM
MRCM的结构如图3所示.对于当前模块的输入x,在多尺度卷积分块中,首先通过步长为1,无填充的1×1卷积,然后再通过包含3×3与5×5的两个卷积分支的运算提取出不同感受野的特征,得到尺寸大小相同的特征图.其中,使用3×3卷积学习相应的细节纹理信息,卷积核的步长为1,填充为1;而具有5×5大小感受野的卷积核更适合提取结构特征信息,其步长为1,填充为2.填充方式均选择零填充.为有效地利用不同尺度的特征信息,执行特征通道上的拼接,经批标准化(batch normalization,BN)运算后得到特征输出$F(x)$.在实际的临床应用中,不同人体组织对应的磁共振图像包含的重要特征部分尺寸大小不同,与单尺度的卷积相比,多尺度卷积在不增加网络深度和不占用大量计算资源的同时使用不同尺寸的卷积核提取不同尺度的特征,兼顾了细节与结构特征的提取与学习,更利于图像的重建.
1.3.2 CBAM
其中H为输入特征,${{M}_{\text{c}}}$为通道模块权重,${{H}^{\prime }}$为H与${{M}_{\text{c}}}$加权后所得的特征图,${{M}_{\text{s}}}$为空间模块权重,O为输出特征,$\otimes $表示对应元素依次相乘.
通道注意力机制对特征图的每个通道的重要性进行判断,并对其进行权重分配,权重越大表示该通道的特征越重要,其结构如图5所示.图中,⊕表示按位相加.通道注意力分别通过全局最大池化与全局平均池化对输入特征H的空间维度进行压缩,然后通过具有一层隐藏层的多层感知器(multilayer perceptron,MLP)进行映射,最后再经过Sigmoid函数得到相应的通道权重,表达式为:
空间注意力机制对特征图中值得注意的位置信息进行关注.如图6所示,空间注意力对输入特征${{H}^{\prime }}$先后执行全局平均池化与全局最大池化,然后对通道拼接后的特征图进行7×7的卷积,最后经过Sigmoid函数激活获得归一化的空间权重${{M}_{\text{s}}}$,表达式为:
其中,$\text{concat}(\cdot )$为通道拼接,${{\operatorname{conv}}^{7\times 7}}(\cdot )$为7×7卷积.
1.3.3 损失函数
本文使用平均绝对值误差(mean absolute error,MAE)作为损失函数,公式如式(8)所示:
3 实验部分
3.1 数据集
本文使用公开的fastMRI数据集[30] 的单线圈采集的人体膝盖的k-空间数据与对应的全采样图像进行实验.该数据集包含了973个卷作为训练集(共41 877个切片),199个卷作为验证集(共7 135个切片).该数据集原始k-空间数据序列大小为640×372,考虑到实际应用中,笛卡尔采样所需硬件条件较低,采样轨迹容易实现且快速灵活[32],因此本文使用笛卡尔采样(图7),在一定的加速因子下完成k-空间数据的欠采样.加速因子与欠采样率成反比,如当加速因子为4时,欠采样率为1/4=25%.将欠采样的k-空间数据进行零填充并执行傅里叶反变换得到磁共振图像,并以中心裁剪的方式获得统一的320×320像素图像作为网络输入,进行图像重建.
3.2 实验参数设置
本文实验的硬件配置使用NVIDIA GeForce RTX 3060 GPU(12 GB显存)的Windows操作系统,编程语言为Python,所有实验均在Tensorflow框架的keras平台环境下进行.网络选择Adam优化器更新网络参数,其指数衰减率参数默认为β1=0.9与β2=0.999,设置初始学习率为0.001,网络迭代次数为100.
3.3 评价指标
为了定量评价算法的重建效果,本文采用峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似性(structure similarity index measurement,SSIM)作为评价指标.其中,PSNR反映重建图像与全采样图像的一致性,SSIM用于评价重建图像与全采样图像之间的相似程度,计算方式如(9)式和(10)式所示:
其中,x代表全采样图像,$\hat{x}$代表重建图像,$\max (x)$代表图像的最大像素值,μ代表图像像素的均值,σ代表图像的像素方差,cov代表两图像素协方差,${{c}_{i}}$为常数,${{c}_{1}}={{({{k}_{1}}L)}^{2}}$,${{c}_{2}}={{({{k}_{2}}L)}^{2}}$,${{c}_{3}}={{c}_{2}}/2$,根据经验常取${{k}_{1}}=0.01$,${{k}_{2}}=0.03$,L为图像像素值的动态范围.
4 结果与讨论
4.1 网络模型对比
Fig. 8
Convergence curves of each network on the training set when the acceleration factor is 4
当加速因子为2、3、4时,5种网络在验证集上的平均PSNR和SSIM如表1所列.各个模型的网络参数量、训练时间与单个切片的重建时间如表2所示.KIKI-net参数量最大,重建的各项指标均为最低,其原因在于过多的级联导致了网络的过拟合.PD-net的参数量远少于AttMRes-Unet网络,但PD-net需要在k-空间与图像域中交替更新,导致网络训练的时间最长,重建时间超过AttMRes-Unet的23倍.Cascade-net参数量较小,训练时间和重建时间较少,重建质量略优于KIKI-net,但仍低于PD-net、DC-WCNN与AttMRes-Unet. DC-WCNN的网络参数量、训练时间与重建时间均高于AttMRes-Unet,而图像的重建质量均略低于AttMRes-Unet网络.总的来说,AttMRes-Unet在重建质量(在不同加速因子下重建得到的图像都具有更高的PSNR与SSIM)、训练时间与重建时间上相较于其他四个网络具有明显的优势,体现了良好的应用性能.选取不同样本的两张膝盖全采样图像作为参考图像,5种网络模型在加速因子为4下得到的重建图像与相应误差图像如图9所示,加速因子为2、3下得到的重建图像与相应误差图像如图S3和S4所示.相比于其他模型,AttMRes-Unet网络的重建图像细节纹理特征最为清晰,对应差值图像像素分布均匀,轮廓最模糊.
表1 5种网络模型重建图像的平均性能
Table 1
网络模型 | PSNR | SSIM | |||||
×2 | ×3 | ×4 | ×2 | ×3 | ×4 | ||
PD-net | 32.5438±1.0981 | 30.9821±1.1230 | 30.6958±1.0923 | 0.7736±0.0812 | 0.6802±0.0800 | 0.6345±0.0813 | |
Cascade-net | 31.5583±1.1120 | 30.1253±1.096 | 29.8148±1.0220 | 0.7651±0.0795 | 0.6752±0.0820 | 0.6340±0.0760 | |
KIKI-net | 30.7728±1.4592 | 28.6321±1.3201 | 29.7129±1.5329 | 0.7532±0.0821 | 0.6457±0.0832 | 0.6274±0.0846 | |
DC-WCNN | 32.8576±1.0786 | 30.9972±1.2356 | 30.7214±1.0643 | 0.7821±0.0831 | 0.6853±0.0801 | 0.6399±0.0842 | |
AttMRes-Unet | 33.2185±1.2759 | 31.7255±1.1794 | 30.9175±1.2376 | 0.7862±0.0862 | 0.6972±0.0859 | 0.6497±0.0865 |
表2 5种网络模型的网络参数、训练时间与重建时间对比
Table 2
网络模型 | 参数量 | 训练时间/s | 重建时间/ms |
PD-net | 318280 | 9024 | 487.5 |
Cascade-net | 424570 | 3597 | 70.1 |
KIKI-net | 890504 | 6302 | 186.8 |
DC-WCNN | 534080 | 4809 | 32.9 |
AttMRes-Unet | 404714 | 2301 | 21.1 |
Fig. 9
Reconstruction results of different networks in comparative experiments when the acceleration factor is 4
4.2 消融实验
Fig. 10
Convergence curves of ablation experiments when the acceleration factor is 4
表3 消融实验网络模型的平均性能
Table 3
网络模型 | PSNR | SSIM | |||||
×2 | ×3 | ×4 | ×2 | ×3 | ×4 | ||
Unet | 32.5193±1.0901 | 31.3347±1.0899 | 30.8267±1.0921 | 0.7771±0.0761 | 0.6829±0.0770 | 0.6475±0.0769 | |
Att-Unet | 32.9367±1.1096 | 31.5930±1.2019 | 30.9052±1.1099 | 0.7777±0.0799 | 0.6887±0.0811 | 0.6485±0.0787 | |
MRes-Unet | 33.0847±0.9998 | 31.6665±1.0621 | 30.9085±1.2260 | 0.7849±0.0814 | 0.6959±0.0816 | 0.6445±0.0813 | |
SAMRes-Unet | 33.1018±1.3921 | 31.6770±1.2998 | 30.9095±1.2975 | 0.7852±0.0824 | 0.6953±0.0827 | 0.6466±0.0825 | |
CAMRes-Unet | 33.1115±1.3001 | 31.6801±1.2645 | 30.9106±1.2301 | 0.7856±0.0831 | 0.6960±0.0829 | 0.6476±0.0833 | |
AttMRes-Unet | 33.2185±1.2759 | 31.7255±1.1794 | 30.9175±1.2376 | 0.7862±0.0862 | 0.6972±0.0859 | 0.6497±0.0865 |
Fig. 11
Reconstruction results of different networks in ablation experiments when the acceleration factor is 4
表4 消融实验网络模型的参数量、训练时间与重建时间
Table 4
网络模型 | 参数量 | 训练时间/s | 重建时间/ms |
Unet | 485065 | 2498 | 19.4 |
Att-Unet | 490730 | 2506 | 20.6 |
MRes-Unet | 399049 | 2240 | 19.9 |
SAMRes-Unet | 399058 | 2253 | 20.1 |
CAMRes-Unet | 404705 | 2289 | 20.2 |
AttMRes-Unet | 404714 | 2301 | 21.1 |
5 结论
〈 | 〉 |