波谱学杂志, 2024, 41(1): 19-29 doi: 10.11938/cjmr20233064



徐真顺1, 袁小涵2, 黄子珩1, 邵成伟2, 武杰,1,#, 边云,2,*

1.健康科学与工程学院,上海理工大学,上海 200093

2.长海医院放射科,海军军医大学,上海 200434

Multi-source Feature Classification Model of Pancreatic Mucinous and Serous Cystic Neoplasms Based on Deep Learning

XU Zhenshun1, YUAN Xiaohan2, HUANG Ziheng1, SHAO Chengwei2, WU Jie,1,#, BIAN Yun,2,*

1. School of Health Science and Engineering, University of Shanghai for Science and Technology, Shanghai, 200093, China

2. Department of Radiology, Changhai Hospital, The Navy Military Medical University, Shanghai, 200434, China

通讯作者: # Tel: 021-55271116, E-mail:wujie3773@sina.com;*Tel: 021-31166666, E-mail:bianyun2012@foxmail.com.

收稿日期: 2023-04-19   网络出版日期: 2023-06-08

Corresponding authors: # Tel: 021-55271116, E-mail:wujie3773@sina.com;*Tel: 021-31166666, E-mail:bianyun2012@foxmail.com.

Received: 2023-04-19   Online: 2023-06-08


术前精准预测胰腺囊性肿瘤的类型,对制定个体化诊疗方案具有重要的临床价值.针对胰腺浆液性和黏液性囊性肿瘤的分类鉴别问题,本文探讨了基于深度学习的多源特征分类模型在胰腺囊性肿瘤的术前辅助诊断中的应用.首先,通过深度学习和影像组学技术从分割图像中提取深度学习特征和影像组学特征,并对病例的临床特征进行评估和量化,然后采用最小绝对收缩选择算子(LASSO)及交叉验证的方法筛选特征,随之构建出两个多源特征模型,即影像组学联合深度学习(RAD_DL)模型、临床特征联合RAD_DL(Clinical_RAD_DL)模型,把传统的影像组学(RAD)模型和深度学习(DL)模型作为对照,最后选用支持向量机(SVM)、自适应提升算法(ADAboost)、随机森林(Random Forest)以及逻辑回归(Logistic)进行分类.采用准确率、召回率、精确率、曲线下面积(AUC)值以及精确率和召回率的调和平均数(F1值)作为评价指标,比较上述4种不同特征模型的分类效能,用校准曲线和决策曲线来评估其临床应用价值.结果显示Clinical_RAD_DL特征模型的分类效能表现最佳,准确率是0.923 1,召回率是0.882 4,精确率是0.882 0,F1是0.882 2,AUC是0.912 6,校准曲线和决策曲线显示出Clinical_RAD_DL特征模型的临床应用价值是最高的.实验表明基于深度学习的多源特征分类模型,对胰腺黏液性和浆液性囊性肿瘤具有较好的分类效果,可以为临床上精准诊疗提供帮助.

关键词: 磁共振成像(MRI); 胰腺囊性肿瘤; 临床特征; 深度学习; 影像组学


This study aims to classify and differentiate mucinous and serous cystic neoplasms of the pancreas using a multi-source feature classification model based on deep learning for preoperative auxiliary diagnosis. Deep learning features and radiomics features were extracted from segmented images using deep learning and radiomics technology, respectively. Clinical features were also evaluated and quantified. LASSO (least absolute shrinkage and selection operator) and cross-validation methods were applied to screen the features, and two multi-source feature models were constructed: the radiomics combined with deep learning (RAD_DL) model and the clinical feature combined with RAD_DL (Clinical_RAD_DL) model. Traditional radiomics (RAD) and deep learning (DL) models were used as controls. SVM (support vector machine), ADAboost (adaptive boosting), Random Forest, and Logistic were selected for classification. The Clinical_RAD_DL feature model shows the best classification performance, with the accuracy of 0.923 1, recall rate of 0.882 4, precision of 0.882 0, F1-score of 0.882 2, and AUC value of 0.912 6. The experimental results indicate that the multi-source feature classification model based on deep learning has good performance in classifying pancreatic serous cystic neoplasms and pancreatic mucinous cystic neoplasms, and can assist clinical accurate diagnosis and treatment.

Keywords: magnetic resonance imaging (MRI); pancreatic cystic neoplasms; clinical features; deep learning; radiomics

近年来,基于深度学习和影像组学的方法是研究PCN良恶性的热点[4].最近的研究发现,深度学习和影像组学对胰腺肿瘤的个体化评估有很大贡献,如肿瘤检测、分类以及良恶性判别等[5-10].Zhang等[11]开发并验证了基于卷积神经网络(CNN)的迁移学习模型,该模型使用两个独立的可切除胰腺导管腺癌(PDAC)队列来预测PDAC患者的总体生存.Nguon等[9]使用残差网络(ResNet50)实现了一个区分MCN和SCN的CNN模型.当训练选定的层时,使用预训练的迁移学习模型进行微调训练.该网络模型的准确率为0.827 5,曲线下面积(AUC)得分为0.88.尽管这些发现证实了深度学习和影像组学用于评估PCN的可行性[7,12],但由于大多数研究中包含的数据集较少,且研究的方法较为单一,使得影像组学模型的适用性可能受到限制.因此,胰腺囊性病变需要积累更多的研究数据.


1 实验部分

1.1 一般资料


1.2 MRI扫描

所有患者均使用3.0 T系统(Signa Excite 3.0T, GE Healthcare, Milwaukee, USA)进行MRI检查.所有患者仰卧位,相控阵接收器线圈覆盖上腹部,屏气单次快速自旋回波轴位T2加权序列(TR/TE = 6 316/87 ms;视野= 360 × 420 mm2;矩阵= 224 × 270;层厚= 5 mm;层间距= 1 mm).


1.3 基于深度学习的多源特征分类方法

在MCN和SCN的分类模型当中,使用深度学习特征联合影像组学特征集构建RAD_DL多源特征模型,使用添加了临床特征的RAD_DL特征集构建Clinical_RAD_DL多源特征模型.为了探究多源特征分类模型的效能,还使用深度学习特征和传统影像组学特征构建DL特征模型和RAD特征模型.此外,还分别使用SVM、ADAboost、Random Forest和Logistic分类器来训练4种特征模型,使用准确度、召回率、精确率、AUC和F1值等指标评估4种特征模型的分类效能.本研究的流程图如图1所示.


图1   基于深度学习的多源特征模型建模流程

Fig. 1   Experimental workflow of multi-source feature model based on deep learning

1.3.1 图像分割



图2   MCN和SCN的分割图像. (a)腹腔轴位T2WI显示MCN呈高信号,其边界规则;(b)腹腔轴位T2WI显示SCN呈高信号,其边界不规则

Fig. 2   Segmentation images of MCN and SCN. (a) Abdominal axial T2WI showed high MCN signal with regular boundary. (b) Abdominal axial T2WI showed high SCN signal with irregular boundary

1.3.2 深度学习特征及影像组学特征提取

本研究基于ResNet50网络来提取深度学习特征,采用python软件包TensorFlow(版本2.1.0)的keras(版本2.3.1)下的ResNet50构建CNN网络.ResNet50由残差模块(residual module)组成总共有50层,残差模块包括3个卷积层,其中包括标准的卷积层、批量归一化层和激活层,可以实现对输入特征映射的高速和高质量转换,通过避免较浅层特征的丢失,可以更好的提取图像对深层特征[13],其主要思想是通过残差连接来解决网络过深而出现的梯度消失问题[14].胰腺在图像中没有固定的形态,结构极为复杂,ResNet50网络因其深度、高度分层和卷积模块的设计,在提取PCN的深度学习特征时,有着明显的优势.ResNet50的网络结构如图2所示.在预训练中加入迁移学习,减少模型过拟合.对该网络随机初始化各层的参数,学习率为0.000 1,衰减率为0.000 1,批数据大小为20,动量为0.9,训练了1 000个循环.


图2   ResNet50提取深度学习特征过程,图中包含4个卷积块(Conv)、平均池化层(Av-pool)以及全连接层(fc)

Fig. 2   The process of ResNet50 extracting deep learning features, which includes four convolution blocks (Conv), average pooling layer (Av-pool) and fully connected layer (fc)

影像组学特征类型包括20个形状(Shape)特征、18个一阶(First order)特征、24个灰度共生矩阵(gray level co-occurrence matrix,GLCM)、14个灰度相关矩阵(gray level dependence matrix,GLDM)、16个灰度游程矩阵(gray level run length matrix,GLRLM)、16个灰度区域大小矩阵(gray level size zone matrix,GLSZM)和5个邻域灰度差矩阵(neighborhood gray tone difference matrix,NGTDM)共7类特征以及小波变换特征.使用3D-slicer软件中的pyradiomics插件对ROI提取影像组学特征,软件提取的特征包含113个原始图像纹理特征和744个小波变换特征共857个特征.

1.3.3 标准化及特征筛选



其中,n表示样本数,X表示样本目标向量,w表示L1正则化,y表示样本特征矩阵.(1)式右边的第1项是LASSO的均方误差(mean square error,MSE),第2项是添加了L1正则化的惩罚因子,通过调整λ值,控制L1正则化程度,使LASSO模型的MSE最小化以确定最佳的系数估计,保留对结果影响较大的特征,


1.3.4 基于深度学习的多源特征模型构建与评估

使用pycharm2018软件构建分类模型并对模型进行评估.将患者按照约7:3划分为训练集(n=120)和测试集(n=52),将筛选获得的数据集构建RAD、DL、RAD_DL以及Clinical_RAD_DL特征模型.使用SVM、ADAboost、Random Forest以及Logistic Regression分类器进行分类,采用网格搜索和控制变量结合的方法优化各分类器的参数,使用准确率(Accuracy)、召回率(Recall)、精确率(Precision)以及F1值来评价模型的分类效能,最后绘制受试者工作曲线(receiver operating characteristic,ROC)曲线,计算AUC值,利用Delong检验来分析不同模型的ROC曲线间的差异(p<0.05认为差异有统计学意义),最后建立校准曲线和决策曲线进一步评估模型的拟合效果和临床应用价值.






$\text { Precision }=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}$


$F 1=\frac{2 \times \text { Precision } \times \text { Recall }}{\text { Precision }+ \text { Recall }}$


单因素逻辑回归分析是用来衡量单个临床特征和分类变量之间的差异,多因素逻辑回归分析是用来衡量多个因素和分类变量之间的差异,评价临床特征的p值和比值比(odds ratio,OR值).当p值小于0.05,表示特征和变量之间有显著性差异;p值大于0.05,则表示特征和变量之间没有显著性差异,不具有统计学意义.当OR值大于1,表示特征和变量之间存在正相关性,该特征是危险因素;OR值等于1,表示特征和变量之间不相关;OR值小于1,表示特征和变量之间存在负相关性,该特征是安全因素.

2 结果与讨论

2.1 SCN和MCN分类结果

2.1.1 基于单(多)因素逻辑回归分析的临床特征筛选

对所有临床特征进行单因素逻辑回归分析以及多因素逻辑回归分析,临床特征对分类变量的相关性分析,单因素逻辑回归分析显示年龄特征(p>0.05)不具有统计学意义,肿瘤的体积大小(OR=1)不是PCN分类的危险因素,位置特征(p<0.05,OR=2.22,95%置信区间(95%CI)= [1.47,3.34])以及性别特征(p<0.05,OR=6.30,95%CI=[1.82,21.82])是PCN分类的危险因素,肿瘤位置特征OR值为2.22,即在胰头比在胰体上PCN分化成MCN的概率提升2.22倍,肿瘤位置在胰体比在胰尾上PCN分化成MCN的概率提升2.22倍,女性患有MCN是男性患有MCN的6.30倍.单因素逻辑回归分析的结果列于表1.

表1   MCN和SCN的临床特征单因素逻辑回归分析

Table 1  Single factor logistic regression analysis of clinical features of MCN and SCN


表2   MCN和SCN的临床特征多因素逻辑回归分析

Table 2  Multi-factor logistic regression analysis of clinical features of MCN and SCN


2.1.2 基于LASSO回归算法的深度学习特征和影像组学特征筛选



图3   (a)对影像组学特征做筛选得到的LASSO模型MSE图.通过调整λ值使MSE达到最小,以确定最佳λ值;(b)对影像组学特征进行筛选的最优特征系数收敛图;(c) LASSO筛选的影像组学特征权重图,Skewness.1表示偏度,Busyness.1表示复杂度,MCC.2表示形态学相关系数,DependenceVariance.2表示依赖性差异度,Idn.4表示逆差分矩,Correlattion.7表示相关性;(d)对深度学习特征做筛选得到的LASSO模型MSE图;(e)对深度学习特征进行筛选的最优特征系数收敛图;(f) LASSO筛选的深度学习特征权重图

Fig. 3   (a) Mean Square Error (MSE) graphs corresponding to different λ values of radiomics features. The MSE is minimized by adjusting the λ value to determine the optimal λ value; (b) Convergence diagram of the optimal characteristic coefficient of radiomics features; (c) Weight of radiomics features screened by LASSO, Skewness.1 represents skewness, Busyness.1 represents complexity, MCC.2 represents morphological correlation coefficient, DependencyVariance.2 represents dependency difference, Idn.4 represents inverse difference moment, and Correlation.7 represents correlation; (d) Mean square error (MSE) graphs corresponding to different λ values of deep learning features; (e) Convergence diagram of the optimal characteristic coefficient of deep learning features; (f) Weight of deep learning features screened by LASSO

2.1.3 多源特征模型的分类效能及评价

本文基于深度学习的方法构建了MCN和SCN的多源特征分类模型.为了发掘该多源特征模型的分类性能,建立了RAD、DL、RAD_DL、Clinical_RAD_DL特征模型,具体的各模型的效能详见表3. Clinical_RAD_DL特征模型在准确率(0.923 1)、精确率(0.882 0)、AUC(0.912 6)和F1(0.882 2)等多个指标上表现最好.Clinical_RAD_DL特征模型的准确率更高,说明该模型可以更好地对PCN患者进行分类;精确率更高,这代表着更少的误诊和漏诊;虽然Clinical_RAD_DL特征模型的召回率(0.882 4)并不是最高,但是从综合指标F1值来看,该模型有着最佳的综合性能;Clinical_RAD_DL特征模型的AUC值最高,能够反映该模型很好的分类能力.进一步表明,结合临床特征、影像组学特征以及深度学习特征的多源特征模型在分类MCN和SCN中具有优良的效能,且多源特征模型可进一步提高PCN良恶性的鉴别效能.图4(a)图4(b)图4(c)图4(d)分别是4种分类器在RAD、DL、RAD_DL以及Clinical_RAD_DL特征模型中的ROC曲线.

表3   特征模型在4种分类器中的效能

Table 3  Performance of the feature models in the four classifiers

Random Forest0.78850.67420.72220.76630.6974
Random Forest0.71150.76190.61540.84070.6809
Random Forest0.80770.63640.87500.80510.7369
Random Forest0.76920.70590.63160.75290.6667

图4   4个特征模型以及各分类器的ROC曲线.横坐标是假阳性率(fpr),纵坐标是真阳性率(tpr),4个分类器分别为SVM(支持向量机)、ADAboost(自适应提升算法)、Random Forest(随机森林)以及Logistic(逻辑回归).(a) RAD特征模型的ROC曲线;(b) DL特征模型的ROC曲线;(c) RAD_DL特征模型的ROC曲线;(d) Clinical_RAD_DL特征模型的ROC曲线

Fig. 4   ROC curve of four characteristic models. The abscissa is fpr (false positive rate) and the ordinate is tpr (true positive rate). The four classifiers are SVM, adaboost (ADAboost), randomforest (Random Forest) and logistic (Logistic). (a) ROC curve used by RAD feature model; (b) ROC curve of DL feature model; (c) ROC curve of RAD_DL feature model; (d) ROC curve of Clinical _RAD_DL feature model

本文基于深度学习构建的多源特征模型准确率最高可达0.923 1,AUC值达0.912 6,高于Liang等[16]将影像组学-DL评分和影像学特征纳入到融合的SCN鉴别诊断模型当中的准确率(0.856 0),以及Wang等[17]基于深度学习特征和影像组学特征构建的腋淋巴结(ALN)诊断模型中SVM分类器最高的AUC值(0.87). 主要的原因是,本研究结合了3种不同来源的PCN的特征,即临床特征、深度学习特征和影像组学特征,以此构建的多源特征模型有更丰富的特征信息,能够更全面的评估PCN;其次,本文对多个分类器都做了调参优化,并对多个分类器进行比较分析;最后,本文选取的深度学习特征提取网络是ResNet50网络,并在训练过程中加入迁移学习和残差模块,缓解深层网络出现的梯度消失问题,减小训练误差.


表4   比较Clinical_RAD_DL特征模型和不同模型效能差异的Delong检验的p值

Table 4  Perform a Delong test to compare the performance differences between the Clinical_RAD_DL feature model and other models and obtain the p-value


图5   校准曲线和决策曲线. (a) RAD、DL、RAD_DL和Clinical_RAD_DL特征模型的校准曲线. 横坐标表示PCN分类模型的预测概率(PCN-predicted Probability),纵坐标表示实际概率(Observed Probability);(b) RAD、DL、RAD_DL和Clinical_RAD_DL特征模型的决策曲线. 横坐标表示高风险阈值(High Risk Threshold),纵坐标表示模型的净收益(Net Benefit),All曲线表示全部预测成MCN的净收益,None曲线表示全部预测成SCN的净收益

Fig. 5   Calibration curves and decision curves. (a) Calibration curves of RAD, DL, RAD_DL, and Clinical-RAD_DL feature model. The abscissa represents the PCN-predicted probability of PCN classification model, and the ordinate represents the observed probability; (b) Decision curves used by RAD, DL, RAD_DL, and Clinical-RAD_DL feature model. The abscissa represents the high risk threshold, and the ordinate represents the net benefit of the model, the All curve represents the net benefit predicted as MCN, and the None curve represents the net benefit predicted as SCN


2.2 讨论




3 结论







