波谱学杂志, 2022, 39(1): 43-55 doi: 10.11938/cjmr20212908

研究论文

基于影像组学的直肠癌术前T分期预测

王楠1, 王远军,1, 廉朋,2

1. 上海理工大学 医学影像工程研究所, 上海 200093

2. 复旦大学附属肿瘤医院 大肠外科, 复旦大学上海医学院 肿瘤学系, 上海 200032

Prediction of Preoperative T Staging of Rectal Cancer Based on Radiomics

WANG Nan1, WANG Yuan-jun,1, LIAN Peng,2

1. Institute of Medical Imaging Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China

2. Department of Colorectal Surgery, Fudan University Shanghai Cancer Center; Department of Oncology, Shanghai Medical College, Fudan University, Shanghai 200032, China

通讯作者: 王远军, Tel: 021-55271116, E-mail:yjusst@126.com廉朋, Tel: 13818168925, E-mail:lianpeng_crcc@163.com

收稿日期: 2021-04-15  

Received: 2021-04-15  

摘要

直肠癌T分期对患者的术前评估有重要作用.然而,传统的放射科医生根据患者磁共振图像直接判断分期的方法效果欠佳.本文提出使用影像组学的方法预测直肠癌T分期,首先获取105例直肠癌患者影像数据,根据病理报告中的T分期结果将T1、T2期患者划分为未突破肌层组,将T3、T4期患者分为突破肌层组,整理数据得到未突破肌层组31例,突破肌层组74例.在患者的轴向位T2WI图像中勾画病灶区域,并在病灶上使用pyradiomics工具包提取影像组学特征,使用最小绝对值收敛和选择算子(LASSO)对高维特征做特征选择,得到与T分期高度相关的特征数据,使用随机森林、支持向量机(SVM)、逻辑回归、梯度提升树(GBDT)分别建模,进行交叉验证调参,评估模型性能.每层图像提取100维特征,经LASSO特征选择后得到7个与T分期高度相关的特征,使用4种模型分别建模,其中SVM算法表现最优,平均受试者操作特征曲线下面积(AUC)、准确率、灵敏度、特异度分别为0.968 5、0.886 4、0.962 5、0.899 2,测试集准确率达到了0.904 7.结果表明,使用影像组学方法可以提高直肠癌T分期预测的准确率.

关键词: 磁共振成像 ; 直肠癌分期 ; 机器学习 ; 支持向量机(SVM)

Abstract

T staging plays an important role in the preoperative evaluation of rectal cancer. However, the traditional stage judging method directly based on the patients' MRI images is not effective. In this paper, we proposed to predict the T-stage of rectal cancer by using radiomics. First, the imaging data of 105 patients with rectal cancer were obtained, the patients in T1 and T2 stages were classified as non-breakthrough muscular layer group (31 cases), and the patients in T3 and T4 stages were classified as breakthrough muscular layer group (74 cases). In the axial T2WI image of patients, the region of interest (ROI) was segmented, and the radiomics features were extracted using the pyradiomics toolkit. The high-dimensional features were selected using least absolute shrinkage and selection operator (LASSO), and the feature data highly related to T stage were obtained. Four machine learning methods including logistic regression, support vector machine (SVM), gradient boosting decision tree (GBDT) and random forest were used in modeling respectively. Cross validation was performed to evaluate the performance of each model. 100 dimensional features were extracted from each image layer, and 7 features highly related to T stage were obtained after lasso feature selection. Among the four machine learning methods, SVM performed best. The average area under curve (AUC), accuracy, sensitivity and specificity of SVM method were 0.968 5, 0.886 4, 0.962 5 and 0.899 2 respectively, and the accuracy of verification set reached about 0.904 7. The result proved that radiomics can greatly improve the accuracy of T-stage prediction of rectal cancer.

Keywords: magnetic resonance imaging ; rectal cancer staging ; machine learning ; support vector machine (SVM)

PDF (1013KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

王楠, 王远军, 廉朋. 基于影像组学的直肠癌术前T分期预测. 波谱学杂志[J], 2022, 39(1): 43-55 doi:10.11938/cjmr20212908

WANG Nan. Prediction of Preoperative T Staging of Rectal Cancer Based on Radiomics. Chinese Journal of Magnetic Resonance[J], 2022, 39(1): 43-55 doi:10.11938/cjmr20212908

引言

结直肠癌是消化道最常见的肿瘤之一,其在全球的发病率高居所有肿瘤的第三位,而且发病率与死亡率在发达国家与经济转型国家存在较大差异.随着我国经济的不断发展,人们的物质生活水平不断提高,烟酒和脂肪摄入量的急剧增加导致了我国结直肠癌的发病率及死亡率持续上升[1-5].

直肠癌发病率约占全部结直肠癌的30%,其早期诊断对于患者治疗方案的制定极其重要.根据美国国家综合癌症网络(National Comprehensive Cancer Network,NCCN)直肠癌临床实践指南[6],早期(T1~T2N0)直肠癌患者可以直接进行手术切除肿瘤;局部进展期(T3~T4)及伴有区域淋巴结转移的T1、T2期(T1~T2N+)直肠癌患者则需要在手术前进行新辅助放化疗,降低分期后再进行手术,从而达到提高肿瘤的可切除性、改善患者生存质量、降低术后局部复发率的目的.因此,准确的早期诊断与临床决策可以为患者提供精准的个性化治疗方案,显著降低直肠癌死亡率.在直肠癌的临床诊断中,磁共振成像(Magnetic Resonance Imaging,MRI)具有不可替代的优势,可完成多角度、多参数和多序列的成像,软组织的分辨率高,可对直肠壁的结构、肠壁浸润深度进行显示.

传统的影像科医生主观评估磁共振图像方法缺乏量化的标准,且时间消耗大,随着直肠癌发病率的不断升高,医生的工作量也不断增加,因此利用影像组学(Radiomics)技术来辅助临床诊断显得尤为重要.影像组学由荷兰学者Lambin等[7]在2012年提出,是一种新型的通过分析影像数据获得影像信息的方法.它首先进行病灶分割,然后从影像资料中高通量获取影像信息,再对提取得到的信息进行特征提取与筛选,并建立模型,这样可以有效解决肿瘤内部由于异质性导致的难以定量评估的问题.凭借对海量影像数据信息进行更深层次的挖掘来帮助医生作出更准确的诊断,具有重要的临床意义.影像组学常见的建模方法可分为两类:一种是手工设计特征的传统机器学习方法,包括支持向量机(Support Vector Machine,SVM,也称为支持向量网络)、逻辑回归(Logistic Regression)、随机森林(Random Forest)等算法;另一种是自动提取影像特征的深度学习方法,如卷积神经网络(Convolutional Neural Networks,CNN),需要较大的训练集数据,否则容易过拟合.

目前,对于直肠癌T分期的研究普遍采用轴位高分辨率磁共振图像,但是对于有MRI禁忌症的患者,也可以使用电子计算机断层扫描(Computed Tomography,CT)增强扫描.徐从斌[8]选择了31例经手术验证为直肠癌患者的磁共振图像与CT图像数据,发现磁共振图像的确诊率优于CT图像.崔书发等[9]研究表明术前MRI评价直肠癌T分期的准确率高、一致性强、应用价值高;且身高体重指数(Body Mass Index,BMI)越小,术前MRI评价直肠癌T分期的准确率可能越高.Liang等[10]使用最小绝对值收敛和选择算子(Least Absolute Shrinkage and Selection Operator,LASSO)回归模型对494例直肠癌患者的CT增强图像应用影像组学方法分析,获得了良好的受试者操作特征曲线(Receiver Operating Characteristic curve,ROC),ROC曲线下面积(Area Under Curve,AUC)为0.792.Dou等[11]使用基于LASSO算法的逻辑回归对29例直肠癌患者的磁共振图像建模预测,十折交叉验证下的AUC均值为0.85.Kim等[12]使用卷积神经网络先进行了直肠癌肿瘤的自动分割,再使用一个新网络学习了肿瘤的位置信息,并进行肿瘤T2/T3期的分类.Xu等[13]使用了SVM算法对71例膀胱癌患者复发状况进行了影像组学分析,获得了88%的准确率和0.915的AUC.影像科医生通过磁共振图像主观评估T分期的准确率约为70%.基于影像组学的直肠癌T分期准确度虽然高于医生主观评估,但还有待提升.

本文的目的是通过影像组学方法对直肠癌患者的磁共振图像进行深度挖掘,精准预测直肠肿瘤的T分期.本文综合使用了随机森林(Random Forest)、SVM、逻辑回归(Logistic Regression)、梯度提升树(Gradient Boosting Decision Tree,GBDT)四种传统机器学习算法建模:通过对随机森林的子树数量,SVM的核函数以及函数的系数,逻辑回归的惩罚项及其系数,GBDT的迭代次数、学习率、随机程度等进行详细优化,实现了较高的直肠癌T分期准确率预测.上述分类算法皆属于传统机器学习方法,与深度学习的方法相比,在小样本的数据集上拟合效果更好,资源消耗低、计算效率高.

1 实验数据与方法

影像组学流程如图 1所示,包含了影像数据获取、病灶分割、影像组学特征提取、特征选择和数据建模五个阶段.

图1

图1   影像组学流程

Fig.1   Flow chart of radiomics research


1.1 影像数据获取

从2016年9月至2019年1月复旦大学附属肿瘤医院的影像归档和通信系统(Picture Archiving and Communication Systems,PACS)中将原始的DICOM格式影像数据下载到本地,每个患者的影像数据分别存在单独文件夹中.共纳入105例直肠癌患者,包含75例男性和30例女性,年龄为33~71岁,平均年龄为54.8岁.术后病理报告显示T1、T2期患者31例(未突破肌层组),T3、T4期患者74例(突破肌层组).本文研究内容所用数据都得到患者事先同意.所有患者MRI检查前4 h禁食,使用开塞露清洁肠道.MRI扫描使用Siemens MAGNETOM Skyra 3T MRI系统和腹部相控阵线圈,均采用斜横断面高分辨T2WI序列,扫描平面垂直于病灶所在肠管的长轴.扫描参数如下:图像矩阵大小为320×320,视野(Field of Vision,FOV)为18 cm×18 cm,重复时间(Repetition Time,TR)为4 000 ms,回波时间(Echo Time,TE)为108 ms,层厚为3 mm,层间距为2 mm,每例数据包含20~28层,反转角度为150˚,带宽为108 Hz/像素.

1.2 病灶分割

将获取得到的T2WI文件导入到ITK-SNAP(V 3.8.0)[7]这一勾画软件中,由一名从业10年的放射科医生手动在直肠病灶边缘的所有层面勾画感兴趣区域(Region of Interest,ROI),图 2(b)中间红色区域即为勾画好的ROI区域.每个病例勾画好之后保存为nii格式的文件,同时将原文件也保存为nii格式以方便Python操作.

图2

图2   患者的(a) T2WI图像及(b)勾画后的ROI区域

Fig.2   (a) T2WI image (b) and the region of interest of one patient


1.3 影像组学特征提取

将上述数据用Python(V 3.6)打开,在jupyter notebook中使用pyradiomics工具包(V 2.1,美国俄勒冈州比佛顿Python软件基金会)[14]提取了四类影像组学特征:第一类特征为一阶统计量(First Order Statistics)计算出的肿瘤强度特征;第二类为肿瘤的形状特征,包括了肿瘤的体积、表面积、球形度、最大2D直径等;第三类为肿瘤的纹理特征,在肿瘤内的所有三维方向上计算,从而得出每个体素与周围体素相对的空间位置;第四类为原图像中小波分解计算得到的强度、纹理特征.

1.4 特征选择

由于提取的特征维数过高,直接进行机器学习容易过拟合,浪费计算资源,需要对其进行降维处理,选出与直肠癌T分期高度相关的特征.常用的降维算法有主成分分析法(Principal Component Analysis,PCA)、最小冗余最大相关性(Minimum Redundancy Maximum Correlation,mRMR)、LASSO回归、递归特征消除(Recursive Feature Elimination,RFE).

其中,LASSO属于嵌入法(Embedded),先使用机器学习算法进行训练,得到各个特征的权值系数,并按照系数大小进行特征选择.使用L1范数作为线性模型的惩罚项,模型会得到稀疏解,将部分特征的系数降维为0,系数不为0的特征则是特征选择后的结果.LASSO算法对高维数据的筛选有较好的效果,因此在影像组学中被广泛使用.

1.5 数据建模

常用的分类模型算法有随机森林、SVM、逻辑回归、GBDT等.

1.5.1 随机森林算法

随机森林属于有监督学习算法,是以决策树为基学习器的袋装法集成学习算法[15].首先通过对训练数据集的随机选择来构建一棵树,同时随机选择特征,最后对所有决策树的结果进行平均或者投票表决获得结果.随机森林易于实现,计算消耗较小,在解决分类问题与回归问题上都有惊人的表现,因此被称为是“最能体现集成学习技术水平的方法”.

随机森林的构建包含以下步骤[16]:第一步,从含有n个原始训练集中有放回采样(bootstrap)取出n个样本,生成一个训练集,由这种方法生成的自助集大约只包含原始数据的63%(因为每一个样本被抽到自助集的概率为$ 1 - {(1 - 1/n)^n} $,当n足够大时,该值收敛于$ 1 - 1/{\text{e}} $,约等于63%),剩余的37%数据为袋外数据,可作为测试数据.第二步,在每次有放回采样生成的训练集上均构建一颗决策树,在树的每个节点上,随机选择特征.通过逐个搜索,每次分裂时按基尼指数选择最好的特征进行分裂.第三步,多次执行第二步,将生成的多颗树组成随机森林.对于分类问题,多个分类器投票决定最终分类结果;对于回归问题,多个分类器的预测均值则为最终预测结果.

1.5.2 SVM算法

SVM是机器学习中最受关注的算法,源于统计学习理论[17],无论是对于线性还是非线性的分类问题,都有很好的效果,在各类实际问题中也表现优异,广泛应用于手写数字识别、人脸识别.在文本和超文本分类时,SVM可以大量减少标准归纳和转换设置中对标记训练实例的需求.SVM的基本思想是找出能够正确划分训练数据集[18]并且与之间隔最大的分离超平面.如图 3所示,黑点表示属于类别1的数据;灰点表示属于类别1且在支持向量上的数据;黑色圆圈表示属于类别2的数据;灰色圆圈表示属于类别2且在支持向量上的数据;虚线表示支持平面;实线($ w \cdot x + b = 0 $)为分离超平面,w表示法向量,b为截距,x为自变量,对于线性可分的数据集来说,由感知机算法可知这样的超平面有无穷多个,但几何间隔最大的超平面是唯一的.

图3

图3   SVM推导图

Fig.3   Support vector machine algorithm derivation diagram


SVM算法推导过程如下[19]:假设存在数据集$ T = \{ ({x_1}, {y_1}), ({x_2}, {y_2}), \cdots , ({x_N}, {y_N})\} $,其中$ {x_i} \in R $$ {y_i} \in \{ + 1, - 1\} $$ i = 1, 2, \cdots , N $$ {x_i} $为特征数据,$ {y_i} $为标签,R指的是实数,N为数据集大小);

(1)选择惩罚参数$ C > 0 $,构建并解二次规划问题($ {\alpha _i} $为拉格朗日乘子):

得最优解:

(2)计算

选择$ {\alpha ^*} $的一个分量$ \alpha _j^* $,且$ \alpha _j^* $满足条件$ 0 < \alpha _j^* < C $,计算

(3)求分离超平面:

分类决策函数:

对于非线性分类问题,可以通过非线性变换将之转换为某个空间上的线性分类问题,并在此空间中学习线性SVM.在线性SVM的对偶问题中,目标函数与分类决策函数只涉及实例与实例的内积,所以不需要指定非线性变换,而是用核函数替换当中的内积.核函数是指通过一个非线性转换后的两个实例间的内积.具体的说,$ K(x, z) $是一个函数,意味着存在一个输入空间到特征空间的映射$ \phi (x) $,对输入空间内的任意xz,有:

在线性SVM学习的对偶问题中,用$ K(x, z) $代替内积,求解得到的就是非线性SVM:

1.5.3 逻辑回归算法

逻辑回归即对数几率回归,为统计学上常用的名为“回归”的线性分类器[20],是由线性回归变化而来且在分类问题中广泛使用的广义回归算法,常用于二分类,也可用于多分类.逻辑回归的原理[21, 22]如下:通过线性回归可预测出某组输入的标签值;通过Sigmoid函数(图 4)将得到的标签值压缩,得到0~1之间的$ P $值,该$ P $值即是该样本预测为1的概率,$ (1 - P) $则是样本预测为0的概率,这样就可以对数据进行二分类.将p个自变量纳入模型,结果为阳性的概率$ P = P(Y = 1|x) $,逻辑回归模型表达如下式所示:

图4

图4   Sigmoid函数

Fig.4   Sigmoid function


其中$ {\beta _i} $i=1, 2, ⋅⋅⋅, p)为各自变量的偏回归系数,等式两边取自然回归对数变换后,模型转化为线性模式,表达式如下:

1.5.4 GBDT算法

GBDT又名MART(Multiple Additive Regression Tree),是一种boosting型的集成学习算法[23],它的基学习器是按顺序一一构建的.通过结合弱学习器的能力不断对难学习的样本进行预测,逐渐构建一个强学习器.GBDT具有同SVM一样较强的泛化(generalization)能力,近年来被广泛使用在搜索排序等领域.与随机森林不同的是,不论是回归还是分类,GBDT都使用CART(Classification and Regression Trees)回归树作为基学习器.这是因为GBDT每轮训练都建立在上一轮训练模型梯度为负的基础上.这就要求在每轮迭代中,标签值减去弱分类器的输出是有意义的.而类别相减是无意义的,因此使用CART进行预测,通过Sigmoid函数将回归值转化为概率值,将其与真实概率值之差作为拟合项.GBDT二分类算法实现过程如下[24]

(1)初始化第一个弱学习器$ {F_0}(x) $

其中$ P(Y = 1|x) $是训练集中$ y = 1 $的比例,其中x为特征数据,y为标签值,利用数据的先验信息来初始化模型.

(2)建立M棵分类回归树$ m = 1, 2, \cdots , M $

a)对$ i = 1, 2, \cdots , N $,计算第m棵树的响应值:

b)对于$ i = 1, 2, \cdots , N $,使用CART回归树拟合$ ({x_i}, {r_{m, i}}) $,得到第m棵回归树,其对应的叶子节点区域为$ {R_{m, j}} $,其中$ j = 1, 2, \cdots , {J_m} $,且$ {J_m} $是第m棵回归树的叶子节点个数.

c)对于叶子节点区域,计算最佳拟合值:

d)更新强学习器$ {F_m}(x) $

(3)得到最终强学习器表达式:

因此分类模型为:

1.6 评价方法

将数据随机分为4:1的训练集与测试集比例(训练集84例,测试集21例)进行学习,计算十折交叉验证后的直肠癌T分期预测模型的准确率(Accuracy)、灵敏度(Sensitivity)、特异度(Specificity)、ROC曲线的AUC.

其中TP表示为真阳性,表示被判定为突破肌层、实际也是突破肌层的个数;TN表示为真阴性,表示被判定为未突破肌层、实际也是未突破肌层的个数;FP表示为假阳性,表示被判定为突破肌层、实际是未突破肌层的个数;FN表示为假阴性,表示被判定为未突破肌层、实际是突破肌层的个数.

ROC曲线是常用的分类模型的评价方法.其基本思想是通过对模型预测结果的排序,按顺序将样本作为阳性再次预测,计算出灵敏度与特异度,以灵敏度为纵坐标、1-特异度为横坐标绘制ROC曲线.AUC越接近1,则模型越准确.

2 结果与讨论

2.1 基于LASSO的特征选择结果

共提取了100个影像组学特征,使用LASSO算法进行特征选择,应用正则化路径的方法在1×10−12~0.1之间搜索最优化λ的值为0.05(λ表示L1范数的惩罚力度),此时系数不为0的特征如表 1所示.

表1   特征选择结果

Table 1  Feature selection results

特征名称系数特征详情
灰度相关矩阵高灰度依赖程度(original_gldm_LargeDependenceHighGrayLevelEmphasis)0.0318
灰度相关矩阵高灰度依赖程度
伸长率(original_shape_Elongation)0.0043ROI形状中两个最大的主成分之间的关系
平面度(original_shape_Flatness)−0.0448ROI形状中最大和最小主成分之间的关系
最大2D直径(列)(original_shape_Maximum2DDiameterColumn)0.0616
冠状平面中肿瘤表面网格顶点之间最大的欧几里得距离
最大2D直径(切片)(original_shape_Maximum2DDiameterSlice)0.0431
轴向平面中肿瘤表面网格顶点之间最大的欧几里得距离
短轴长(original_shape_MinorAxisLength)0.1205包围ROI的椭球的第二轴长
表面积与体积之比(original_shape_SurfaceVolumeRatio)−0.0384较低的值表示更紧凑的球形形状

新窗口打开| 下载CSV


2.2 各模型预测结果

2.2.1 基于随机森林的直肠癌T分期预测模型

本文使用Python中的第三方机器学习包sklearn[25]进行建模.使用sklearn中的RandomForestClassifier类来构建随机森林分类模型,并且基于泛化误差对模型调参,提高模型的精度.

随机森林主要的参数有n_estimators(子树的数量)、max_depth(树的最大生长深度)、min_samples_leaf(叶子的最小样本数量)、min_samples_split(分支节点的最小样本数量)、max_features(最大选择特征数).其中n_estimators对模型的影响最大,因此优先对其进行调整.

在0~200之间,每10步构建一个随机森林模型,获得不同n_estimators下的模型准确度,并绘制模型的学习曲线.如图 5(a)所示,当子树的数量从0增加到21时,模型的准确率呈上升趋势,这符合随机森林模型的特点:在一定范围内,分类准确率随子树数量的增加而增加;但当子树数量越来越大时,准确率会发生波动.由图 5(a)可以看出当子树数量取31时,模型准确率最高,达到0.830 0.因此我们将子树数量取值范围缩小至20~40来遍历获得一个最优值,其学习曲线如图 5(b)所示.

图5

图5   n_estimators在(a) 0~200和(b) 20~40间的学习曲线

Fig.5   Learning curves with n_estimators of (a) 0~200 and (b) 20~40


从学习曲线中可以看出在n_estimators取29时就达到了最高准确率0.830 0,相较于n_estimators=31时降低了模型复杂度,减少了计算消耗.因此将n_estimators设置为29,建模获得十折交叉验证后的平均AUC、准确率、灵敏度、特异度分别为0.901 5、0.830 0、0.910 7、0.869 0,获得的ROC曲线如图 6所示,测试集准确率达到了0.857 1.

图6

图6   基于随机森林的预测模型的ROC曲线

Fig.6   Receiver operating characteristic curve of the prediction model based on random forest


2.2.2 基于SVM的直肠癌T分期预测模型

使用sklearn工具包中的SVM类来搭建模型.kernel(核函数)是SVM算法中的一个重要参数:选用不同的核函数,可以寻找不同数据分布下的超平面.常用的核函数有线性核函数“linear”、多项式核函数“poly”、双曲正切核函数“sigmoid”、高斯径向基核函数“rbf”.在调参过程中,分别使用上述4个核函数进行建模,得到“linear”、“poly”、“sigmoid”、“rbf”四个核函数模型的准确率分别为0.828 2、0.867 3、0.876 4、0.810 9,因此本文选用“sigmoid”作为SVM模型的核函数.

“sigmoid”是非线性函数,它的表达式为$ K(x, y) = \tanh [\gamma (x \cdot y) + r] $,影响它的参数有gamma(γ)、coef0(r),其中gamma指核函数的系数,coef0为函数中的常数项.对gamma、coef0进行调参,使用sklearn中的GridSearchCV(带交叉验证的网格搜索)函数,使用NumPy中的logspace函数将gamma设置为10−5 ~ 105之间共100个数的等比数列,将coef0的范围设置为−5~5共20个数的等差数列,进行网格搜索,得到最佳参数为coef0 = −0.789 5,gamma = 0.220 5,最高准确率为0.886 4.设置调参后的最优参数建模获得十折交叉验证后的平均AUC、准确率、灵敏度、特异度为0.968 5、0.886 4、0.962 5、0.899 2,获得的ROC曲线如图 7所示,测试集准确率达到了0.904 7.

图7

图7   基于SVM的预测模型的ROC曲线

Fig.7   Receiver operation characteristic curve of the prediction model based on SVM


2.2.3 基于逻辑回归的直肠癌T分期模型预测

使用sklearn工具包中的LogisticRegression类来搭建模型,LogisticRegression算法中为了防止模型过拟合,需要在模型中加入penalty(惩罚项),提高模型的泛化能力.LogisticRegression的重要参数有penalty(惩罚项)以及正则化系数的倒数C,在建模过程中,需要进行调参优化.将参数C的范围设置为0.05~1,间隔大小为0.05,分别使用L1和L2正则化绘制学习曲线,如图 8所示,选用L2正则化的模型准确度高于选用L1正则化的模型,在C=0.1时,L2正则化模型准确率为0.847 6,达到了最高.因此选用参数penalty=“L2”、C=0.1构建模型,得到ROC曲线(图 9).模型的十折交叉验证后的平均AUC、准确率、灵敏度、特异度为0.943 9、0.847 6、0.905 7、0.889 4,测试集准确率达到了0.857 1.

图8

图8   逻辑回归学习曲线

Fig.8   Learning curve of logistic regression


图9

图9   基于逻辑回归的预测模型ROC曲线

Fig.9   Receiver operation characteristic curve based on logistic regression


2.2.4 基于GBDT的直肠癌T分期模型预测

使用sklearn工具包中的GradientBoostingClassifier类来构建模型,GBDT是用损失函数的负梯度来拟合本轮损失的近似值,进而拟合成一个CART回归树,对模型影响较大的参数有n_estimators(弱学习器的最大迭代次数)、learning_rate(学习率)、random_state(随机状态等).在建模过程中,本文首先对弱学习器的最大迭代次数以及学习率进行调参.将n_estimators设置在10~100之间,间隔为5,learning_rate取0.01、0.1、0.15、0.2,进行网格搜索得到模型最高准确率为0.840 9,此时n_estimators=25,learning_rate=0.15;然后调整random_state,固定n_estimators=25、learning_rate=0.15,在10~500的范围内以10为步长分别建模,并绘制GBDT学习曲线(图 10).

图10

图10   GBDT的学习曲线

Fig.10   Learning curve of gradient boosting descent tree


在random_state=400时,模型准确率达到最高,为0.860 0.因此设置GradientBoostingClassifier类的参数n_estimators=25、learning_rate=0.15、random_state=400构建模型,绘制ROC曲线(图 11).模型的十折交叉验证后的平均AUC、准确率、灵敏度、特异度为0.856 8、0.860 0、0.925 0、0.896 0,测试集准确率达到了0.809 5.

图11

图11   基于GBDT的预测模型的ROC曲线

Fig.11   Receiver operation characteristic curve of the prediction model based on GBDT


2.2.5 各模型判别效果比较

本研究基于影像组学的方法,对直肠癌患者的术前T分期进行了预测.通过在T2WI影像上对肿瘤进行勾画并提取特征,使用LASSO算法选择了7个与T分期最相关的影像组学特征,其中包含6个形状特征和1个纹理特征.使用了逻辑回归、SVM、GBDT、随机森林四种算法对其建模,其中SVM是效果最优的算法,其AUC、准确率、灵敏度、特异度均高于其他四种算法,AUC更是达到了0.968 5(表 2),高于王进等[26]使用SVM算法预测T分期的AUC(0.768),以及Dou等[11]使用基于LASSO的逻辑回归算法的预测AUC均值0.85,其原因在于本文使用了多种模型进行比较,并对每个模型进行了细致的调参处理,使模型的准确率达到了较高的水平.该模型在测试集上的准确率为0.904 7,在临床诊断中,可以为医生提供可靠的参考.同时,经LASSO算法选择后的特征在四个模型中均有良好表现:AUC值均达到0.85以上,准确率也都高于0.83,正如Lambin等[27]提到的,好的影像组学特征在不同分类器上都应该有较好的效果.

表2   4个模型预测各项指标值

Table 2  The index values predicted by the four models

模型AUC准确率灵敏度特异度测试集准确率
随机森林0.90150.83000.91070.86900.8571
支持向量机0.96850.88640.96250.89920.9047
逻辑回归0.94390.84760.90570.88940.8571
GBDT0.85680.86000.92500.89600.8095

新窗口打开| 下载CSV


3 结论与展望

本文基于影像组学对直肠癌术前T分期预测进行了研究,首先在放射科医生勾画好的ROI区域上使用pyradiomics工具包提取特征,使用LASSO算法选择了与T分期高度相关的7个影像组学特征,使用随机森林、SVM、逻辑回归、GBDT四种算法分别对特征进行建模,其中SVM算法表现最优,AUC、准确率、灵敏度、特异度为0.968 5、0.886 4、0.962 5、0.899 2,测试集准确率0.904 7,大幅提高了直肠癌T分期的准确率;同时,本文对各个模型都进行了细致的调参处理,以达到提高分类准确率的目的.在未来的工作中,可以从模型融合和多模态数据角度出发,开发更优的预测模型.

利益冲突【-逻*辑*与-】#160;【-逻*辑*与-】#160;无

参考文献

VUIK F E, NIEUWENBURG S A, BARDOU M, et al. Increasing incidence of colorectal cancer in young adults in Europe over the last 25 years[J]. Gut, 2019, 68(10): gutjnl-2018-317592.

[本文引用: 1]

GLOBAL BURDEN OF DISEASE CANCER COLLABORATION .

Global, regional, and national cancer incidence, mortality, years of life lost, years lived with disability, and disability-adjusted life-years for 29 cancer groups, 1990 to 2016:a systematic analysis for the global burden of disease study

[J]. JAMA On Col, 2018, 4 (11): 1553- 1568.

CONNELL L C , MOTA J M , BRAGHIROLI M I , et al.

The rising incidence of younger patients with colorectal cancer: questions about screening, biology, and treatment

[J]. Curr Treat Options Oncol, 2017, 18 (4): 23.

DOI:10.1007/s11864-017-0463-3     

PETERSE E F P , MEESTER R G S , SIEGEL R L , et al.

The impact of the rising colorectal cancer incidence in young adults on the optimal age to start screening: Microsimulation analysis I to inform the American Cancer Society colorectal cancer screening guideline

[J]. Cancer, 2018, 124 (14): 2964- 2973.

DOI:10.1002/cncr.31543     

郑荣寿, 孙可欣, 张思维, .

2015年中国恶性肿瘤流行情况分析

[J]. 中华肿瘤杂志, 2019, 41 (1): 19- 28.

DOI:10.3760/cma.j.issn.0253-3766.2019.01.005      [本文引用: 1]

ENGSTROM P F , ARNOLETTI J P , BENSON A B , et al.

NCCN clinical practice guidelines in oncology: rectal cancer

[J]. J Natl Compr Canc Ne, 2009, 7 (8): 838- 881.

DOI:10.6004/jnccn.2009.0057      [本文引用: 1]

LAMBIN P , RIOS-VELAZQUEZ E , LEIJENAAR R , et al.

Radiomics: Extracting more information from medical images using advanced feature analysis

[J]. Eur J Cancer, 2012, 48 (4): 441- 446.

DOI:10.1016/j.ejca.2011.11.036      [本文引用: 2]

徐从斌.

MRI与CT在直肠癌诊断及术前分期中价值探究

[J]. 影像研究与医学应用, 2018, 2 (24): 152- 153.

DOI:10.3969/j.issn.2096-3807.2018.24.092      [本文引用: 1]

CUI S F , WANG X S .

The accuracy of MRI in preoperative T staging diagnosis of rectal cancer

[J]. Chin J Colorec Dis (Electronic Edition), 2014, 3 (5): 29- 36.

DOI:10.3877/cma.j.issn.2095-3224.2014.05.09      [本文引用: 1]

崔书发, 王锡山.

术前应用MRI评估直肠癌T分期的价值

[J]. 中华结直肠疾病电子杂志, 2014, 3 (5): 29- 36.

DOI:10.3877/cma.j.issn.2095-3224.2014.05.09      [本文引用: 1]

LIANG C S , HUANG Y Q , HE L , et al.

The development and validation of a CT-based radiomics signature for the preoperative discrimination of stage Ⅰ-Ⅱ and stage Ⅲ-Ⅳ colorectal cancer

[J]. Oncotarget, 2016, 7 (21): 31401- 31412.

DOI:10.18632/oncotarget.8919      [本文引用: 1]

DOU Y F , TANG X F , LIU Y Y , et al.

T stage prediction of colorectal tumor based on multiparametric functional images

[J]. Transl Cancer Res, 2020, 9 (2): 522- 528.

DOI:10.21037/tcr.2019.11.41      [本文引用: 2]

KIM J , OH J E , LEE J , et al.

Rectal cancer: Toward fully automatic discrimination of T2 and T3 rectal cancers using deep convolutional neural network

[J]. Int J Imaging Syst Technol, 2019, 29 (3): 247- 259.

DOI:10.1002/ima.22311      [本文引用: 1]

XU X P , WANG H J , DU P , et al.

A predictive nomogram for individualized recurrence stratification of bladder cancer using multiparametric MRI and clinical risk factors

[J]. J Magn Reson Imaging, 2019, 50 (6): 1893- 1904.

DOI:10.1002/jmri.26749      [本文引用: 1]

YUSHKEVICH P A , PIVEN J , HAZLETT H C , et al.

User-guided 3D active contour segmentation of anatomical structures: Significantly improved efficiency and reliability

[J]. Neuroimage, 2006, 31 (3): 1116- 1128.

DOI:10.1016/j.neuroimage.2006.01.015      [本文引用: 1]

BREIMAN L .

Random forest

[J]. Machine Learning, 2001, 45 (1): 5- 32.

DOI:10.1023/A:1010933404324      [本文引用: 1]

LIAW A , WIENER M .

Classification and regression by randomforest

[J]. R News, 2002, (2, 3): 18- 22.

[本文引用: 1]

周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.

[本文引用: 1]

VAN GRIETHUYSEN J J M , FEDOROV A , PARMAR C , et al.

Computational radiomics system to decode the radiographic phenotype

[J]. Cancer Res, 2017, 77 (21): e104- e107.

DOI:10.1158/0008-5472.CAN-17-0339      [本文引用: 1]

KOOPERBERG C , RUCZINSKI I .

Identifying interacting SNPs using Monte Carlo logic regression

[J]. Genetic Epidemiology, 2010, 28 (2): 157- 170.

[本文引用: 1]

李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012.

[本文引用: 1]

SAUNDERS C , STITSON M O , WESTON J , et al.

Support vector machine

[J]. Computer Ence, 2002, 1 (4): 1- 28.

[本文引用: 1]

BAESENS B , VIAENE S , VAN GESTEL T , et al.

Least squares support vector machine classifiers: an empirical evaluation

[J]. DTEW Research Report 0003, 2000, 1- 16.

[本文引用: 1]

FRIEDMAN J H .

Greedy function approximation: A gradient boosting machine

[J]. Ann Statist, 2001, 29 (5): 1189- 1232.

DOI:10.1214/aos/1013203450      [本文引用: 1]

FRIEDMAN J H .

Stochastic gradient boosting

[J]. Computational Statistics & Data Analysis, 2002, 38 (4): 367- 378.

[本文引用: 1]

PEDREGOSA F , VAROQUAUX G , GRAMFORT A , et al.

Scikit-learn: machine learning in python

[J]. J Mach Learn Res, 2011, 2825- 2830.

[本文引用: 1]

WANG J , LI Z H , SHEN F , et al.

The value of high resolution T2WI-based radiomics in the preoperative staging of rectal cancer

[J]. Radiol Practice, 2019, 34 (11): 1251- 1254.

URL     [本文引用: 1]

王进, 李智慧, 沈浮, .

基于高分辨T2WI的影像组学对直肠癌术前分期的应用价值

[J]. 放射学实践, 2019, 34 (11): 1251- 1254.

URL     [本文引用: 1]

LAMBIN P , LEIJENAAR R T H , DEIST T M , et al.

Radiomics: the bridge between medical imaging and personalized medicine

[J]. Nat Rev Clin Oncol, 2017, 14, 749- 762.

DOI:10.1038/nrclinonc.2017.141      [本文引用: 1]

/