波谱学杂志, 2022, 39(3): 278-290 doi: 10.11938/cjmr20212916

研究论文

基于新型支持向量机的影像组学在肝脏结节分类中的应用

李笛1, 霍雷2, 万梦云1, 贾宁阳2, 王丽嘉,1

1. 上海理工大学 医疗器械与食品学院, 上海 200093

2. 第二军医大学附属东方肝胆外科医院 影像科, 上海 200438

Application of Radiomics Based on New Support Vector Machine in the Classification of Hepatic Nodules

LI Di1, HUO Lei2, WAN Meng-yun1, JIA Ning-yang2, WANG Li-jia,1

1. School of Medical Instrument and Food Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China

2. Department of Radiology, Eastern Hepatobiliary Hospital, Second Military Medical University, Shanghai 200438, China

通讯作者: 王丽嘉, Tel: 021-55271173, E-mail:lijiawangmri@163.com

收稿日期: 2021-05-22  

基金资助: 国家科技部十三五传染病重大专项课题.  2018ZX10302207-004-005

Received: 2021-05-22  

摘要

肝癌是最常见的恶性肿瘤之一,亚洲地区最为常见的肝癌演变过程为肝炎-肝硬化结节-异型增生结节-肝细胞性肝癌.判断肝脏结节在演变过程所处分期,并采取干预措施,对降低肝癌的发生率非常关键.本文针对影像组学提出了更精确的支持向量机(SVM)分类算法——LFOA-F-SVM,用于对120名患者的腹部动态增强磁共振图像的肝脏结节进行四分类.该算法利用了考虑半径与几何间距的F-SVM,并结合莱维飞行策略(LF)的果蝇优化算法(FOA)寻求超参.为了验证方法的有效性,本文另外添加了5个UCI分类数据集(心脏、帕金森疾病、虹膜、葡萄酒和动物园),并与SVM、PSO-SVM、FOA-SVM、F-SVM进行比较.结果表明,在6个分类数据集(包括肝脏结节数据集和5个UCI分类数据集)中,相对于其他分类算法,LFOA-F-SVM的分类准确率最高,在肝脏结节数据集中的四分类精确率和查全率也较高.

关键词: 肝脏结节 ; 分类 ; 影像组学 ; LFOA-F-SVM

Abstract

Liver cancer is one of the most common malignant tumors. In Asia, liver cancer often develops on a background of cirrhosis caused by chronic hepatitis. The procedure of hepatitis, cirrhotic nodules, dysplastic nodules, and then hepatocellular carcinoma is the most common liver cancer evolutionary process. Judging the stage of hepatic nodules in the evolution process and taking intervention measures are critical for reducing the incidence of liver cancer. In this paper, a more accurate support vector machine (SVM) classification algorithm, LFOA-F-SVM, was proposed for radiomics to classify hepatic nodules from 120 patients into four categories based on dynamic enhanced magnetic resonance images. The algorithm uses radius-margin-based F-SVM, and combines the fruit fly optimization algorithm (FOA) of Levy flight (LF) strategy to optimize the parameters. To verify the effectiveness of the method, five UCI classification data sets (hearts, Parkinson’s disease, iris, wine and zoo) were added and compared with SVM, PSO-SVM, FOA-SVM, F-SVM. The results showed that LFOA-F-SVM has the highest classification accuracy in six data sets compared to the other methods. And in the hepatic nodules data set, the classification precision and recall are relatively high.

Keywords: hepatic nodules ; classification ; radiomics ; LFOA-F-SVM

PDF (1010KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李笛, 霍雷, 万梦云, 贾宁阳, 王丽嘉. 基于新型支持向量机的影像组学在肝脏结节分类中的应用. 波谱学杂志[J], 2022, 39(3): 278-290 doi:10.11938/cjmr20212916

LI Di. Application of Radiomics Based on New Support Vector Machine in the Classification of Hepatic Nodules. Chinese Journal of Magnetic Resonance[J], 2022, 39(3): 278-290 doi:10.11938/cjmr20212916

引 言

2019年,国家癌症中心发布的《2015年中国恶性肿瘤流行情况分析》表明2015年我国新发肝癌病例约37.0万例,居十大肿瘤第4位;因肝癌死亡人数约32.6万例,居十大肿瘤第2位[1].在亚洲地区,肝炎-肝硬化结节-异型增生结节-肝细胞性肝癌(Hepatic Cell Carcinoma,HCC)是最为常见的肝癌演变过程.判断肝脏结节在肝癌演变过程中的分期,并提前进行预防和干预,对降低肝癌的发生率及死亡率非常关键.

然而,结节和肿瘤表面的多样性和复杂性使得诊断仍面临较大的挑战.影像组学包括图像获取、感兴趣区域(Region of Interest,ROI)分割、特征提取及筛选、建模四个过程.它可以从超声、电子计算机断层扫描(Computerized Tomography,CT)、正电子发射断层扫描(Positron Emission Tomography,PET)和磁共振成像(Magnetic Resonance Imaging,MRI)等医学影像中提取大量高级的、定量的影像特征,进而筛选有价值的特征参与临床诊断[2].相比其它成像技术而言,MRI具有很高的软组织分辨率,可通过多参数成像及增强扫描等反映结节内部结构与成分的病变规律,为肝脏结节性质的判定提供更多的影像学基础,更有利于特征的提取及筛选.Xue等[3]在训练集数据量较少的情况下,利用迁徙学习影像组学对多模态肝纤维化超声成像进行建模,得到了良好的预测模型.Wu等[4]利用影像组学对使用了造影剂的HCC和肝血管瘤(Hepatic Hemangioma,HH)磁共振图像进行分类,测试集的受试者操作特征(Receiver Operating Characteristic,ROC)曲线的曲线下面积(Area Under Curve,AUC)为0.89,诊断性能与具有10年经验的放射科医生无统计学差异.本文将利用影像组学获取并分割肝炎、肝硬化结节、异型增生结节和HCC患者的动态增强磁共振图像的ROI,并进行特征提取及筛选,最后使用机器学习技术建立分类模型.

在机器学习的分类建模中,Baek等[5]使用支持向量机(Support Vector Machine,SVM)区分肝脏状态,包括正常、低脂纤维化、高脂纤维化和炎症.Anju等[6]首先基于改进的分型纹理分析的分割(Segmentation based Fractal Texture Analysis,SFTA)算法进行特征提取,然后利用SVM对肝肿瘤进行分类.以上结果均表明,SVM分类算法在准确度、特异度和灵敏度等方面性能较好.然而,惩罚因子(C)和核函数宽度(σ)对SVM分类性能有重要影响,需要重点进行优化.在以往研究中,果蝇优化算法(Fruit Fly Optimization Algorithm,FOA)以参数设置少、算法结构简便且易于理解等优点,常应用于SVM参数优化问题.例如,FOA-SVM广泛且成功应用于年度电力负荷预测[7]、矿井火灾图像模式识别[8]、滚动轴承故障诊断[9]等研究.但研究发现,SVM仅考虑几何间隔的最大化,而忽略半径最小化,因此分类器仍具有较大误差,其误差范围一般是半径和几何间隔之比的函数[10].F-SVM是一种新的考虑半径边缘的SVM算法,将特征变换(Feature Transportation,F)与SVM联合学习,减小了半径,从而降低了SVM的误差范围[11]

为了提高SVM在肝脏结节数据中的分类性能,本文提出了一种将现有的融合了莱维飞行的果蝇优化算法(Levy flight fruit fly optimization,LFOA)和F-SVM相结合的分类算法—LFOA-F-SVM,对特征筛选后的肝脏结节数据建立分类模型.其中,F-SVM考虑了几何间隔最大化和半径最小化;LFOA算法则对FOA进行了改进,以提高参数寻优能力.本文将该算法在5个UCI数据集以及肝脏结节数据集中进行了测试,并与SVM[12]、粒子群优化算法(Particle Swarm Optimization,PSO)-SVM[13]、FOA-SVM[8]、F-SVM[11]进行了比较,以评估LFOA-F-SVM的泛化能力和有效性.

1 理论部分

常用且有效的基于机器学习的分类算法包括K近邻、逻辑回归、决策树和SVM等.其中,SVM针对小样本,具有较强的非线性分类的能力,因此本文选择在SVM的基础上进行分类建模.

1.1 F-SVM

SVM是一种有监督学习的算法[12],在实际分类训练中,将实例表示为空间中的点,以求解能够正确划分数据集并且几何间隔最大距离超平面为目标.除了线性分类,SVM可以采用内核有效地对高维的特征空间进行非线性分类.在给定训练集$ v = \{ ({x_1},{y_1}),({x_2},{y_2}), \cdots ,({x_n},{y_n})\} $,SVM表示如下:

$ \begin{gathered} \mathop {\min }\limits_{u,b,\varsigma } \begin{array}{*{20}{c}} {}&{} \end{array}\frac{1}{2}||u||_2^2 + C\sum\limits_i^n {{\zeta _i}} \hfill \\ \;\;\;\;\;\;\begin{array}{*{20}{c}} {{\text{s}}{\text{.t}}{\text{.}}}&{{y_i}({u^T}{x_i} + b) \geqslant 1 - {\zeta _i}} \end{array}{\text{ }}\forall i \hfill \\ \;\;\;\;\;\;\begin{array}{*{20}{c}} {}&{} \end{array}{\zeta _i} \geqslant 0,{\text{ }}i = 1,2, \cdots ,n \hfill \\ \end{gathered} $

其中,$ {\zeta _i} $为松弛变量,C为惩罚系数,$ {y_i} $为特征标签,$ {u^T} $为超平面法向量,b为截距,$ {y_i}({u^T}{x_i} + b) $为几何间隔即样本点到超平面的距离,$ {x_i} $为训练样本特征变量,$ \forall i $表示针对所有i

SVM及其超参优化的SVM变体仅考虑几何间距的最大化,忽略了半径最小化,从而在分类准确性中仍存在较大误差.Wu等[11]在F-SVM算法中提出了一种确定半径范围的方法,即$ \frac{1}{2}\bar R \leqslant R \leqslant \bar R $$ \bar R = \max ||A{x_i} - A\bar x||_2^2 $),A为在训练集上进行特征变换的矩阵.由于半径R的上界是$ \bar R $,我们可以用$ \bar R $来近似R,得到整合半径后的F-SVM为:

$ \begin{gathered} \;\;\;\;\;\;\mathop {\min }\limits_{w,b,\zeta ,M,\bar R} \begin{array}{*{20}{c}} {}&{} \end{array}\frac{1}{2}({w^T}{M^{ - 1}}w){{\bar R}^2} + C\sum\limits_i^n {{\zeta _i}} \hfill \\\begin{array}{*{20}{c}} {{\text{s}}{\text{.t}}.}&{{y_i}({w^T}{x_i} + b) \geqslant 1 - {\zeta _i}} \end{array}{\text{ }}\forall i \hfill \\ \;\;\;\;\;\; \begin{array}{*{20}{c}} {}&{} \end{array}{\zeta _i} \geqslant 0,{\text{ }}i = 1,2, \cdots ,n \hfill \\ \;\;\;\;\;\; \begin{array}{*{20}{c}} {}&{} \end{array}({x_i} - \bar x)M({x_i} - \bar x) \leqslant {{\bar R}^2} \hfill \\ \end{gathered} $

其中$ w = {A^T}u $$ M = {A^T}A $$ \bar x $为训练样本特征变量的均值向量,在实际操作中令$ \bar R = 1 $,求得(2)式最优解.为了使算法具有更强的鲁棒性,令$ S = \sum\limits_{i = 1}^n {{w_i}({x_i} - } \bar x){({x_i} - \bar x)^T} $,有$ \sum\limits_{i = 1}^n {{w_i}({x_i} - } \bar x{)^T}M({x_i} - \bar x) = tr(MS) \leqslant \varepsilon $$ \varepsilon $表示大于0的极小的数,$ \rho $表示由$ \varepsilon $确定的正则化参数.

根据拉格朗日乘法可得线性F-SVM为:

$ \begin{gathered} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\mathop {\min }\limits_{w,b,\zeta ,M} \begin{array}{*{20}{c}} {}&{} \end{array}\frac{1}{2}({w^T}{M^{ - 1}}w) + C\sum\limits_i^n {{\zeta _i}} {\text{ + }}\rho tr(MS) \hfill \\ \begin{array}{*{20}{c}}{{\text{s}}{\text{.t}}.}&{{y_i}({w^T}{x_i} + b) \geqslant 1 - {\zeta _i}} \end{array}{\text{ }}\forall i \hfill \\ \begin{array}{*{20}{c}} {}&{} \end{array}{\zeta _i} \geqslant 0,{\text{ }}i = 1,2, \cdots ,n \hfill \\ \begin{array}{*{20}{c}} {}&{} \end{array}M > 0 \hfill \\ \end{gathered} $

最后,使用广义坐标下降法(Generalized Block Coordinate Descent,GBCD)[14]求解该模型.

为了解决非线性分类问题,在线性F-SVM的基础上结合了核主成分分析(Kernel Principal Component Analysis,KPCA),其主要思想是将二维空间非线性分类问题转换到高维空间的线性分类问题.内核化F-SVM为:

$ \begin{gathered} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\mathop {\min }\limits_{w,b,\zeta ,M} \begin{array}{*{20}{c}} {}&{} \end{array}\frac{1}{2}({w^T}{M^{ - 1}}w) + C\sum\limits_i^n {{\zeta _i}} {\text{ + }}\rho tr(M{S_f}) \hfill \\ \begin{array}{*{20}{c}} {{\text{s}}{\text{.t}}.}&{{y_i}({w^T}{f_i} + b) \geqslant 1 - {\zeta _i}} \end{array}{\text{ }}\forall i \hfill \\ \begin{array}{*{20}{c}} {}&{} \end{array}{\zeta _i} \geqslant 0,{\text{ }}i = 1,2, \cdots ,n \hfill \\ \begin{array}{*{20}{c}} {}&{} \end{array}M > 0 \hfill \\ \end{gathered} $

其中,$ {f_i} = {W^T}\Phi ({x_i}) $$ \Phi $表示核函数映射;$ W = [{w_1},{w_2}, \cdots ,{w_{D0}}] $,为特征值所对应的D0个PCA特征向量(w)的矩阵.在KPCA中,将径向基函数(Radial Basis Function,RBF)作为映射函数,即$ K({x_i},{x_j}) = \Phi ({x_i}) \cdot \Phi ({x_j}) = \exp ( - \sigma ||{x_i} - {x_j}|{|^2}) $$ {S_f} = \sum\limits_{i = 1}^n {{w_i}{f_i}f_i^T} $.核函数宽度σ限制了RBF的宽度[15]C作为惩罚因子来平衡模型中误差最小化与分类最大化[16].以上两个参数严重影响分类精度,所以确定最优参数对F-SVM分类器至关重要.

1.2 LFOA

参数设置常用网格搜索法(Grid Search,GS)、PSO[17]和FOA等群体智能算法进行优化.其中,FOA以易于操作,可塑性强等优势在许多方面得到成功应用.

FOA是一种元启发式算法,其灵感来自果蝇在觅食期间依赖嗅觉和视觉来寻找食物的觅食行为[18]. 在参数优化时,FOA通过模仿果蝇的飞行方式来寻找全局最优解.首先在空间中随机生成果蝇种群的位置,然后每个果蝇将根据果蝇的飞行模式更新其位置,在更新过程中不断提高种群的适应度.FOA的代码框架易于构建、操作简单、计算速度快,已在多个领域中得到应用[19,20].虽然该算法简单易行,但是容易过早的陷入局部最优,这一问题可采用莱维飞行(Levy Flight,LF)进行改善[21].LF是一种步伐短且方向随机的搜索路径,其可以重新调整种群的位置,避免陷入局部最优状态,从而提高全局搜索能力.使用莱维飞行可以用以下公式表示:

$ {\text{Levy}}(s)\sim|s{|^{ - 1 - \beta }},{\text{ }}0 < \beta \leqslant 2 $

其中,β代表调节莱维飞行稳定性的指标,s代表步长.

本文在FOA的基础上采用有利于全局寻优的LFOA来调整F-SVM分类器参数.在FOA算法中加入LF后,果蝇种群位置的更新方程为:

$ X_i^{{\text{Levy}}} = {X_i} + {X_i} \oplus {\text{Levy}}(s) $

其中,$ \oplus $为矩阵点乘运算.

1.3 LFOA-F-SVM算法

本文将LFOA和F-SVM进行了结合,具体LFOA-F-SVM分类过程如图1所示.在初始化矩阵M中,$ S = \sum\limits_{i = 1}^n {{w_i}} ({x_i} - \bar x){({x_i} - \bar x)^T} = U\Lambda {U^T} $$ \Lambda = {\text{Diag}}\{ {\lambda _1},{\lambda _2}, \cdots ,{\lambda _n}\} $$ M = U\Xi {U^T} = V\Sigma {V^T} $$ \Xi = \Lambda *{\rho ^{ - 0.5}} $;其中,U为特征向量矩阵,$ \Lambda $为特征值矩阵,$ \lambda $表示特征值向量,M进行了特征分解后得到V和特征值矩阵$ \Sigma $.令$ \rho = 1 $,则有$ \Xi = \{ \lambda _1^{ - 0.5},\lambda _2^{ - 0.5}, \cdots ,\lambda _n^{ - 0.5}\} $,从而得到特征空间Z$ {z_i} = {\Sigma ^{0.5}}{V^T}{x_i} $和特征变换矩阵$ A = {\Sigma ^{0.5}}{V^T} $.在特征空间Z中寻找超参,所得的超参σ与原始数据集变换到RBF的KPCA空间中,选择特征值大于0.9所对应的PCA特征向量.在确定超参数ρ时,范围设置为$ \rho \in ( - 8,8) $,步长为0.5,通过GBCD更新M与支持向量机中的参数(w, b)寻找最优值.最后,根据所得的超参Cσρ建立分类模型,并进行预测.

图1

图1   LFOA-F-SVM分类流程

Fig.1   Overview of the LFOA-F-SVM classification process


2 实验部分

2.1 实验数据采集

本文的主要研究对象来自2013年4月至2017年2月在东方肝胆医院采集、由病理证实且具备完整临床资料的120名患者的腹部动态增强磁共振图像(共360幅).其中肝炎、肝硬化结节、异型增生结节和HCC患者(HCC最大直径小于3 cm)各30名.本研究符合相关伦理要求.动脉期、门脉期和延迟期横断面方位图像采用GE Signa Inifinity Twin Speed 1.5 T磁共振扫描仪,使用8通道体部线圈,通过肝脏加速容积采集(Liver Acquisition with Volume Acceleration,LAVA)成像序列获得.重复时间(Repetition Time,TR)=3.712 ms,回波时间(Echo Time,TE)=1.724 ms,反转时间为7 ms,翻转角为15˚,图像矩阵为512*512,层厚为2.5 mm,层间距为2.5 mm.

为了验证LFOA-F-SVM在多分类中的有效性,在肝脏结节数据集的基础上,我们另外添加了UCI机器学习开源数据库(https://archive.ics.uci.edu/ml/index.php)中样本量较小的2个二分类与3个多分类的纯数字无缺失数据集,分别为心脏、帕金森疾病、虹膜、葡萄酒和动物园,表1描述了这些数据的基本信息、最高分类准确率、所对应的分类器,以及分类器和分类准确率的文献来源.在进行建模之前对以上数据进行归一化处理,消除数据之间的影响[22]

表1   UCI分类数据集

Table 1  UCI classification datasets

数据集样本量类别数特征数最高的分类准确率/%分类器文献来源*
心脏30321389.35F-SVMWu (2018)[11]
帕金森疾病19522291.98FOA-F-SVMGu (2021)[23]
虹膜1503498.57SSLSHZhang (2014)[24]
葡萄酒17831399.44FOA-F-SVMGu (2021)[23]
动物园10171698.32F-SVMWu (2018)[11]

*文献来源指分类器和分类准确率的文献来源;SSLSH:结合对称分布和高信心的半监督学习(semi-supervised learning withsymmetrical distribution and high confidence)

新窗口打开| 下载CSV


2.2 肝脏结节数据集的特征提取及筛选

360幅图像的ROI均由专门从事肝脏研究的放射科医生通过itk-snap(http://www.itksnap.org/pmwiki/pmwiki.php)手动勾画和分割病灶的所有层面.

对于每个病灶,基于PyRadiomics工具包提取了851个定量的影像组学特征.这些特征分为四类[25]:一阶统计特征、形状特征、二阶(纹理)特征、高阶统计特征,如表2所示.一阶统计特征可以提供像素值强度在ROI内的空间分布情况,并用于分析图像特征.形状特征主要是对结节3D大小与形状的描述,与ROI中的灰度强度分布无关.考虑到球体是标准形状,本文分析了ROI与球体之间的相似性,并采用最大2D和3D直径、表面积、体积、表面体积比、伸长率和平坦度等参数描述形状特征.二阶(纹理)特征通过密度直方图描述,它表示了每个像素的空间位置[26].本文分析了五种类型的纹理特征,包括灰度共生矩阵(Gray Level Co-occurrence Matrix,GLCM)、灰度游程长度矩阵(Gray Level Run Length Matrix,GLRLM)、灰度大小区域矩阵(Gray Level Size Zone Matrix,GLSZM)、邻域灰度差分矩阵(Neighbouring Gray Tone Difference Matrix,NGTDM)和灰度依赖矩阵(Gray Level Dependence Matrix,GLDM).基于一阶和二阶特征,应用小波滤波,我们获得了鲁棒性较强的高阶统计特征.

表2   肝脏结节数据集提取的影像组学特征

Table 2  Extracted radiomics features from hepatic nodules

特征种类(个数)特征
一阶统计特征(18)能量、总能量、熵、最小值、像素10%、像素90%、最大值、均值、中位数、四分位间距、像素范围、平均绝对偏差、鲁棒平均绝对偏差、均方根、偏度、峰度、方差、均匀性
形状特征(14)网格体积、像素体积、表面积、表面积体积比、球形度、最大3D直径、最大2D直径、最大2D直径列、最大2D直径行、长轴、短轴、最小轴、伸长率、平坦度
灰度共生矩阵
(GLCM,24)
自相关、聚类突出度、聚类阴影、聚类趋势、对比度、相关性、差异均值、差异熵、差异方差、相关均值、相关能量、相关熵、相关性的非正式度量1、相关性的非正式度量2、逆差分矩、归一化逆差分矩、逆差分、归一化逆差分、逆方差、最大相关系数、最大概率、求和平均值、求和熵、求和方差
灰度游程长度矩阵
(GLRLM,16)
灰度不均匀性、归一化灰度不均匀性、灰度方差、强调高灰度运行、强调长期游程、强调长期游程高灰度级别、强调长期游程低灰度级别、强调低灰度游程、强调短期游程、强调短期高灰度级、强调短期低灰度级、游程熵、游程长度非均匀性、标准化游程长度非均匀性、游程百分比、游程方差
灰度大小区域矩阵
(GLSZM,16)
强调小区域、强调大区域、灰度非均匀性、归一化灰度非均匀性、尺寸区域非均匀性、归一化尺寸区域非均匀性、区域百分比、灰度方差、区域方差、区域熵、强调低灰度级区域、强调高灰度级、强调小区域低灰度、强调小区域高灰度、强调大区域低灰度、强调大区域高灰度
邻域灰度差分矩阵
(NGTDM,5)
繁忙度、复杂度、对比度、粗糙度、强度
灰度依赖矩阵
(GLDM,14)
依赖熵、依赖不均匀性、归一化依赖不均匀性、依赖方差、灰度不均匀性、灰度方差、强调大依赖性、强调高灰度级、强调大依赖性高灰度级、强调低灰度级、强调大依赖性低灰度级、强调小依赖性、强调小依赖性高灰度级、强调小依赖性低灰度级
高阶统计特征(744)小波(LHL、LHH、HLL、LLH、HLH、HHH、HHL、LLL)变换提取特征,指在三个维度中的每一个维度应用高通(H)或低通(L)滤波器的组合变换后,进而提取的一阶统计和纹理特征

新窗口打开| 下载CSV


为了提高后续建立模型的准确性和速度,需要对特征进行筛选,以剔除干扰、冗余和不相关的特征.Matlab2016中的弹性网(Elastic Net)可提取重要特征变量从而促进分类模型建立,并且具有良好的稳定性,因而被用于特征选择[27].将所有特征进行Z-score($ {x^*} = (x - \mu )/\sigma $,其中x为原始数据,μ为原始数据的均值,σ为原始数据的标准差)标准化处理后,采用Elastic Net算法,确定最小均方差(Mean Square Error,MSE)值所对应的压缩参数(λ)值,根据λ计算各特征变量的对应系数如图2所示,图2(a)绿线对应的横坐标为最佳λ值0.052 2.根据最佳λ值提取的53个特征和系数值如图3所示.

图2

图2   肝脏结节数据集的特征筛选. (a) λ对应的MSE变化曲线;(b) λ对应的特征系数(纵坐标)与系数为非零的特征个数(上方)

Fig.2   Feature selection of hepatic nodules dataset. (a) The curve of MSE corresponding to λ, (b) The characteristic coefficients (ordinate) and the number of features whose coefficients are non-zero (top) corresponding to λ


图3

图3   肝脏结节数据集筛选后的53个特征及其系数

Fig.3   The selected 53 features and their coefficients after filtering hepatic nodules dataset


为了判断筛选后的特征是否仍有较多的冗余项,对其进行斯皮尔曼相关性分析(图4,右侧色标代表相关性).在最终筛选的53个特征中,仅有2组特征具有较强的相关性,对后续分类建模影响较小,所以本文选择在这53个特征变量的基础上建立分类模型.

图4

图4   肝脏结节数据集筛选后特征的斯皮尔曼相关性热力图

Fig.4   Spearman correlation heat map of features selected from hepatic nodules dataset


2.3 分类模型建立

对于前文所述的6种数据集,利用Matlab2016分别使用SVM、PSO-SVM、FOA-SVM、F-SVM、LFOA-F-SVM 5种分类算法进行分类建模.参数Cσ的范围统一设置为$ C \in \{ {2^{ - 10:1:20}}\} $$ \sigma \in \{ {2^{ - 20:1:10}}\} $.在PSO-SVM中,学习因素c1、c2分别设置为1.6、1.5,Cσ的最大速度$ V{C_{\max }} $$ V{\sigma _{\max }} $Cσ最大值的0.6倍,分别为60和600.w在更新速度和位置中设置为1[23].LFOA中,设初始化果蝇种群位置为(X,Y),更新位置$ X = X + {a_x}*rand + {b_x} $$ Y = Y + {a_y}*rand + {b_y} $,其中参数$ {a_x} $$ {a_y} $$ {b_x} $$ {b_y} $分别设置为20、20、10和10,β设置为1.5.

2.4 分类模型性能评估

绘制ROC曲线,并计算AUC,以评估模型在区分特定类与其他类别时的能力[28]. 分类模型的性能评估指标还包括分类准确率(acc和ACC,其中ACC指一次实验获得的分类准确率,acc指10次交叉实验计算的平均分类准确率)、精确率(Precision)和召回率(Recall)计算如下[29]

$ \begin{gathered} \;\;\;\;\;\; \;\;\;\;\;\; \;\;\;\;\;\;{\text{ACC}} = \frac{{{\text{TP}} + {\text{TN}}}}{{{\text{TP}} + {\text{TN}} + {\text{FP}} + {\text{FN}}}} \times 100\% \hfill \\ {\text{acc}} = \left( {\sum\limits_{i = 1}^k {{\text{ACC}}_i^{{\text{test}}}} } \right)/k \hfill \\ \end{gathered} $

$ {\text{Precision}} = {\text{TP}}/({\text{TP}} + {\text{FP}}) $

$ {\text{Recall}} = {\text{TP}}/({\text{TP}} + {\text{FN}}) $

其中,k为10次交叉实验,TP(True Positives)为真阳性数量,TN(True Negatives)为真阴性数量,FP(False Positives)为假阳性数量,FN(False Negatives)为假阴性数量.精确率越大,表明分类器精度越高;召回率越高,表明分类器的查全率越高[30]

3 结果与讨论

3.1 5种算法分类准确率的比较

在6种数据集上,5种算法的10次交叉实验分类准确率的平均值和训练时间如表3所示.在二分类的心脏和帕金森疾病数据集中,相比SVM,使用超参优化的FOA-SVM算法,以及F-SVM算法的分类准确率均有所提高;LFOA-F-SVM算法在二分类数据集中的分类准确率达到最高,同时该算法获得的分类准确率可达到或高于之前的研究,分类准确率分别为89.35%与96.32%.

表3   5种算法的分类准确率(acc)和运行时间

Table 3  The average classification accuracy (acc) and run time of the 5 algorithms

数据集方法
SVMPSO-SVMFOA-SVMF-SVMLFOA-F-SVM
心脏86.77%(0.004 s)87.74%(0.0035 s)87.41%(0.0047 s)88.71%(4.0868 s)89.35%(6.9537 s)
帕金森疾病93.27%(0.0021 s)92.74%(0.0022 s)93.79%(0.0019 s)93.68%(8.5848 s)96.32%(5.215 s)
虹膜96.00%(0.0006 s)96.67%(0.0006 s)96.67%(0.0005 s)98.00%(0.035 s)98.67%(0.0237 s)
葡萄酒96.67%(0.0013 s)97.78%(0.0011 s)98.33%(0.0019 s)98.89%(0.0045 s)99.44%(0.0057 s)
动物园93.64%(0.0015 s)91.82%(0.0012 s)96.36%(0.0015 s)97.27%(0.0395 s)99.09%(0.0092 s)
肝脏结节74.72%(0.0097 s)76.11%(0.0092 s)76.67%(0.0196 s)76.94%(21.5069 s)81.00%(14.8110 s)

新窗口打开| 下载CSV


在肝脏结节、虹膜、葡萄酒和动物园多分类数据集中,相比基本的SVM,使用超参优化的PSO-SVM获得了更高的分类准确率(除动物园数据集外);FOA-SVM在4个数据集中均表现出更高的分类准确率,在动物园与肝脏结节数据中表现尤为显著.因此,SVM中超参的调节对多分类是有效的.在考虑半径与几何距离后,F-SVM的分类准确率优于基本的SVM.相对于其他算法,LFOA-F-SVM在上述数据集中均获得了最高的分类准确率,而且葡萄酒数据集的分类准确率与以往研究中的最高分类准确率相当,而在虹膜与动物园数据集的分类准确率则高于以往研究中的最高分类准确率.上述结果均可证明利用LFOA对F-SVM调参是有效的.

5种分类算法应用于多类数据集中的训练时间(表3)显示,SVM、PSO-SVM、FOA-SVM在各类数据集中需要更少的训练时间.而F-SVM与LFOA-F-SVM在建立模型过程中,由于需要不断收敛初始矩阵M与(w, b),得到最优分类模型与特征变换矩阵A,所以训练时间会较长.在数据量较少的情况下,可以牺牲训练时间,得到更高的分类性能.相比于F-SVM,LFOA-F-SVM在帕金森疾病、虹膜、动物园和肝脏结节数据中的训练时间更短,因为LFOA在超参调节中更快捷方便.

图5显示了以上数据集的10次运行的分类准确率.在图5(a)中,SVM的分类准确率较低,最低为77.42%;PSO-SVM与FOA-SVM将最低分类准确率提高到83.87%;F-SVM将此次运行的准确率提高到87.10%,使全局分类准确率分布在83.87%~93.55%之间;LFOA-F-SVM在10次运行中有9次达到最高的分类准确率.在图5(b)中,SVM、PSO-SVM、FOA-SVM与F-SVM的最低分类准确率为78.95%;而LFOA-F-SVM使其分类准确率大幅提高,分类准确率分布在89.47%~100%,并且有4次分类准确率为100%.在图5(c)中,SVM与PSO-SVM的最低分类准确率为86.67%;FOA-SVM与F-SVM的分类准确率分布在93.33%~100%之间,并且F-SVM的分类准确率为100%的次数达到7次;LFOA-F-SVM在虹膜数据集中,有8次运行的分类准确率达到了100%,其结果优于其他4种算法.在图5(d)中,准确率最低的为88.89%,其余均分布在94.44%~100%;相较于FOA-SVM,F-SVM将分类准确率为100%的次数由7次提升到8次;此外,LFOA-F-SVM在10次运行中有9次达到了100%.在图5(e)中,FOA-SVM与SVM的分类准确率均分布在90.91%~100%之间,较为稳定并且准确率较高;F-SVM有8次运行的准确率达到100%,但在第9次准确率为81.82%;LFOA-F-SVM在动物园数据的10次运行中均获得了最高的分类准确率,并且相比其他算法更为稳定.在图5(f)中,SVM经10次运行的分类准确率普遍较低,其范围是52.78%~86.11%;PSO-SVM将最低分类准确率提升到63.89%;FOA-SVM将最高分类准确率提高到了88.89%;F-SVM相比于以上方法,准确率较高并且更为稳定,分布在69.44%~83.33%之间;LFOA-F-SVM获得的最高准确率为91.67%,并且在10次运行中,准确率普遍较高.以上结果显示在5种算法中,LFOA-F-SVM的分类准确率和稳定性均最高.

图5

图5   5种算法在6种数据集上10次运行的分类准确率(ACC)比较

Fig.5   Comparison of classification accuracy values (ACC) for the 5 algorithms in 6 datasets during 10 runs


3.2 基于肝脏结节数据集的5种算法分类精确率和召回率的比较

将肝脏结节数据另外按7:3的比例分为训练集与测试集,并且在训练过程中采取5折交叉验证来寻找超参.将5种算法训练的模型应用于测试集,得到的4种ROC曲线与AUC值如图6所示[31]. 其中,F1代表肝炎,F2为肝硬化结节,F3为异型增生结节,F4为HCC.LFOA-F-SVM在测试集的四分类中得到了较高性能,每个类别的ROC曲线均更靠近左上角,并且AUC值范围从0.920 9(肝炎)到0.993 6(HCC)均达到最高.相比于异型增生结节与HCC,肝炎与肝硬化结节的AUC值、精确率与召回率(表4)较低,其原因是肝炎与肝硬化结节内包含正常肝细胞、Kupffer细胞和胆小管结构,并且其结构和血供与正常肝细胞相似[32]

图6

图6   5种算法在肝脏结节测试集数据中的表现

Fig.6   The performance of the 5 algorithms in the testing set of hepatic nodules


表4   5种算法在肝脏结节测试集的分类性能

Table 4  Classification performance of the 5 algorithms in the testing set of hepatic nodules

SVMPSO-SVMFOA-SVMF-SVMLFOA-F-SVM
F1Precision0.720.790.820.690.81
Recall0.670.700.670.740.78
F2Precision0.630.720.710.680.77
Recall0.590.780.890.700.85
F3Precision0.800.870.870.780.88
Recall0.740.740.740.670.81
F4Precision0.860.860.830.790.89
Recall0.930.930.890.810.89

新窗口打开| 下载CSV


表4列出了5种分类器中4个类别的精确率与召回率,对于肝炎,FOA-SVM与LFOA-F-SVM的精确率均达到0.8以上,并且LFOA-F-SVM使得召回率显著提高.肝硬化结节与其他进行分类时,相对于其它分类器,LFOA-F-SVM的精确率明显上升,并且召回率也较高.在异型增生结节分类中,LFOA-F-SVM分类器的精确率与召回率均达到最大.对于HCC分类,LFOA-F-SVM也得到了较高的精确率与回召率,均为0.89.从以上结果得知,LFOA-F-SVM分类算法对肝脏结节数据进行四分类时,会得到较高的分类器精度与查全率.

4 结论

本文提出一种改进的基于LF策略的SVM算法(LFOA-F-SVM)对肝癌演变过程中的结节进行分类,可为医生提供有意义的临床决策.与SVM和其他SVM的变体相比,LFOA-F-SVM的主要优点是考虑了半径与几何间距,对参数进行更好的全局寻优,从而得到更高的准确率.在UCI数据集与肝脏结节数据中的实验结果均可表明,LFOA-F-SVM不仅有着更高的分类精度,而且准确率更为稳定.随着3.0 T MRI在临床中的广泛应用,可得到更清晰的影像来提取特征,可将本文方法应用于该类设备数据来评估其分类性能.此外,在较多的数据集中,可考虑将此方法与深度学习结合,得到更准确的分类器模型.

利益冲突


参考文献

郑荣寿, 孙可欣, 张思维, 等

2015年中国恶性肿瘤流行情况分析

[J].中华肿瘤杂志,2019,41(1):19-28.

[本文引用: 1]

ZHENG R S, SUN K X, ZHANG S W, et al

Analysis on the prevalence of malignant tumors in China in 2015

[J].Chinese Journal of Oncology,2019,41(1):19-28.

[本文引用: 1]

LAMBIN P, RIOS-VELAZQUEZ E, LEIJENAAR R, et al

Radiomics: extracting more information from medical images using advanced feature analysis

[J].Eur J Cancer,2012,48(4):441-446.

DOI:10.1016/j.ejca.2011.11.036      [本文引用: 1]

XUE L Y, JIANG Z Y, FU T T, et al

Transfer learning radiomics based on multimodal ultrasound imaging for staging liver fibrosis

[J].Eur Radiol,2020,30(5):2973-2983.

DOI:10.1007/s00330-019-06595-w      [本文引用: 1]

WU J J, LIU A L, CUI J J, et al

Radiomics-based classification of hepatocellular carcinoma and hepatic haemangioma on precontrast magnetic resonance images

[J].BMC Med Imaging,2019,19(1):23.

DOI:10.1186/s12880-019-0321-9      [本文引用: 1]

BAEK J, SWANSON T A, TUTHILL T, et al. Support vector machine (SVM) based liver classification: fibrosis, steatosis, and inflammation[C]// International Ultrasonics Symposium. Las Vegas, NV. USA: IEEE, 2020: 1-4.

[本文引用: 1]

ANJU KRISHNA M, EDWIN D, HARIHARAN S. Classification of liver tumor using modified SFTA based multi class support vector machine[C]// International Conference on Current Trends in Computer, Electrical, Electronics and Communication, Mysore, India. USA: IEEE, 2017, 854-859.

[本文引用: 1]

LI H Z, GUO S, ZHAO H R, et al

Annual electric load forecasting by a least squares support vector machine with a fruit fly optimization algorithm

[J].Energies,2012,5(11):4430-4445.

DOI:10.3390/en5114430      [本文引用: 1]

苗续芝, 陈伟, 毕方明, 等

基于改进FOA-SVM的矿井火灾图像识别

[J].计算机工程,2019,45(4):267-274.

URL     [本文引用: 2]

MIAO X Z, CHEN W, BI F M, et all

Mine fire image recognition based on improved FOA-SVM

[J].Computer Engineering,2019,45(4):267-274.

URL     [本文引用: 2]

CHU D L, HE Q, MAO X H

Rolling bearing fault diagnosis by a novel fruit fly optimization algorithm optimized support vector machine

[J].J Vibroeng,2016,18(1):151-164.

[本文引用: 1]

VAPNIK V, CHAPELLE O

Bounds on error expectation for support vector machines

[J].Neural Comput,2000,12(9):2013-2036.

DOI:10.1162/089976600300015042      [本文引用: 1]

WU X H, ZUO W M, LIN L, et al

F-SVM: Combination of feature transformation and SVM learning via convex relaxation

[J].IEEE T Neur Net Lear,2018,29(11):5185-5199.

DOI:10.1109/TNNLS.2018.2791507      [本文引用: 5]

CORTES C, VAPNIK V J M L

Support-vector networks

[J].Mach Learn,1995,20(3):273-297.

[本文引用: 2]

石钰阳, 何平, 刘奕, 等

基于PSO-SVM模型的多区域多参数MRI脑胶质瘤MGMT分类

[J].科学技术创新,2021,17,15-18.

URL     [本文引用: 1]

SHI Y Y, HE P, LIU Y, et al

Multi-region and multi-parameter classification of MRI MGMT gliomas based on PSO-SVM model

[J].Scientific and Technological Innovation,2021,17,15-18.

URL     [本文引用: 1]

XU Y Y, YIN W T

A block coordinate descent method for regularized multiconvex optimization with applications to nonnegative tensor factorization and completion

[J].SIAM J Imaging Sci,2013,6(3):1758-1789.

DOI:10.1137/120887795      [本文引用: 1]

CHEN H L, YANG B, WANG S J, et al

Towards an optimal support vector machine classifier using a parallel particle swarm optimization strategy

[J].Appl Math Comput,2014,239,180-197.

[本文引用: 1]

THARWAT A, HASSANIEN, ABOUL E

Chaotic antlion algorithm for parameter optimization of support vector machine

[J].Appl Intell,2018,48(3):670-686.

DOI:10.1007/s10489-017-0994-0      [本文引用: 1]

单黎黎, 张宏军, 王杰, 等

一种改进粒子群算法的混合核ε-SVM参数优化及应用

[J].计算机应用研究,2013,30(6):1636-1639.

URL     [本文引用: 1]

SHAN L L, ZHANG H J, WANG J, et al

Parameters optimization and implementation of mixed kernels r epsilon-SVM based on improved PSO algorithm

[J].Application Research of Computers,2013,30(6):1636-1639.

URL     [本文引用: 1]

PAN W T

A new fruit fly optimization algorithm: Taking the financial distress model as an example

[J].Knowledge-Based Systems,2012,26,69-74.

DOI:10.1016/j.knosys.2011.07.001      [本文引用: 1]

王林, 吕盛祥, 曾宇容

果蝇优化算法研究综述

[J].控制与决策,2017,32(7):1153-1162.

URL     [本文引用: 1]

WANG L, LV S X, ZENG Y R

Literature survey of fruit fly optimization algorithm

[J].Control and Decision,2017,32(7):1153-1162.

URL     [本文引用: 1]

张水平, 王丽娜

果蝇优化算法的进展研究分析

[J].计算机工程与应,2021,57(6):22-29.

URL     [本文引用: 1]

ZHANG S P, WANG L N

Research and analysis on progress of fruit fly optimization algorithm

[J].Computer Engineering and Applications,2021,57(6):22-29.

URL     [本文引用: 1]

YANG X S, SUASH D. Cuckoo search via Lévy flights[C]//2009 World Congress on Nature & Biologically Inspired Computing (NaBIC), Coimbatore, India. USA: IEEE, 2009: 210-214.

[本文引用: 1]

SHEN L M, CHEN H L, YU Z, et al

Evolving support vector machines using fruit fly optimization for medical data classification

[J].Knowl-Based Syst,2016,96,61-75.

[本文引用: 1]

GU Q H, CHANG Y X, LI X H, et al

A novel F-SVM based on FOA for improving SVM performance

[J].Expert Syst Appl,2021,165,113713.

[本文引用: 3]

ZHANG Y H, WEN J H, WANG X B, et al

Semi-supervised learning combining co-training with active learning

[J].Expert Syst Appl,2014,41(5):2372-2378.

[本文引用: 1]

HARALICK R M, SHANMUGAM K, DINSTEIN I

Textural features for image classification

[J].IEEE T Syst Man Cy-S,1973,SMC-3(6):610-621.

[本文引用: 1]

GILLIES R, KINAHAN P, HRICAK H J R

Radiomics: Images are more than pictures, they are data

[J].Radiology,2016,278,563-577.

[本文引用: 1]

ZOU H, HASTIE T

Regularization and variable selection via the elastic net

[J].J Roy Stat Soc B,2005,67(5):768.

[本文引用: 1]

魏志宏, 闫士举, 韩宝三, 等

基于多输出的3D卷积神经网络诊断阿尔兹海默病

[J].波谱学杂志,2021,38(1):92-100.

URL     [本文引用: 1]

WEI Z H, YAN S J, HAN B S, et al

Diagnosis of Alzheimer's disease based on multi-output three-dimensional convolutional neural network

[J].Chinese J Magn Reson,2021,38(1):92-100.

URL     [本文引用: 1]

刘颖, 陈静聪, 胡小洋, 等

基于Mask RCNN的桥小脑角区脑膜瘤与听神经瘤分类定位研究

[J].波谱学杂志,2021,38(1):58-68.

URL     [本文引用: 1]

LIU Y, CHEN J C, HU X Y, et al

Classification and localization of meningioma and acoustic neuroma in cerebellopontine angle based on mask RCNN

[J].Chinese J Magn Reson,2021,38(1):58-68.

URL     [本文引用: 1]

谭章禄, 陈孝慈

改进的分类器分类性能评价指标研究

[J].统计与信息论坛,2020,35(9):3-8.

[本文引用: 1]

TAN Z L, CHEN X C

Study on evaluation index of improved classifier classification performance

[J].Statistics & Information Foroum,2020,35(9):3-8.

[本文引用: 1]

秦锋, 杨波, 程泽凯

分类器性能评价标准研究

[J].计算机技术与发展,2006,16(10):85-88.

URL     [本文引用: 1]

QIN F, YANG B, CHENG Z K

Research on measure criteria in evaluating classification performance

[J].Computer Technology and Development,2006,16(10):85-88.

URL     [本文引用: 1]

KIM T K, LEE K H, JANG H J, et al

Analysis of gadobenate dimeglumine-enhanced MR findings for characterizing small (1-2-cm) hepatic nodules in patients at high risk for hepatocellular carcinoma

[J].Radiology,2011,259(3):730-738.

[本文引用: 1]

/