Loading [MathJax]/jax/output/HTML-CSS/jax.js
  数学物理学报  2015, Vol. 35 Issue (6): 1136-1145   PDF (359 KB)    
扩展功能
加入收藏夹
复制引文信息
加入引用管理器
Email Alert
RSS
本文作者相关文章
李英毅
张海斌
高欢
一类修正邻近梯度法及其收敛性
李英毅, 张海斌, 高欢    
北京工业大学应用数理学院 北京 100124
摘要: 许多现代统计和信号应用问题都可以归结为非光滑凸优化问题,该文提出了一类适用于求解非光滑凸优化问题的修正邻近梯度法.算法的特点是采用一个自适应步长,并且该算法的线性收敛性不需要目标函数的强凸性作为前提.
关键词: 非光滑凸优化     修正邻近梯度法     线性收敛性    
A Modified Proximal Gradient Method and Its Convergence Rate
Li Yingyi, Zhang Haibin, Gao Huan    
College of Applied Sciences, Beijing University of Technology, Beijing 100124
Abstract: In this paper, a modified proximal gradient method is proposed for solving a class of nonsmooth convex optimization problems, which arises in many contemporary statistical and signal applications. The proposed method adopts the self-adaptive stepsize. In addition, it is linearly convergent without the assumption of the strong convexity of the objective function.
Key words: Nonsmooth convex optimization     Modified proximal gradient method     Linear convergence    
1 引言

我们主要考虑如下形式的无约束非光滑凸优化问题

minxRnF(x)=f(x)+h(Ax), (1.1)
其中 f:RnR 是下半连续凸函数,h:RmR 是具有梯度 Lipschitz 连续的 μ -强凸函数,矩阵 ARm×n.

许多现代统计和信号应用领域的问题 (如:信号噪声处理,压缩感知等) 都可以归结为具有问题 (1.1) 形式的非光滑凸优化问题. 众所周知,一个常用来估计稀疏变量 x 的技术手段是LASSO[16],利用它可以同时选择和估计变量. LASSO 可以被看作 1 -范数正则化问题,也就是问题 (1.1) 中的函数形式如

f(x)=λx1h()=12d2, (1.2)
其中最小化 Axd2 的作用是减少噪声,同时 1 -范数最小化可以使问题的解 x 稀疏. 稀疏也意味着挑选出了变量 x 的具有决定作用的分量.

Bakin[1] 在 1999 年提出了适用于变量分块的 LASSO,同时也给出了问题的算法. 他当时提出的问题可以看成是问题 (1.1) 中函数形式为

f(x)=JJwJxJKJh(Ax)=12Axd2, (1.3)
其中 J 是指标集 {1,,n} 的一个划分,|J| 表示子集 JJ 的基数(元素个数),xJR|J|. {wJ}JJ 是给定的非负常数集合,并且 xJKJ:=xTJKJxJ=BJxJ, 这里的 BJR|J|×|J| 是个非奇异矩阵,KJ=BTJBJ0 表示其是个对称正定矩阵.

这个形式的问题相当于用在变量为分块形式时的 LASSO. 更进一步, 当取 KJ=I,这个问题就是块 LASSO 手段[19]. 大家可以参考文献 [2, 10]去了解块 LASSO 技术的应用, 也可以阅读文献[11] 去进一步了解在统计方面块 LASSO 的应用.

但是,由于块 LASSO 手段并不能使变量的分块稀疏, 文献 [7]中提出一个可以使变量分块稀疏的手段. 这个技术手段可以称为稀疏块 LASSO,同时也可以看成问题 (1.1) 中函数形式为

f(x)=JJwJxJ+λx1h(Ax)=12Axd2. (1.4)
使用邻近梯度法 (PGM) 来求解问题 (1.1),取函数形式为 (1.3) 或者 (1.4)式. 线性收敛速率分别由文献[20]和[21] 证明.

本文主要结果如下.

在本文中,我们提出了一类修正的邻近梯度法来求解相同问题. 在保证算法是线性收敛的基础上, 与邻近梯度法相比,主要是以下方面做出了修正.

(1) 我们提出的修正邻近梯度法中的步长 αk 是自适应的, 而邻近梯度法中的步长需要 3 次或更多次线搜索来得到. 从这个意义上来讲, 本文中的修正邻近梯度法的计算代价要小.

(2) 邻近梯度法的线性收敛性需要步长有一个理论上的下界 α_>0 和其他的前提条件,但是方法本身并不能保证步长不会太小. 而我们提出的修正邻近梯度法中的步长 αk 有一个明确的下界. 这也解决了邻近梯度法的步长可能要很小的缺点.

本文内容安排如下.

修正邻近梯度法的算法框架是在第3节给出, 它的线性收敛性是在第4节给出. 第5节也是最后一节是我们的数值实验.

2 预备知识

我们首先介绍几个基本的定义.

定义 2.1 设集合 SRn,如果对任意的 x1,x2S 以及任意的 α[0,1],有 αx1+(1α)x2S, 那么称 S 是凸集.

定义 2.2 设集合 SRn 为凸集,α[0,1],f 是定义在 S 上的函数. 如果对任意的 x1,x2S,有 f(αx1+(1α)x2)αf(x1)+(1α)f(x2),f 为 S 上的凸函数.

函数 f 在集合 S 上是μ -强凸函数当且仅当函数 f(1/2)μ2 在集合S上是凸函数.

定义 2.3 函数 f 称为 coercive 的,如果 limx+f(x)=+.

定义 2.4 函数h被称为 L -Lipschitz 连续的,如果存在正数 L,使得对任意 x,y 都有下式成立 h(x)h(y)Lxy. 这里也称 L 是函数 h 的 Lipschitz 常数. 同理,如果称函数 h 是梯度 L -Lipschitz 连续的,就表示其梯度满足 h(x)h(y)Lxy.

接下来介绍一个求解非光滑凸优化问题 (1.1) 的常用方法: 邻近梯度法 (PGM)[3, 4].

先介绍邻近算子的定义. 对于凸函数 φ(x) (可能非光滑),Moreu-Yoshida 邻近算子[14] proxφ:RnRn 定义如下

proxφ(x)=argminyRnφ(y)+12yx2. (2.1)
因为 12x2 是强凸函数,φ() 是凸函数, 那么问题 (2.1) 的最小值存在且唯一,所以邻近算子 proxφ 在解决凸优化问题时有很好的适用性.

使用邻近算子,我们可以把问题问题 (1.1) 的最优性条件写成一个不动点方程

x=proxαf(xαATh(Ax)), (2.2)
对于某些 α>0. 邻近梯度法 (PGM) 可以通过如下迭代公式来解上面的不动点方程
xk+1=proxαkf(xkαkATh(Axk)),k=0,1,2,, (2.3)
其中 αk>0 是步长.

即使被经常采用,邻近梯度法的收敛性分析还是非常少的. 例如,通过 文献[5,定理3.4],我们只知道如果步长 αk 满足

0<α_αkˉα<2LA2,k=0,1,2,, (2.4)
其中 L 是函数 h 的梯度 h 的 Lipschitz 常数.

那么由邻近梯度法 (2.3) 得到的迭代序列 {xk}k0 收敛到问题 (1.1) 的一个解. 收敛速率是次线性 O(1/k) (参见文献[12]). 除了一些特殊情况外, 它的线性收敛速率还是没有得到证明. Luo[9],Tseng[13], Luo[20] 和 Zhang[21] 已经证明了邻近梯度法 (PGM) 在 f(x) 满足某些条件时的线性收敛速率,并且这不需要 h(Ax) 是强凸函数的前提. 特别地,在一些应用中,不论是 LASSO,块 LASSO,或者稀疏块 LASSO, 测量值的个数一般是远小于未知量的个数,也就是说 mn,所以矩阵 A 不可能列满秩,这意味着 h(Ax) 不可能是强凸函数.

3 修正邻近梯度法

考虑求解问题 (1.1),取函数形式为 (1.3) 或者 (1.4)式. 在这一节,我们将给出解此问题的修正邻近梯度法 (MPGM) 的框架以及分析.

对问题(1.1)的MPGM算法

步 1 任意初始点 x0 和一个比较小的正数 ε,取 k=0.

步 2 计算 yk=proxf(xkATh(Axk)), 如果 xkykε,停止;

其它,计算 zk=xkyk+AT(h(Axk)h(Ayk)).

αk=xkyk2/zk2,计算 xk+1=xkαkzk.

步 3 如果 xk+1xkε,停止; 否则, 取 k=k+1,转步 2.

引理 3.1 考虑问题 (1.1),ˉX 表示该问题的最优解集合. 假设 ˉX,那么

(1) ˉX 是一个闭凸集.

(2) xAx 在集合ˉX内是个常值函数,即存在 ˉsdom(h) 使得对任意 xˉX,有

Ax=ˉs. (3.1)

(1) 因为问题 (1.1) 的目标函数 F(x) 是个下半连续凸函数,根据文献 [8,性质1.1.6 和 性质 1.2.2],水平集 {x|F(x)minF} 是个闭凸集.

(2) 相同的证明大家可以参考文献 [21,引理 2] 或者文献 [20,性质 2],这里我们就不再赘述.

引理 3.2 假设问题 (1.1) 的最优解集合 ˉX 非空. 对任意 xdom(f+hA), 令 y(x)=proxf(xATh(Ax)),  ˉX1={x|x=y(x)}ˉX2={x|x=y(x)AT(h(Ax)h(Ay(x)))}. 那么 ˉX 是一个闭凸集,并且 ˉX1=ˉX2=ˉX.

对任意 xˉX1,y(x)=x,h(Ax)=h(Ay(x)),我们有 xˉX2. 因此,ˉX1ˉX2. 假设存在 xˉX2 但是 x 不属于 ˉX1,即xy(x)0. 那么 xy(x)+AT(h(Ax)h(Ay(x)))2=xy(x)2+2xy(x),AT(h(Ax)h(Ay(x)))+AT(h(Ax)h(Ay(x)))2xy(x)2+2AxAy(x),h(Ax)h(Ay(x))xy(x)2+2μAxAy(x)2>0. 这与 xˉX2 矛盾. 也就是说,ˉX2ˉX1. 从而, ˉX1=ˉX2.

对任意 xˉX,由问题 (1.1) 的最优性条件和性质, 当且仅当 0f(x)+ATh(Ax)xATh(Ax)x+f(x)x=proxf(xATh(Ax))xˉX1. 因此,ˉX1=ˉX2=ˉX.

注 3.1 引理 3.2 说明如果 MPGM 算法产生的序列收敛,那么它肯定收敛于问题 (1.1) 的某个最优点,这与邻近梯度法的结果一致.

引理 3.3 MPGM 算法中的步长 αk 满足

αk1(1+LA2)2,  k=1,2,, (3.2)
其中 L 是梯度 h(x) 的 Lipschitz 常数.

1αk=xkyk+AT(h(Axk)h(Ayk))2xkyk21+2xkyk,AT(h(Axk)h(Ayk))xkyk2+AT(h(Axk)h(Ayk))2xkyk21+2LA2+(LA2)2=(1+LA2)2. 证毕.

注 3.2 引理 3.3 说明 MPGM 算法的步长有一个明确的正数下界, 因此不可能无限地小. 而邻近梯度法并不能满足这一点.

另外,在每次迭代中,MPGM 算法需要另外计算一次函数梯度, 但是邻近梯度法需要3次或更多次线搜索. 所以 PGM 算法的计算代价要高于 MPGM 算法.

4 MPGM算法的线性收敛性

在这一节,我们将证明在上一节提出的修正邻近梯度法 (MPGM) 的线性收敛性. 在此之前,我们回顾并写出我们解决问题的前提条件.

前提条件

(A1) f,h 是下半连续凸函数; f+hA 是 coercive 的;

(A2) hμ -强凸函数并且是梯度 L -Lipschitz 连续的,其中 μ,L>0;

(A3) H(s):=2h(s)L-Lipschitz 连续函数,L>0.

(A4) {误差界条件:} 令 ˉX 表示问题 (1.1) 的最优解集, distˉX(x):=minxˉXxx.

那么对任意的 ξminF(x),存在 κ,ε>0 使得

distˉX(x)κproxf(xATh(Ax))x, (4.1)

对任意满足 proxf(xATh(Ax))xεF(x)ξx 成立.

误差界条件 (A4) 对于 MPGM 算法的线性收敛性证明是非常重要的.

我们给出下面的引理来推导出 MPGM 算法的线性收敛性证明.

引理 4.1 对任意 xˉX,由引理 3.1,ˉs=Ax, 存在邻域 B(ˉs,δ),使得当 AxB(ˉs,δ), y=proxf(xATh(Ax)),η[Ax,ˉs],ξ[Ax,Ay],有下式成立 A(xy),(H(η)H(ξ))A(xx)μA(xx)20.

注意到 ˉX 是闭凸集. 如果 A(xx)=0,那么 xˉX, 并且由引理 3.2,yˉX. 假设 A(xx)0. 当 x 充分靠近 xAxAx 时, 由于临近算子是非扩张的,再由文献 [20,引理 2]有 xˉxκAxˉs, 这里 ˉx:=argminwˉX{xw}, 我们有 AyAx=AyAˉxAyˉxAxATh(Ax)ˉx+ATh(Aˉx)A(xˉx+AT(h(Ax)h(Aˉx)))A(κAxˉs+AT(h(Ax)h(ˉs)))(κA+LA2)Axˉs=MAxˉs=MA(xx), 其中 M:=κA+LA2,再由条件 (A3) 和 η[Ax,ˉs],ξ[Ax,Ay], A(xy),(H(η)H(ξ))A(xx)A(xy)LηξA(xx)A(xy)L{A(xx)+A(xy)}A(xx)=LA(xy)2A(xx)+LA(xy)A(xx)2=LA(xy){A(xy)A(xx)+A(xx)2}LA(xy){(A(xx)+A(xy))A(xx)+A(xx)2}LA(xy){A(xy)A(xx)+2A(xx)2}LA(xy){MA(xx)2+2A(xx)2}L(M+2)A(xy)A(xx)2.x 充分靠近 x 时,A(xy) 无限接近 0, 所以我们有 L(M+2)A(xy)μ. 结论得以证明.

定理 4.1 考虑求解问题 (1.1),取函数形式为 (1.3) 或者 (1.4). 如果 ˉX,那么

对任意 ζR,{x|F(x)ζ} 是有界的. 并且误差界条件 (4.1) 成立.

证明见文献 [21,定理 2] 和文献 [20,定理1].

现在,我们可以证明我们提出的修正邻近梯度法的线性收敛性了.

定理 4.2 假设函数 fh 满足条件 (A1)--(A4),并且问题 (1.1) 的最优解集 ˉX 非空. 那么由上面的 MPGM 算法得到的迭代序列是收敛的,并且当初始点 x0 离最优解集 ˉX 充分近时,该迭代序列以线性的速率收敛到最优解集 ˉX 中的一个点.

在 MPGM 算法中, yk=argminx{f(x)+12xxk+ATh(Axk)2}, k=0,1,2,. 所以, xkykATh(Axk)f(yk). 因此对任意的 xˉX,由问题 (1.1) 的最优性条件, ATh(Ax)f(x). 由 f 的单调性[15],我们有

xkykAT(h(Axk)+ATh(Ax)),  ykx0, (4.2)
xkykATh(Axk)+ATh(Ax),  xkx(xkyk)0. 所以我们可以推得 xkx,xkyk+xkyk,AT(h(Axk)h(Ax))xkx,AT(h(Axk)h(Ax))+xkyk2. 根据函数 h 的强凸性,我们进一步有
xkx,xkyk+xkyk,AT(h(Axk)h(Ax))=xkx,xkyk+A(xkyk),h(Axk)h(Ax)A(xkx),h(Axk)h(Ax)+xkyk2μA(xkx)2+xkyk2. (4.3)
从而,我们有
xk+1x2=xkxαkzk2=xkxαk(xkyk+AT(h(Axk)h(Ayk)))2=xkx22αkxkx,xkyk+AT(h(Axk)h(Ayk))+α2kzk2=xkx22αk{xkx,xkyk+xkyk,AT(h(Axk)h(Ax))+xkx,AT(h(Axk)h(Ayk))xkyk,AT(h(Axk)h(Ax))}+αkxkyk2xkx22αk(μA(xkx)2+xkyk2)+αkxkyk22αk{A(xkx),h(Axk)h(Ayk)A(xkyk),h(Axk)h(Ax)}=xkx22αkμA(xkx)2αkxkyk22αk{A(xkx),H(ξ)A(xkyk)A(xkyk),H(η)A(xkx)}=xkx22αkμA(xkx)2αkxkyk2+2αkA(xkyk),(H(η)H(ξ))A(xkx)=xkx2αkxkyk2+2αk{A(xkyk),(H(η)H(ξ))A(xkx)μA(xkx)2}xkx2αkxkyk2xkx21(1+LA2)2xkyk2=xkx2ρxkyk2, (4.4)
这里 ρ:=1(1+LA2)2. 第一个不等式由 (4.3) 式得到, 第二个不等式来源于引理 4.1,由引理 3.3 可以推出第三个不等式.

综上,我们得到序列 {xk} 是有界的并且随着 k+, xkyk0. 因此,它存在收敛的子序列 {xk(j)},并且它的极限点 x 是同时满足 {xk(j)}xyk(j)x 的. 取任意 xRnwf(x). 由 (4.2) 式和 f 的单调性 xkykAT(h(Axk))w,  ykx0. 那么沿 k(j) 取极限得到 AT(h(Ax))w,  xx0. 因为 f 是极大单调算子[6],我们可以得到 AT(h(Ax))f(x). 因此,xˉX. 由 (4.5) 式知 xk+1x2xkx2ρxkyk2, 那么,序列 {xkx} 收敛. 又由于它的子序列 {xk(j)x} 收敛到 0,所以 {xkx} 收敛到 0. 从而有,xkx. 记 ˉxk:=argminxˉXxxk, k=1,2,, 由于 ˉX 是闭集,从而 ˉxkˉX. 由 (4.5) 式和定理 4.1推得 xk+1ˉxk+12xk+1ˉxk2xkˉxk2ρxkyk2(1ρκ2)xkˉxk2, 这意味着 {xk} 以线性速率收敛到最优解集 ˉX 中的一点.

5 数值实验

在本节中,我们同时用我们提出的修正邻近梯度法 (MPGM) 和原始的邻近梯度法 (PGM) 来求解取函数形式为 (1.4)式的问题(1.1). 我们选取了几类不同的数据来测试两个算法的效果,并把它们做了比较与分析. 数值实验是在一台具有 Intel Core CPU 2.20 GHz 和2 GB RAM的电脑上进行的. 软件平台是 MATLAB 8.0.0 (R2012b). 终止误差精度 (ε) 取 106.

在两个算法中,矩阵 A,向量d 和 初始向量 x0 是随机选取的. 至于函数 (1.4) 中的参数与分块,我们选取 λ=wJ=1,并把集合{1,2,,n} 分为 10 块. 不失一般性,对称正定矩阵 KJ 我们设为单位矩阵. 这是由于对称正定矩阵与单位矩阵合同,选取单位矩阵与其情况等价.

我们测试了两个算法的计算时间和最优目标函数值来显示它们在计算效果方面的差异,数值实验结果见表 1.

表 1 PGM 算法与 MPGM 算法的计算时间与最优值结果

表 1 中,第一列中是矩阵 A 的维数. 邻近梯度法 (PGM) 的测试结果 (计算时间和最优函数值) 分别放在第二和第三列. 对应的,修正邻近梯度法 (MPGM)的结果放在第四和第五列. 表中的数据显示两个算法的最优值是几乎相同的,但是 MPGM 算法是在较少的计算时间内完成的. 这很好地对应了我们在引言的最后部分所 说明的我们所提出的修正邻近梯度法 (MPGM) 相对于邻近梯度法 (PGM) 的改进. 主要原因是我们提出的修正邻近梯度法中的步长 αk 是自适应的,而邻近梯度法中的步长需要3次或更多次线搜索来得到. 同时还有步长 αk 在我们提出的 MPGM 算法中有个明确的正数下界,从而每一步迭代都有明确的行进. 而 PGM 算法可能会出现步长很小的情况,这样可能会导致迭代的效果相对改变不明显.

参考文献
[1] Bakin S. Adaptive regression and model selection in data mining problems[D]. Canberra:Australian National University, 1999
[2] Bach F. Consistency of the group Lasso and multiple kernel learning. The Journal of Machine Learning Research, 2008, 9:1179-1225
[3] Boikanyo O A, Morosanu G. Four parameter proximal point algorithms. Nonlinear Analysis, 2011, 74:544-555
[4] Combettes P L, Pesquet J C. Proximal splitting methods in signal processing. 2010, arXiv:0912.3522v4[math.OC]
[5] Combettes P L, Wajs V R. Signal recovery by proximal forward-backward splitting. Multiscale Modeling and Simulation, 2005, 4:1168-1200
[6] Eckstein J, Bertsekas D P. On the Douglas-Rachford splitting method and the proximal point algorithm for maximal monotone operators. Mathematical Programming, 1992, 55:293-318
[7] Friedman J, Hastie T, Tibshirani R. A note on the group Lasso and a sparse group Lasso. 2010, arXiv:1001.0736v1[math.ST]
[8] Hiriart-Urruty J B, Lemarechal C. Fundamentals of Convex Analysis. Berlin:Springer-Verlag, 2001
[9] Luo Z Q, Tseng P. On the linear convergence of descent methods for convex essentially smooth minimization. SIAM Journal on Control and Optimization, 1992, 30(2):408-425
[10] Ma S, Song X, Huang J. Supervised group Lasso with applications to microarray data analysis. BMC bioinformatics, 2007, DOI:10.1186/1471-2105-8-60
[11] Meier L, Van De Geer S, Buhlmann P. The group Lasso for logistic regression. Journal of the Royal Statistical Society, 2008, 70(1):53-71
[12] Nesterov Y. Introductory Lectures on Convex Optimization. Boston:Kluwer, 2004
[13] Tseng P. Approximation accuracy, gradient methods, and error bound for structured convex optimization. Mathematical Programming, 2010, 125(2):263-295
[14] Rockafellar R T, Wets R J B. Variational Analysis. New York:Springer-Verlag, 1998
[15] Rockafellar R T. Convex Analysis. Princeton:Princeton Univ Press, 1970
[16] Tibshirani R. Regression shrinkage and selection via the Lasso. Jourbal of the Royal Statistical Society, 1996, 58:267-288
[17] Vincent M, Hansen N R. Sparse group lasso and high dimensional multinomial classification. Journal of Computational Statistics and Data Analysis, 2012, arXiv:1205.1245v1[stat.ML]
[18] Yang H, Xu Z, King I, et al. Online learning for group Lasso. In 27th International Conference on Machine Learning, Iaifa, Israel:DBLP, 2010
[19] Yuan M, Lin Y. Model selection and estimation in regression with grouped variables. Journal of the Royal Statistical Society, 2006, 68(1):49-67
[20] Zhang H B, Jiang J, Luo, Z Q. On the linear convergence of a proximal gradient method for a class of nonsmooth convex minimization problems. Journal of Operations Research Socienty of China, 2013, 1(2):163-186
[21] Zhang H B, Wei J, Li M, et al. On proximal gradient method for the convex problems regularized with the group reproducing kernel norm. Journal of Global Optimization, 2014, 58(1):169-188
一类修正邻近梯度法及其收敛性
李英毅, 张海斌, 高欢