随机加速梯度算法的回归学习收敛速度
On Stochastic Accelerated Gradient with Convergence Rate of Regression Learning
通讯作者:
收稿日期: 2020-04-21
基金资助: |
|
Received: 2020-04-21
Fund supported: |
|
This paper studies the regression learning problem from given sample data by using stochastic approximation (SA) type algorithm, namely, the accelerated SA.We focus on problems without strong convexity, for which all well known algorithms achieve a convergence rate for function values of
Keywords:
本文引用格式
程一元, 查星星, 张永全.
Cheng Yiyuan, Zha Xingxing, Zhang Yongquan.
1 引言
从前人研究的情况所知, Robbins和Monro[1]提出了梯度下降法的随机逼近. 此后, SA算法在随机优化和机器学习中得到了广泛的应用. Polyak[2]及Polyak和Juditsky[3]提出了SA方法的一个重要改进, 使用了更长的步长, 并对得到的迭代进行了相应的平均. Nemirovski等[6]证明了镜像下降SA在解决非强凸规划问题时表现出了不可低估的预期速度. Shalev-Shwartz等[5]和Nemirovski等[6]研究了强凸情形下的平均SGD, 得到了
为了解决一类凸规划(CP)问题, Nesterov在文献[12]中提出了加速梯度法. 现在, 加速梯度法也被Beck和Teboulle[13]、Tseng[14]和Nesterov[15-16]所推广. 解决一类新出现的复合CP问题. 2012年, Lan[17]进一步证明了AG方法不仅对于光滑CP问题是最优的, 而且对于一般的非光滑和随机CP问题也是最优的. Ghadimi和Lan[18-19]提出了加速随机逼近(AC-SA)算法, 并对Nesterov的光滑凸规划优化方法进行了适当的改进. 随后, 他们[20]开发了一个通用的加速随机逼近(AC-SA)算法框架, 该框架可以专门用于产生求解强凸随机组合优化问题的最优或近似最优方法. 基于上述工作, 我们分别研究和分析了经典最小二乘回归和logistic回归问题的加速SA算法, 该算法的收敛速度为
本文考虑在欧氏空间中闭凸集上的一个凸函数
论文的其余部分组织如下: 第2节简要介绍了最小二乘回归的加速梯度算法; 第3节研究了logistic回归的加速梯度算法; 在第4节中, 将得到的结果与已知的相关工作进行了比较; 最后用所得结果对本文进行了总结.
2 最小二乘回归的随机加速梯度算法
令
(1) 训练数据
(2)
(3)
(4) 接下来, 将
基于上述(1)–(4)的假设, 提出如下算法:
算法2.1 最小二乘回归的随机加速梯度算法.
Require
1: Set
2: Set
3: Set
4: Set
5: Compute
6: Set
7: Set
该算法将数据样本
梯度的无偏估计, 即
在训练过程中, 计算出相对残差
定理2.1 在假设(1)–(4)满足的情况下,
则有
为了证明定理2.1, 我们需要如下引理2.1 (参见文献[9]).
引理2.1 让
然后有
接下来, 我们证明定理2.1.
证 首先, 令
其中第二个不等式利用了假设条件(2). 由于
则
上述不等式是根据矩阵
故有
由算法2.1的第4行, 知
得
同时
结合不等式(2.2)和(2.4), 得到
由上述不等式, 得
由引理2.1, 知
因为
所以
故有
所以
最后一个不等式, 来自下面的假设
由假设(4), 有
对不等式(2.5)两边对
取
引理2.1证毕.
通过对
推论2.1 假设回归学习的加速梯度算法中的
则对任意的
证 利用引理2.1中(2.1)式和推论2.1的结果, 当
显然有
从而有
从定理2.1的结果, 可得到
推论2.1证毕.
推论2.1表明, 在没有强凸性和Lipschitz连续梯度假设的情况下, 所提出的随机加速算法能够达到
3 Logistic回归学习的随机加速梯度算法
本章考虑逻辑损失函数:
(B1)
(B2)
同样, 与Bach等人文献[11]的算法不同, 对Hessian算子不作全局最优的假设.
在算法3.1展示了Logistic回归的加速随机梯度算法.在该算法中,
算法3.1 逻辑回归的加速随机梯度近似算法.
Require
1: Set
2: Set
3: Compute
4: Set
5: Compute
6: Set
7: Set
算法3.1的基本框架与算法2.1相同, 除了梯度的无偏估计是由不同的损失函数求导的.接下来, 对算法的收敛速度进行了非渐近分析, 得到加速随机梯度算法的收敛速度.
定理3.1 让
然后, 对于任意
证 让
在上式中, 由于
很容易验证下面这个矩阵是半正定的
其最大特征值满足
结合算法3.1第4行和式(3.1), 令
对比式(3.1), 存在
有
这里的不等式是因为半正定矩阵, 类似式(2.4), 有
所以得到
从算法3.1第4行有
结合式(3.1), 有
由上述不等式, 得到
利用引理2.1, 有
因为
然后
得到
这里的不等式用了定理的条件
然后, 有
根据假设(B2), 有
对不等式(3.2)关于
取
定理3.1证毕.
类似于定理3.1, 选择特定的
推论3.1 假设逻辑回归的加速梯度算法中的
对于任意的
推论3.1表明, 在没有强凸性和Lipschitz连续梯度假设的情况下, 所提出的算法能够达到
4 总结与比较
第二节和第三节分别研究了最小二乘回归和最小二乘学习问题的加速随机逼近型算法. 利用目标函数的凸性, 得出了加速随机逼近学习算法的上界. 在本节中, 将讨论本文的研究结果与其他近期研究的关系.
Bach和Moulines[9]的工作可能与我们的工作密切相关, 他们研究了凸函数极小化的随机逼近问题, 需要要求其在某些点的梯度的无偏估计, 其中包括基于经验风险最小化的机器学习方法. Bach和MouLein所考虑的样本设置与我们的相似:学习者给出了样本集
在本文中考虑了两种随机逼近(SA)算法, 经典最小二乘回归和logistic回归问题的加速SA算法, 该算法的收敛速度为
参考文献
A Stochastic approximation method
,DOI:10.1214/aoms/1177729586 [本文引用: 2]
Acceleration of stochastic approximation by averaging
,
Pegasos: Primal estimated sub-gradient solver for SVM
,
Robust stochastic approximation approach to stochastic programming
,DOI:10.1137/070704277 [本文引用: 1]
Iteration-complexity of first-order penalty methods for convex programming
,DOI:10.1007/s10107-012-0588-x [本文引用: 2]
Accelerated gradient methods for nonconvex nonlinear and stochastic programming
,
Adaptive subgradient methods for online learning and stochastic optimization
,
On the efficiency of a randomized mirror descent algorithm in online optimization problems
,DOI:10.1134/S0965542515040041 [本文引用: 2]
A fast iterative shrinkage-thresholding algorithm for linear inverse problems
,DOI:10.1137/080716542 [本文引用: 1]
Incrementally updated gradient methods for constrained and regularized optimization
,DOI:10.1007/s10957-013-0409-2 [本文引用: 1]
Smooth minimization of nonsmooth functions
,DOI:10.1007/s10107-004-0552-5 [本文引用: 1]
Subgradient methods for huge-scale optimization problems
,
An optimal method for stochastic composite optimization
,
Optimal stochastic approximation algorithms for strongly convex stochastic composite optimization Ⅰ: A Generic Algorithmic Framework
,DOI:10.1137/110848864 [本文引用: 2]
Accelerated gradient methods for nonconvex nonlinear and stochastic programming
,
Mini-batch stochastic approximation methods for nonconvex stochastic composite optimization
,
/
〈 | 〉 |