Processing math: 1%

数学物理学报, 2024, 44(4): 1080-1091

求解非光滑鞍点问题的黄金比率原始对偶算法

聂佳琳,, 龙宪军,*

重庆工商大学数学与统计学院 重庆 400067

A Golden Ratio Primal-Dual Algorithm for a Class of Nonsmooth Saddle Point Problems

Nie Jialin,, Long Xianjun,*

School of Mathematics and Statistics, Chongqing Technology and Business University, Chongqing 400067

通讯作者: *龙宪军, E-mail: xianjunlong@ctbu.edu.cn

收稿日期: 2023-06-5   修回日期: 2024-03-25  

基金资助: 国家自然科学基金(11471059)
重庆市自然科学基金(cstc2021jcyj-msxmX0721)
重庆市研究生导师团队建设项目(yds223010)
重庆市研究生创新型科研项目(CYS240567)
重庆工商大学团队项目(ZDPTTD201908)

Received: 2023-06-5   Revised: 2024-03-25  

Fund supported: NSFC(11471059)
NSF of Chongqing(cstc2021jcyj-msxmX0721)
Team Building Project for Graduate Tutors in Chongqing(yds223010)
Innovation Project for Graduate Students of Chongqing(CYS240567)
Project of Chongqing Technology and Business University(ZDPTTD201908)

作者简介 About authors

聂佳琳,E-mail:niejialin00@163.com

摘要

该文提出了一类新的黄金比率原始对偶算法求解非光滑鞍点问题, 该算法是完全可分裂的. 在一定的假设下, 证明了由算法迭代产生的序列收敛到问题的解, 同时证明了 O(1N) 遍历收敛率. 数值实验表明该文提出的算法比 Zhu, Liu 和 Tran-Ding 文中的算法有更少的迭代步数和计算机耗时.

关键词: 鞍点问题; 黄金比率; 原始对偶算法; 收敛性; 遍历收敛率

Abstract

In this paper, we present a new golden ratio primal-dual algorithm to solve the nonsmooth saddle point problems, which is full-splitting.Under some appropriate conditions, we prove the sequence generated by the algorithm iteration converges to the solution of the problem, as well as an O(1/N) ergodic convergence rate result. Finally, with comparisons to Zhu, Liu and Tran-Ding's algorithms, we give some numerical experiments to show the less iterate numbers and CPU time of the proposed method.

Keywords: Saddle point problems; Golden ratio; Primal-dual algorithm; Iterate convergence; Ergodic convergence

PDF (2237KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

聂佳琳, 龙宪军. 求解非光滑鞍点问题的黄金比率原始对偶算法[J]. 数学物理学报, 2024, 44(4): 1080-1091

Nie Jialin, Long Xianjun. A Golden Ratio Primal-Dual Algorithm for a Class of Nonsmooth Saddle Point Problems[J]. Acta Mathematica Scientia, 2024, 44(4): 1080-1091

1 引言

RpRq 是有限维欧式空间, 并且每个空间上的內积和诱导范数分别表示为 , 假设 h:\mathbb{R}^{q}\rightarrow \mathbb{R} 是凸函数, f:\mathbb{R}^{p}\rightarrow \mathbb{R}\cup\{+\infty\} g:\mathbb{R}^{q}\rightarrow \mathbb{R}\cup\{+\infty\} 是扩展实值下半连续凸函数, \Phi :\mathbb{R}^{q} \times \mathbb{R}^{p} \rightarrow \mathbb{R} 是连续可微函数, K:\mathbb{R}^{q} \rightarrow \mathbb{R}^{p} 是有界线性算子. 函数 f 的共轭函数定义为 f^*(y)=\sup\limits_{x\in\mathbb{R}^{p}}\{\langle{y,x}\rangle-f(x)\} .

考虑如下带有双线性耦合项的鞍点问题

\begin{equation} \min_{x\in \mathbb{R}^{q}} \max_{y\in \mathbb{R}^{p}}\{ g(x) + \langle Kx,y \rangle - f^{*}(y)\}, \end{equation}
(1.1)

问题 (1.1) 在许多领域有着广泛的应用, 比如信号与图像处理、压缩感知、机器学习、博弈论等, 许多学者研究了问题 (1.1), 详情见文献 [1-3]. 求解问题 (1.1) 的相关算法已经有很多, 其中最经典的是 Arrow-Hurwicz 方法[4], 即原始对偶算法. 从初始点 (x_{0},y_{0})\in \mathbb{R}^{q}\times \mathbb{R}^{p} 开始, 具体迭代为

\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} x_{n}=\mbox{Prox}_{\tau g}(x_{n-1}-\tau K^{\top}y_{n-1}),\\ y_{n}=\mbox{Prox}_{\sigma f^{*}}(y_{n-1}+\sigma Kx_{n}), \end{array} \right. \end{aligned} \end{equation*}

其中 \tau>0, \sigma>0 是步长参数. 该方法在图像处理中也被称作原始对偶混合梯度算法. 若 f^{*} 的定义域有界且步长很小时, 可基于原始对偶间隙函数得到 O(\frac{1}{N}) 的遍历收敛率, 具体的收敛性分析[2,5]. 但是 Arrow-Hurwicz 方法在一般情况下不收敛[6]. 为了克服这一缺点, 许多学者提出了不同的改进方法[7-10].

受文献 [9] 的启发, 周丹青等[11] 提出了一类黄金比率原始对偶算法求解如下鞍点问题

\begin{equation} \min_{x\in \mathbb{R}^{q}} \max_{y\in \mathbb{R}^{p}}\{ h(x) + g(x) + \langle Kx,y \rangle - f^{*}(y)\}, \end{equation}
(1.2)

这里 h 是可微函数. 具体迭代为

\begin{equation} \begin{aligned} \left\{ \begin{array}{ll} z_{n} = \frac{\psi-1}{\psi}x_{n-1} + \frac{1}{\psi}z_{n-1},\\ x_{n} = \mbox{Prox}_{\tau g}(z_{n} -\tau K^{\top}y_{n-1}- \tau \nabla h(x_{n-1})),\\ y_{n} = \mbox{Prox}_{\sigma f^{*}}(y_{n-1} + \sigma Kx_{n}), \end{array} \right. \end{aligned} \end{equation}
(1.3)

其中 \tau, \sigma>0 . \tau(\sigma\|K\|^{2}+2L_{h})\leq\psi , \psi\in(1,\phi] ( \phi 是黄金比率), 周丹青等证明了算法 (1.3) 的收敛性以及 O(\frac{1}{N}) 遍历收敛率.

注意到, 在问题 (1.1) 和 (1.2) 中涉及到一个双线性函数, 但是在实际应用中许多函数往往不满足双线性性. 因此, 如何研究带非线性二元函数的鞍点问题显得尤为重要. 最近, Zhu 等[12] 考虑了如下鞍点问题

\begin{equation} \min_{x\in \mathbb{R}^{q}} \max_{y\in \mathbb{R}^{p}}\{\mathcal{L}(x,y)=h(x) + g(x) + \Phi(x,y) - f^{*}(y)\}, \end{equation}
(1.4)

这里 h 是可微函数. Zhu 等[12] 提出了如下原始对偶算法

\begin{equation} \begin{aligned} \left\{ \begin{array}{ll} u_{n} = \mbox{Prox}_{\rho_{n-1}(f^{*}(\cdot)-\Phi(x_{n-1},\cdot))}(y_{n-1}),\\[2mm] s_{n} = \nabla_{y}\Phi(x_{n-1},u_{n})-\frac{1}{\rho_{n-1}}(u_{n}-y_{n-1}),\\[3mm] x_{n} = \mbox{Prox}_{\frac{g}{L_{n-1}}}(x_{n-1} -\frac{1}{L_{n-1}}[\nabla h(x_{n-1})+ \nabla_{x}\Phi(x_{n-1},u_{n})]),\\[3mm] y_{n} = y_{n-1} + \frac{\eta_{n-1}}{\rho_{n-1}}(\mbox{Prox}_{-\rho_{n-1} \Phi(x_{n},\cdot)}(y_{n-1} - \rho_{n-1} s_{n}) - y_{n-1}), \end{array} \right. \end{aligned} \end{equation}
(1.5)

其中 \rho_{n-1} > 0, \eta_{n-1} = \frac{\rho_{n-1}}{2} , L_{n-1} = L_{11} + L_{h} + L_{21}^{2}(2+\rho_{n-1}L_{22})\rho_{n-1} ( L_{11} L_{21} L_{22} 是各个 Lipschitz 常数, 见假设 2.2). 在函数 \nabla_{x}\Phi(x,y) \nabla_{y}\Phi(x,y) 关于 x y 是 Lipschitz 连续的假设下证明了算法 (1.5) 的收敛性以及 O(\frac{1}{N}) 遍历收敛率. 值得注意的是, 算法 (1.5) 对于邻近算子参数 L_{n} 的取值范围严重依赖于 Lipschitz 常数, 且单次循环迭代步骤较多, 这将严重影响算法的收敛速度. 此外, 函数 h 可微这一假设比较强. 事实上, 许多函数并不满足可微性. 因此, 如何在不可微情况下提出加速的算法求解问题 (1.4) 是本文讨论的重点.

本文受到文献 [11,12] 的启发, 我们提出了求解问题 (1.4) 的黄金比率原始对偶算法, 证明了由算法产生的序列收敛到问题 (1.4) 的解, 并用数值实验验证了算法的优势. 本文所得的结果改进和推广了文献 [11,12] 中相应结果.

2 预备知识

全文用 \mathbb{N} 表示正整数集, 用 \phi 表示黄金比率, 即 \phi=\frac{1+\sqrt{5}}{2} . w:\mathbb{R}^{q}\rightarrow \mathbb{R}\bigcup \{+\infty\} 为扩展实值下半连续凸函数, 其有效域记为 dom(w):=\{x\in \mathbb{R}^{q}:w(x)<+\infty\} . x\in \mathbb{R}^{q} , w 在点 x 的次微分记为 \partial w(x) , 即 \partial w(x):=\{\xi \in \mathbb{R}^{q}:w(y)\geq w(x)+\langle\xi,y-x\rangle, \forall y\in \mathbb{R}^{q}\} , w 在点 x 的邻近点映射定义为

\begin{equation*} \mbox{Prox}_{\lambda w}(x):=\arg\min_{y\in \mathbb{R}^{q}}\{w(y)+\frac{1}{2\lambda}\|y-x\|^{2}\}, x\in \mathbb{R}^{q}, \lambda >0. \end{equation*}

问题 (1.4) 的原始问题与对偶问题分别为

\begin{equation*} P^{*}:=\min_{x\in \mathbb{R}^{q}}\{h(x)+g(x)+p(x)\}, p(x):=\max_{y\in \mathbb{R}^{p}}\{\Phi(x,y) - f^{*}(y)\}, \end{equation*}
\begin{equation*} D^{*}:=\max_{y\in \mathbb{R}^{p}}\{d(y)-f^{*}(y)\}, d(y):=\min_{x\in \mathbb{R}^{q}}\{h(x) + g(x) + \Phi(x,y)\}. \end{equation*}

为了证明本文的主要结果, 我们需要如下假设.

假设 2.1 对于问题 (1.4), 设存在 (\bar{x},\bar{y})\in ({\rm dom}(h)\cap {\rm dom}(g))\times {\rm dom}(f) 使得

\begin{equation*} \mathcal{L}(\bar{x},y)\leq \mathcal{L}(\bar{x},\bar{y})\leq \mathcal{L}(x,\bar{y}), \end{equation*}

并且 ({\rm dom}(h)\cap {\rm dom}(g))\times {\rm dom}(f)\subseteq {\rm dom}(\Phi) 以及 \mathcal{L}(\bar{x},\bar{y}) 是有界的.

注 2.1 假设 2.1 是凸凹极小极大问题中的标准假设. 它保证了强对偶性 (P^{*}=D^{*}=\mathcal{L}(\bar{x},\bar{y})) 以及问题 P^{*} D^{*} 解的存在性[14].

假设 2.2 对任意的 y\in {\rm dom}(f) , x\in {\rm dom}(g)\cap {\rm dom}(h) , \Phi(x,y) 关于 x y 分别是凸函数和凹函数. 此外, 对任意的 x_{1}, x_{2}\in {\rm dom}(g)\cap {\rm dom}(h) y_{1}, y_{2}\in {\rm dom}(f) 满足

\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} \|\nabla_{x}\Phi(x_{2},y_{2})-\nabla_{x}\Phi(x_{1},y_{1})\|\leq L_{11}\|x_{2}-x_{1}\|+L_{12}\|y_{2}-y_{1}\|,\\ \|\nabla_{y}\Phi(x_{1},y_{2})-\nabla_{y}\Phi(x_{1},y_{1})\|\leq L_{21}\|y_{2}-y_{1}\|. \end{array} \right. \end{aligned} \end{equation*}

注 2.2 假设 2.2 广泛用于求解凸凹极小极大问题[12,13], 即要求 \nabla_{x}\Phi(x,y) \nabla_{y}\Phi(x,y) 关于 x y 是 Lipschitz 连续的.

假设 2.3 对任意的 u_{n}\in \partial h(x_{n}) , u_{n-1}\in \partial h(x_{n-1}) , 存在 L_{h}>0 满足

\begin{equation*} \|u_{n} - u_{n-1}\| \leq L_{h}\|x_{n} - x_{n-1}\|. \end{equation*}

注 2.3 h 是可微的, 则假设 2.3 退化为文献 [11,12] 中的梯度 Lipschitz 连续性假设.

由假设 2.1 知问题 (1.4) 的鞍点集非空, 并记为

\begin{equation*} S:=\{(\bar{x},\bar{y})\in \mathbb{R}^{q} \times \mathbb{R}^{p}:0\in \partial g(\bar{x})+\nabla_{x}\Phi(\bar{x},\bar{y})+\partial h(\bar{x}), 0\in \nabla_{y}\Phi(\bar{x},\bar{y})-\partial f^{*}(\bar{y})\}. \end{equation*}

引理 2.1[1] w:\mathbb{R}^{q}\rightarrow \mathbb{R}\bigcup \{+\infty\} 是扩展实值闭正常凸函数, \lambda>0 以及 x\in \mathbb{R}^{q} , 则

\begin{equation*} p=\mbox{Prox}_{\lambda w}(x)\Leftrightarrow \langle p-x,y-p\rangle\geq \lambda(w(p)-w(y)), \forall y\in \mathbb{R}^{q}. \end{equation*}

引理 2.2[14] \{a_{n}\}_{n\in \mathbb{N}} \{b_{n}\}_{n\in \mathbb{N}} 是非负实数列. 如果存在 N>0 使得 a_{n+1}\leq a_{n}-b_{n} , \forall n\geq N , 那么 \lim\limits_{n\rightarrow\infty}a_{n} 存在且 \lim\limits_{n\rightarrow\infty}b_{n}=0 .

引理 2.3[14] 对任意 x,y,z\in \mathbb{R}^{q} \alpha \in \mathbb{R}

\begin{equation*} \langle x-y,x-z\rangle=\frac{1}{2}\|x-y\|^{2}+\frac{1}{2}\|x-z\|^{2}-\frac{1}{2}\|y-z\|^{2}. \end{equation*}
\begin{equation*} \|\alpha x+(1-\alpha) y\|^{2}=\alpha\|x\|^{2}+(1-\alpha)\|y\|^{2}-\alpha(1-\alpha)\|x-y\|^{2}. \end{equation*}

(\bar{x},\bar{y}) 是问题 (1.4) 的解, 则

\begin{equation*} 0\in \partial g(\bar{x})+\nabla_{x}\Phi(\bar{x},\bar{y})+\partial h(\bar{x}), 0\in \nabla_{y}\Phi(\bar{x},\bar{y})-\partial f^{*}(\bar{y}). \end{equation*}

\bar{u} \in \partial h(\bar{x}) , 则上式等价于

\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} P(x):=g(x)-g(\bar{x})+\langle \nabla_{x}\Phi(\bar{x},\bar{y})+\bar{u},x-\bar{x}\rangle \geq 0, \forall x\in \mathbb{R}^{q},\\ D(y):=f^{*}(y)-f^{*}(\bar{y})-\langle \nabla_{y}\Phi(\bar{x},\bar{y}),y-\bar{y}\rangle \geq 0, \forall y\in \mathbb{R}^{p}. \end{array} \right. \end{aligned} \end{equation*}

故问题 (1.4) 的原始对偶间隙函数定义为

\begin{equation*} G(x,y):=P(x)+D(y), \forall (x,y)\in \mathbb{R}^{q}\times \mathbb{R}^{p}. \end{equation*}

显然, P(x),D(y) G(x,y) 都是凸函数且 G(x,y)\geq0. 对任意的 y\in {\rm dom}(f) , x\in {\rm dom}(g)\cap {\rm dom}(h) , G(x^{*},y^{*}) = 0 当且仅当 (x^{*},y^{*}) 是问题 (1.4) 的鞍点.

3 提出的算法与收敛性证明

本文提出如下算法


注 3.1 \Phi(x,y) = \langle Kx,y \rangle h 是可微函数时, 算法 1 就退化为文献 [11,算法 1].

注 3.2 算法 1 是完全可分裂的, 即在每次迭代中不依赖于求解任何子问题或线性方程组. 而且算法1 完全不同于文献 [12,算法 1] 的变体 1 (记为 Alg.1(v1)), 本文的算法更加的简洁, 数值效果更好, 见数值实验部分.

为了证明收敛性结果, 我们首先证明如下引理.

引理 3.1 假设 \{(x_{n},y_{n},z_{n})\}_{n\in \mathbb{N}} 是由算法 1 产生的序列, (\bar{x},\bar{y})\in S 以及 \bar{u} \in \partial h(\bar{x}) , 那么对于任意的 (x,y) \in \mathbb{R}^{q}\times \mathbb{R}^{p} , 有

\begin{aligned} \tau G\left(x_{n}, y_{n}\right) \leq & \left\langle x_{n+1}-z_{n+1}, \bar{x}-x_{n+1}\right\rangle+\frac{\tau}{\sigma}\left\langle y_{n}-y_{n-1}, \bar{y}-y_{n}\right\rangle \\ & +\psi\left\langle x_{n}-z_{n+1}, x_{n+1}-x_{n}\right\rangle+\tau\left\langle u_{n}-u_{n-1}, x_{n}-x_{n+1}\right\rangle \\ & +\tau\left\langle\nabla_{x} \Phi\left(x_{n}, y_{n}\right)-\nabla_{x} \Phi\left(x_{n-1}, y_{n-1}\right), x_{n}-x_{n+1}\right\rangle \\ & +\tau\left\langle\nabla_{y} \Phi\left(x_{n}, y_{n}\right)-\nabla_{y} \Phi\left(x_{n}, y_{n-1}\right), y_{n-1}-y_{n}\right\rangle \end{aligned}
(3.1)

由引理 2.1 可得

\begin{equation} \begin{aligned} \left\{ \begin{array}{ll} \langle x_{n+1}-z_{n+1}+\tau\nabla_{x}\Phi(x_{n},y_{n})+\tau u_{n},\bar{x}-x_{n+1}\rangle\geq\tau(g(x_{n+1})-g(\bar{x})),\\ \langle \frac{\tau}{\sigma}(y_{n}-y_{n-1})-\tau\nabla_{y}\Phi(x_{n},y_{n-1}),\bar{y}-y_{n}\rangle\geq\tau(f^{*}(y_{n})-f^{*}(\bar{y})),\\ \langle x_{n}-z_{n}+\tau\nabla_{x}\Phi(x_{n-1},y_{n-1})+\tau u_{n-1},x_{n+1}-x_{n}\rangle\geq\tau(g(x_{n})-g(x_{n+1})). \end{array} \right. \end{aligned} \end{equation}
(3.2)

G(x,y) 的定义知

\begin{align*} \tau G(x_{n},y_{n})=\ &\tau(P(x_{n})+D(y_{n}))\nonumber\\ =\ &\tau(g(x_{n})-g(\bar{x})+\langle\nabla_{x}\Phi(\bar{x},\bar{y})+ \bar{u},x_{n}-\bar{x}\rangle)\nonumber\\ &+\tau(f^{*}(y_{n})-f^{*}(\bar{y})-\langle\nabla_{y}\Phi(\bar{x},\bar{y}),y_{n}-\bar{y}\rangle). \end{align*}

上式结合 (3.2) 式有

\begin{align*} \tau G(x_{n},y_{n})\leq\ &\langle x_{n+1}-z_{n+1},\bar{x}-x_{n+1}\rangle+\langle x_{n}-z_{n},x_{n+1}-x_{n}\rangle+ \frac{\tau}{\sigma}\langle y_{n}-y_{n-1},\bar{y}-y_{n}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(x_{n},y_{n}),\bar{x}-x_{n+1}\rangle+\tau\langle u_{n},\bar{x}-x_{n+1}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(x_{n-1},y_{n-1}),x_{n+1}-x_{n}\rangle+\tau\langle u_{n-1},x_{n+1}-x_{n}\rangle\nonumber\\ &+\tau\langle\nabla_{y}\Phi(x_{n},y_{n-1}),y_{n}-\bar{y}\rangle+\tau\langle\nabla_{x}\Phi(\bar{x},\bar{y}),x_{n}-\bar{x}\rangle\nonumber\\ &+\tau\langle \bar{u},x_{n}-\bar{x}\rangle-\tau\langle\nabla_{y}\Phi(\bar{x},\bar{y}),y_{n}-\bar{y}\rangle. \end{align*}

又因为 x_{n}-z_{n}=\psi(x_{n}-z_{n+1}) , 以及函数 \Phi(\cdot,\cdot) 关于第一变元的凸性和关于第二变元的凹性, 有

\begin{align*} \tau G(x_{n},y_{n})\leq\ &\langle x_{n+1}-z_{n+1},\bar{x}-x_{n+1}\rangle+\psi\langle x_{n}-z_{n+1},x_{n+1}-x_{n}\rangle+ \frac{\tau}{\sigma}\langle y_{n}-y_{n-1},\bar{y}-y_{n}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(x_{n},y_{n}),\bar{x}-x_{n}\rangle+\tau\langle\nabla_{x}\Phi(x_{n},y_{n})-\nabla_{x}\Phi(x_{n-1},y_{n-1}),x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle u_{n}-\bar{u},\bar{x}-x_{n}\rangle+\tau\langle u_{n}-u_{n-1},x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle\nabla_{y}\Phi(x_{n},y_{n-1}),y_{n}-y_{n-1}\rangle-\tau\langle\nabla_{y}\Phi(x_{n},y_{n-1}),\bar{y}-y_{n-1}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(\bar{x},\bar{y}),x_{n}-\bar{x}\rangle-\tau\langle\nabla_{y}\Phi(\bar{x},\bar{y}),y_{n}-\bar{y}\rangle\nonumber\\ \leq\ &\langle x_{n+1}-z_{n+1},\bar{x}-x_{n+1}\rangle+\psi\langle x_{n}-z_{n+1},x_{n+1}-x_{n}\rangle+ \frac{\tau}{\sigma}\langle y_{n}-y_{n-1},\bar{y}-y_{n}\rangle\nonumber\\ &+\tau(\Phi(\bar{x},y_{n})-\Phi(x_{n},y_{n}))+\tau\langle\nabla_{x}\Phi(x_{n},y_{n})-\nabla_{x}\Phi(x_{n-1},y_{n-1}),x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle u_{n}-\bar{u},\bar{x}-x_{n}\rangle+\tau\langle u_{n}-u_{n-1},x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle\nabla_{y}\Phi(x_{n},y_{n-1}),y_{n}-y_{n-1}\rangle-\tau(\Phi(x_{n},\bar{y})-\Phi(x_{n},y_{n-1}))\nonumber\\ &+\tau(\Phi(x_{n},\bar{y})-\Phi(\bar{x},\bar{y}))-\tau(\Phi(\bar{x},y_{n})-\Phi(\bar{x},\bar{y}))\nonumber\\ \leq\ &\langle x_{n+1}-z_{n+1},\bar{x}-x_{n+1}\rangle+\psi\langle x_{n}-z_{n+1},x_{n+1}-x_{n}\rangle+ \frac{\tau}{\sigma}\langle y_{n}-y_{n-1},\bar{y}-y_{n}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(x_{n},y_{n})-\nabla_{x}\Phi(x_{n-1},y_{n-1}),x_{n}-x_{n+1}\rangle\nonumber\\ &-\tau\langle u_{n}-\bar{u},x_{n} - \bar{x}\rangle+\tau\langle u_{n}-u_{n-1},x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle\nabla_{y}\Phi(x_{n},y_{n})-\nabla_{y}\Phi(x_{n},y_{n-1}),y_{n-1}-y_{n}\rangle. \end{align*}

由于 h 是凸函数, 则次梯度算子是单调的. 故 \langle u_{n}- \bar{u},x_{n}-\bar{x}\rangle \geq 0 . 因此 (3.1) 式成立. 证毕.

下面给出算法的收敛性证明.

定理 3.1 假设 \{(x_{n},y_{n},z_{n})\}_{n\in \mathbb{N}} 是由算法 1 产生的序列, (\bar{x},\bar{y})\in S 以及 \bar{u} \in \partial h(\bar{x}) . \{(x_{n},y_{n})\}_{n\in \mathbb{N}} 收敛到问题 (1.4) 的解, 即收敛到 S 中的一个元素.

由引理 2.3, 引理 3.1, 假设 2.2 和 Cauchy-Schwarz 不等式得

\begin{aligned} & \left\|x_{n+1}-\bar{x}\right\|^{2}+\frac{\tau}{\sigma}\left\|y_{n}-\bar{y}\right\|^{2}+2 \tau G\left(x_{n}, y_{n}\right) \\ \leq & \left\|z_{n+1}-\bar{x}\right\|^{2}+\frac{\tau}{\sigma}\left\|y_{n-1}-\bar{y}\right\|^{2}-\frac{\tau}{\sigma}\left\|y_{n}-y_{n-1}\right\|^{2} \\ & -\psi\left\|x_{n}-x_{n+1}\right\|^{2}-\psi\left\|z_{n+1}-x_{n}\right\|^{2}+(\psi-1)\left\|x_{n+1}-z_{n+1}\right\|^{2} \\ & +2 \tau\left(L_{11}\left\|x_{n}-x_{n-1}\right\|+L_{12}\left\|y_{n}-y_{n-1}\right\|\right)\left\|x_{n}-x_{n+1}\right\| \\ & +2 \tau L_{h}\left\|x_{n}-x_{n-1}\right\|\left\|x_{n+1}-x_{n}\right\|+2 \tau L_{21}\left\|y_{n}-y_{n-1}\right\|^{2}. \end{aligned}
(3.3)

注意到 x_{n+1}=\frac{\psi}{\psi-1}z_{n+2}-\frac{1}{\psi-1}z_{n+1} z_{n+2}-z_{n+1}=\frac{\psi-1}{\psi}(x_{n+1}-z_{n+1}) . 由引理 2.3 可得

\begin{aligned} \left\|x_{n+1}-\bar{x}\right\|^{2} & =\frac{\psi}{\psi-1}\left\|z_{n+2}-\bar{x}\right\|^{2}-\frac{1}{\psi-1}\left\|z_{n+1}-\bar{x}\right\|^{2}+\frac{\psi}{(\psi-1)^{2}}\left\|z_{n+2}-z_{n+1}\right\|^{2} \\ & =\frac{\psi}{\psi-1}\left\|z_{n+2}-\bar{x}\right\|^{2}-\frac{1}{\psi-1}\left\|z_{n+1}-\bar{x}\right\|^{2}+\frac{1}{\psi}\left\|x_{n+1}-z_{n+1}\right\|^{2}. \end{aligned}
(3.4)

由于

\begin{align*} 2\|x_{n}-x_{n-1}\|\|x_{n+1}-x_{n}\|\leq\|x_{n}-x_{n-1}\|^{2}+\|x_{n+1}-x_{n}\|^{2},\nonumber\\ 2\|y_{n}-y_{n-1}\|\|x_{n}-x_{n+1}\|\leq\|y_{n}-y_{n-1}\|^{2}+\|x_{n}-x_{n+1}\|^{2}, \end{align*}

则由 (3.3) 和 (3.4) 式可得

\begin{align*} &\frac{\psi}{\psi-1}\|z_{n+2}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n}-\bar{y}\|^{2}\nonumber\\ &+2\tau G(x_{n},y_{n})+(\psi-\tau L_{h}-\tau L_{11}-\tau L_{12})\|x_{n+1}-x_{n}\|^{2}\nonumber\\ \leq\ &\frac{\psi}{\psi-1}\|z_{n+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n-1}-\bar{y}\|^{2}+(\psi-1-\frac{1}{\psi})\|x_{n+1}-z_{n+1}\|^{2}\nonumber\\ &-\psi\|z_{n+1}-x_{n}\|^{2}+(\tau L_{h}+\tau L_{11})\|x_{n}-x_{n-1}\|^{2}-(\frac{\tau}{\sigma}-\tau L_{12}-2\tau L_{21})\|y_{n}-y_{n-1}\|^{2}. \end{align*}

因为 \tau(2L_{h}+2L_{11}+L_{12})\leq \psi, \psi \in (1,\phi] L_{12}+2L_{21}\leq \frac{1}{\sigma} , 则 \psi-\tau L_{h}-\tau L_{11}-\tau L_{12}\geq\tau L_{h}+\tau L_{11} 以及 \frac{\tau}{\sigma}-\tau L_{12}-2\tau L_{21}\geq0 . 又因为 \psi\leq\phi , 故 \psi-1-\frac{1}{\psi}\leq0 . 因此上式可简化为

\begin{align*} &\frac{\psi}{\psi-1}\|z_{n+2}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n}-\bar{y}\|^{2}+2\tau G(x_{n},y_{n})+(\tau L_{h}+\tau L_{11})\|x_{n+1}-x_{n}\|^{2}\nonumber\\ \leq\ &\frac{\psi}{\psi-1}\|z_{n+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n-1}-\bar{y}\|^{2}-\psi\|z_{n+1}-x_{n}\|^{2}\nonumber\\ &+(\tau L_{h}+\tau L_{11})\|x_{n}-x_{n-1}\|^{2}-(\frac{\tau}{\sigma}-\tau L_{12}-2\tau L_{21})\|y_{n}-y_{n-1}\|^{2}. \end{align*}

\begin{equation} \begin{aligned} \left\{ \begin{array}{ll} a_{n}=\frac{\psi}{\psi-1}\|z_{n+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n-1}-\bar{y}\|^{2}+(\tau L_{h}+ \tau L_{11})\|x_{n}-x_{n-1}\|^{2},\\[3mm] b_{n}=\psi\|z_{n+1}-x_{n}\|^{2}+(\frac{\tau}{\sigma}-\tau L_{12}-2\tau L_{21})\|y_{n}-y_{n-1}\|^{2}. \end{array} \right. \end{aligned} \end{equation}
(3.5)

注意到 G(x_{n},y_{n})\geq 0 , 则

\begin{equation} a_{n+1}\leq a_{n+1}+2\tau G(x_{n},y_{n})\leq a_{n}-b_{n}. \end{equation}
(3.6)

显然 a_{n}\geq0 , b_{n}\geq 0 . 由引理 2.2 知 \lim\limits_{n\rightarrow\infty}a_{n} 存在以及 \lim\limits_{n\rightarrow\infty}b_{n}=0 . 又由 x_{n}-z_{n}=\psi(x_{n}-z_{n+1}) 以及 b_{n} 的定义可知

\begin{equation*} \lim\limits_{n\rightarrow\infty}\|y_{n}-y_{n-1}\|=\lim\limits_{n\rightarrow\infty}\|z_{n+1}-x_{n}\|=\lim\limits_{n\rightarrow\infty}\|z_{n}-x_{n}\|=0. \end{equation*}

因为 \lim\limits_{n\rightarrow\infty}a_{n} 存在, 故 \{z_{n+1}\}_{n\in \mathbb{N}} \{y_{n}\}_{n\in \mathbb{N}} 是有界的. 进一步有 \{(z_{n+1},y_{n})\}_{n\in \mathbb{N}} 有界. 又因为 \lim\limits_{n\rightarrow\infty}\|z_{n}-x_{n}\|=0 , 所以 \{x_{n}\}_{n\in \mathbb{N}} 也有界.

下面证明 \{(x_{n},y_{n})\}_{n\in \mathbb{N}} 收敛到问题 (1.4) 的一个解. 不妨假设 \{(x_{n+1},y_{n})\}_{n\in \mathbb{N}} 的子列 \{(x_{n_{k}+1},y_{n_{k}})\}_{k\in \mathbb{N}} 收敛于 (x^{*},y^{*}) . \lim\limits_{k\rightarrow\infty}x_{n_{k}}=\lim\limits_{k\rightarrow\infty}x_{n_{k}+1}=x^{*}, \lim\limits_{k\rightarrow\infty}y_{n_{k}}=\lim\limits_{k\rightarrow\infty}y_{n_{k}-1}=y^{*} . 对任意的 (x,y)\in \mathbb{R}^{q}\times \mathbb{R}^{p} , 选取 u_{n_{k}} \in \partial h(x_{n_{k}}) , 由引理 2.1 得如下不等式组

\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} \langle x_{n_{k}+1}-z_{n_{k}+1}+\tau\nabla_{x}\Phi(x_{n_{k}},y_{n_{k}})+\tau u_{n_{k}},x-x_{n_{k}+1}\rangle\geq\tau(g(x_{n_{k}+1})-g(x)),\\ \langle \frac{\tau}{\sigma}(y_{n_{k}}-y_{n_{k}-1})-\tau\nabla_{y}\Phi(x_{n_{k}},y_{n_{k}-1}), y-y_{n_{k}}\rangle\geq\tau(f^{*}(y_{n_{k}})-f^{*}(y)). \end{array} \right. \end{aligned} \end{equation*}

由于 g , f^{*} 是下半连续的, 则在上式中令 k\rightarrow \infty 且两边同时除以 \tau(\tau>0) , 选取 u^{*} \in \partial h(x^{*})

\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} \langle \nabla_{x}\Phi(x^{*},y^{*})+ u^{*},x-x^{*}\rangle\geq g(x^{*})-g(x),\\ -\langle \nabla_{y}\Phi(x^{*},y^{*}),y-y^{*}\rangle\geq f^{*}(y^{*})-f^{*}(y). \end{array} \right. \end{aligned} \end{equation*}

因此 (x^{*},y^{*})\in S . 同时对任意的 (\bar{x},\bar{y})\in S , 以上证明仍然成立. 因此, 在 (3.5) 式中可用 (x^{*},y^{*}) 去代替 (\bar{x},\bar{y}) , 得到

\begin{equation*} \lim\limits_{k\rightarrow\infty}\|z_{n_{k}+1}-x^{*}\|=\lim\limits_{k\rightarrow\infty}\|x_{n_{k}}-x^{*}\|=0, \end{equation*}
\begin{equation*} \lim\limits_{k\rightarrow\infty}\|y_{n_{k}-1}-y^{*}\|=\lim\limits_{k\rightarrow\infty}\|y_{n_{k}}-y^{*}\|=0. \end{equation*}

由此可得 \lim\limits_{k\rightarrow\infty}a_{n_{k}}=0 . 又因为 \{a_{n}\}_{n\in \mathbb{N}} 单调不增, 故 \lim\limits_{n\rightarrow\infty}a_{n}=0 . 因此 \lim\limits_{n\rightarrow\infty}x_{n}=\lim\limits_{n\rightarrow\infty}z_{n+1}=x^{*} \lim _{n \rightarrow \infty} y_{n}=y^{*}. 证毕.

下面给出算法 1 的 O(\frac{1}{N}) 遍历收敛速率.

定理 3.2 假设 \{(x_{n},y_{n},z_{n})\}_{n\in \mathbb{N}} 是由算法 1 产生的序列, (\bar{x},\bar{y})\in S 以及 \bar{u} \in \partial h(\bar{x}) . N\geq 1 是任意正整数, 正整数 t 是满足 0<t<N , 并定义

\begin{equation} X_{N}=\frac{1}{N-t+1}\sum_{n=t}^{N}x_{n}, Y_{N}=\frac{1}{N-t+1}\sum_{n=t}^{N}y_{n}. \end{equation}
(3.7)

\begin{equation*} G(X_{N},Y_{N})\leq \frac{1}{2\tau(N-t+1)}(\frac{\psi}{\psi-1}\|z_{t+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{t-1}-\bar{y}\|^{2}+\tau(L_{h}+L_{11})\|x_{t}-x_{t-1}\|^{2}). \end{equation*}

由 (3.5) 和 (3.6) 式知, 对任意的 n\geq 1 , 有 2\tau G(x_{n},y_{n})\leq a_{n}-a_{n+1} . n=t,\cdots,N , 将以上不等式相加, 得 2\tau \sum\limits_{n=t}^{N}G(x_{n},y_{n})\leq a_{t}-a_{N+1}\leq a_{t} . 注意到, G(x,y)=P(x)+D(y) P(x) D(y) 是凸函数, 由 Jessen 不等式和 (3.7) 式得

\begin{align*} G(X_{N},Y_{N})=P(X_{N})+D(Y_{N})&\leq \frac{1}{N-t+1}\sum_{n=t}^{N}P(x_{n})+\frac{1}{N-t+1}\sum_{n=t}^{N}D(y_{n})\nonumber\\ &=\frac{1}{N-t+1}\sum_{n=t}^{N}G(x_{n},y_{n}). \end{align*}

上式联合 a_{t}=\frac{\psi}{\psi-1}\|z_{t+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{t-1}-\bar{y}\|^{2}+\tau (L_{h}+ L_{11})\|x_{t}-x_{t-1}\|^{2} 可得结论. 证毕.

注 3.3 定理 3.1 从以下两个方面改进了文献 [12,定理 2]

(i) 将 h 的可微性弱化到不可微.

(ii) 本文提出的算法完全不同于文献 [12,算法 1] 的变体 1, 在算法的形式上更为精简. 算法 1 采用了黄金比率凸组合技术, 这可以显著的减少算法的迭代次数与运行时间, 见数值实验部分.

注 3.4 \Phi(x,y) = \langle Kx,y \rangle h 是可微函数时, 由本文定理 3.1 和 3.2, 我们可以重新获得文献 [11,定理 3.1 和 3.2].

4 数值实验

本节给出数值实验, 通过两个例子将本文算法 1 与文献 [12,算法 1] 的变体 1 (记为 Alg.1(v1)) 进行比较. 所有代码均在 MATLAB R2018a 和 Windows10 系统下运行, 计算机基本参数为 Intel(R) Core(TM) i5-8250U CPU@1.60GHz, 其中 “iter” 表示程序迭代次数, “CPU time” 表示程序运行时间, 单位为秒. 算法的终止条件为 ||[x_{n};y_{n}] - [x_{n-1};y_{n-1}]||^{2}\leq err (err 为提前设定的误差).

例 4.1[12] 考虑如下二次规划问题

\begin{align*} \min_{x\in \mathbb{R}^{q}}\{h(x):= &\frac{1}{2}x^{T}A_{0}x+b_{0}^{T}x s.t. \|x\| \leq D,\nonumber\\ &\frac{1}{2}x^{T}A_{i}x+b_{i}^{T}x+c_{i} \leq 0, i=1,\cdots,p\}, \end{align*}
(4.1)

其中 A_{i}\in \mathbb{R}^{q\times q} 是对称半正定矩阵, b_{i}\in \mathbb{R}^{q} , c_{i}\in \mathbb{R}. A_{0} 是正定矩阵, D:=10 . 显然, (4.1) 式可转化为问题 (1.4), 其中 X:=\{x\in \mathbb{R}^{q}:\|x\| \leq D\} , g(x):=\delta_{X}(x) , f^{*}(y):=\delta_{\mathbb{R}^{p}_{+}}(y) , \Phi(x,y):=\Sigma^{p}_{i=1}y_{i}w_{i}(x) , w_{i}(x):=\frac{1}{2}x^{T}A_{i}x+b_{i}^{T}x+c_{i} . 设初始点 x_{0}=y_{0}=(0,0,\cdots 0)^{T} , A_{0} , A_{i} , b_{0} , b_{i} , c_{i} 分别是服从正态分布的随机矩阵、随机向量、随机数. 在此情况下, 我们对比了两种算法在不同维数 p , q 和不同误差情况下的数值效果. 见表1表2.

表1   err=10^{-10} 时不同算法关于维度的比较

新窗口打开| 下载CSV


表2   p=q=50 时不同算法关于终止条件精度的比较

新窗口打开| 下载CSV


参数选取如下

算法 1 \tau=0.1, \sigma=0.1, \psi=1.6.

文献 [12,算法 1] 的变体 1: 设 \rho=0.8, \eta=\frac{\rho}{2}, L_{11}=10, L_{f}=10, L_{21}=20, L_{22}=20 .

例 4.2 考虑下述极大极小博弈问题

\begin{align*} \min_{x\in\Delta_{q}}\max_{y\in\Delta_{p}}\bigg\{\frac{1}{N}\sum^{N}_{j=1}\log(1+\exp(a_{j}^{T}x)) + \langle j(x),k(y)\rangle\bigg\}, \end{align*}
(4.2)

其中 \Delta_{q}:=\{x\in \mathbb{R}^{q}_{+}:\Sigma^{q}_{j=1}x_{j}=1\} , \Delta_{p}:=\{y\in \mathbb{R}^{p}_{+}:\Sigma^{p}_{i=1}y_{i}=1\} . 显然, (4.2) 式可转化为问题 (1.4), g(x):=\delta_{\Delta_{q}}(x), f^{*}(y):=\delta_{\Delta_{p}}(y) , h(x):=\frac{1}{N}\sum\limits^{N}_{j=1}\log(1+\exp(a_{j}^{T}x)) , \Phi(x,y):=\langle j(x),k(y)\rangle , j_{i}(x):=\frac{b_{i}}{1+x_{i}} , k_{i}(y):=y_{i} . 设初始点 x_{0}=y_{0}=(0,0,\cdots 0)^{T} , a_{j} 是服从正态分布的随机向量. 在此情况下, 我们对比了两种算法在不同维数 p , q 和不同误差情况下的数值效果. 见表3表4.

表3   err=10^{-5} 时不同算法关于维度的比较

新窗口打开| 下载CSV


表4   p=q=50 时不同算法关于终止条件精度的比较

新窗口打开| 下载CSV


参数选取如下

算法 1 \tau=0.8, \sigma=0.8, \psi=1.2.

文献 [12,算法 1] 的变体 1 设 \rho=1.4, \eta=\frac{\rho}{2}, L_{11}=10, L_{f}=10, L_{21}=20, L_{22}=20 .

例 4.3 考虑下述极大极小问题

\begin{align*} \min_{x\in\Delta_{q}}\max_{y\in\Delta_{p}}\{\|x\|_{1} + \langle j(x),k(y)\rangle\}, \end{align*}
(4.3)

其中 \Delta_{q}:=\{x\in \mathbb{R}^{q}_{+}:\Sigma^{q}_{j=1}x_{j}=1\} , \Delta_{p}:=\{y\in \mathbb{R}^{p}_{+}:\Sigma^{p}_{i=1}y_{i}=1\} . 显然, (4.3) 式可转化为问题 (1.4), g(x):=\delta_{\Delta_{q}}(x), f^{*}(y):=\delta_{\Delta_{p}}(y) , h(x):=\|x\|_{1} , \Phi(x,y):=\langle j(x),k(y)\rangle , j_{i}(x):=\frac{b_{i}}{1+x_{i}} , k_{i}(y):=y_{i} . 设初始点 x_{0}=y_{0}=(1,1,\cdots 1)^{T} , a_{j} 是服从正态分布的随机向量. 由于 h 是非光滑函数, 所以文献 [12,算法 1] 的变体 1 以及文献 [11,算法 1] 不能求解本例子. 取 \psi=1.2 , 在不可微点 x_{n-1}^{i}=0 (x_{n-1} 的第 i 个分量), 取次梯度 u_{n-1}^{i} = 0 \in \partial h(x_{n-1}^{i}) . 在此情况下, 我们对比了算法 1 在不同维数 p , q , 不同步长和不同误差情况下的数值效果. 见表5表6. 更进一步, 我们在 p=q=150 以及 err=10^{-30} 两种情况下分别给出了CPU time关于步长 ( \tau, \sigma ) 的三维曲面图以及剖面图, 见图1图2图3图4.

表5   err=10^{-10} 时算法 1 关于维度的比较

新窗口打开| 下载CSV


表6   p=q=100 时算法 1 关于终止条件精度的比较

新窗口打开| 下载CSV


图1

图1   p=q=150 时 CPU time 关于步长的三维曲面图


图2

图2   p=q=150 时 CPU time 关于步长 \tau \sigma 的剖面图


图3

图3   err=10^{-30} 时 CPU time 关于步长的三维曲面图


图4

图4   err=10^{-30} 时 CPU time 分别关于步长 \tau \sigma 的剖面图


注 4.1 从数值实验的结果来看, 我们有

(i) 算法 1 与文献 [12,算法 1] 的变体 1 都收敛到问题的解.

(ii) 从 CPU 运行时间来看 (针对例 4.1 与例 4.2), 在适当参数的选取下, 算法 1 优于文献 [12,算法 1], 见表1-4.

(iii) 从迭代次数来看, 在适当参数的选取下, 例 4.2 中算法 1 随着维度和精度的增加仍然表现出很强的稳定性, 较文献 [12,算法 1] 的变体 1 数值效果更佳, 见表3表4.

(iv) 例 4.3 中, 在 err=10^{-10} , p=q=50 , p=q=100 , p=q=150 的情况下, 我们选取了多组步长, 得到 \tau=0.8 , \sigma=0.7 时的数值效果最佳, 见表5图1, 图2; 以及在 p=q=100 , err=10^{-10} , err=10^{-20} , err=10^{-30} 的情况下, 我们选取了多组步长, 同样得到 \tau=0.8 , \sigma=0.7 时的数值效果最佳, 见表6图3, 图4.

(v) 算法 1 在 h 光滑与非光滑的条件下同样适用.

参考文献

Bauschke H H, Combettes P. Convex Analysis and Monotone Operators Theory in Hilbert Spaces. New York: Springer-Verlag, 2020

[本文引用: 2]

Chambolle A, Pock T.

A first-order primal-dual algorithm for convex problems with applications to imaging

J Math Imaging Vis, 2011, 40: 120-145

[本文引用: 2]

Combettes P, Pesquet J C. Proximal splitting methods in signal processing// Bauschke H, Burachik R, Combetles P, et al. Fixed-Point Algorithms for Inverse Problems in Science and Engineering. New York: Springer-Verlag, 2011: 185-212

[本文引用: 1]

Uzawa H. Iterative methods for concave programming// Arrow K J, Hurwicz L, Uzawa H, eds. Studies in Linear and Nonlinear Programming. Stanford, CA: Stanford University Press, 1958, 6: 154-165

[本文引用: 1]

Esser E, Zhang X, Chan T F.

A general framework for a class of first order primal-dual algorithms for convex optimization in imaging science

SIAM J Imaging Sci, 2010, 3: 1015-1046

[本文引用: 1]

He B, You Y, Yuan X.

On the convergence of primal-dual hybrid gradient algorithm

SIAM J Imaging Sci, 2014, 7(4): 2526-2537

[本文引用: 1]

Chambolle A, Pock T.

On the ergodic convergence rates of a first-order primal-dual algorithm

Math Program, 2016, 159(1): 253-287

[本文引用: 1]

Condat L.

A primal-dual splitting method for convex optimization involving Lipschitzian, proximable and linear composite terms

J Optim Theory Appl, 2013, 158(2): 460-479

[本文引用: 1]

Malitsky Y.

Golden ratio algorithms for variational inequalities

Math Program, 2020, 184(1): 383-410

[本文引用: 2]

Xu Y.

Iteration complexity of inexact augmented Lagrangian methods for constrained convex programming

Math Program, 2021, 185: 89-117

[本文引用: 1]

周丹青, 常小凯, 杨俊峰.

一类新的黄金比率原始对偶算法

高等学校计算数学学报, 2022, 44: 97-106

[本文引用: 7]

Zhou D Q, Chang X K, Yang J F.

A new Golden ratio primal-dual algorithm

Numerical Math A J Chinese Univ, 2022, 44: 97-106

[本文引用: 7]

Zhu Y, Liu D, Tran-Ding Q.

New primal-dual algorithms for a class of nonsmooth and nonlinear convex-concave minimax problems

SIAM J Optim, 2022, 32(4): 2580-2611

[本文引用: 17]

Hamedani E Y, Aybat N S.

A primal-dual algorithm with line search for general convex-concave saddle point problems

SIAM J Optim, 2021, 31: 1299-1329

[本文引用: 1]

Rockafellar R, Wets R. Variational Analysis. Berlin: Springer, 2004

[本文引用: 3]

/