数学物理学报, 2024, 44(4): 1080-1091

求解非光滑鞍点问题的黄金比率原始对偶算法

聂佳琳,, 龙宪军,*

重庆工商大学数学与统计学院 重庆 400067

A Golden Ratio Primal-Dual Algorithm for a Class of Nonsmooth Saddle Point Problems

Nie Jialin,, Long Xianjun,*

School of Mathematics and Statistics, Chongqing Technology and Business University, Chongqing 400067

通讯作者: *龙宪军, E-mail: xianjunlong@ctbu.edu.cn

收稿日期: 2023-06-5   修回日期: 2024-03-25  

基金资助: 国家自然科学基金(11471059)
重庆市自然科学基金(cstc2021jcyj-msxmX0721)
重庆市研究生导师团队建设项目(yds223010)
重庆市研究生创新型科研项目(CYS240567)
重庆工商大学团队项目(ZDPTTD201908)

Received: 2023-06-5   Revised: 2024-03-25  

Fund supported: NSFC(11471059)
NSF of Chongqing(cstc2021jcyj-msxmX0721)
Team Building Project for Graduate Tutors in Chongqing(yds223010)
Innovation Project for Graduate Students of Chongqing(CYS240567)
Project of Chongqing Technology and Business University(ZDPTTD201908)

作者简介 About authors

聂佳琳,E-mail:niejialin00@163.com

摘要

该文提出了一类新的黄金比率原始对偶算法求解非光滑鞍点问题, 该算法是完全可分裂的. 在一定的假设下, 证明了由算法迭代产生的序列收敛到问题的解, 同时证明了 $ O(\frac{1}{N}) $ 遍历收敛率. 数值实验表明该文提出的算法比 Zhu, Liu 和 Tran-Ding 文中的算法有更少的迭代步数和计算机耗时.

关键词: 鞍点问题; 黄金比率; 原始对偶算法; 收敛性; 遍历收敛率

Abstract

In this paper, we present a new golden ratio primal-dual algorithm to solve the nonsmooth saddle point problems, which is full-splitting.Under some appropriate conditions, we prove the sequence generated by the algorithm iteration converges to the solution of the problem, as well as an $ O(1/N) $ ergodic convergence rate result. Finally, with comparisons to Zhu, Liu and Tran-Ding's algorithms, we give some numerical experiments to show the less iterate numbers and CPU time of the proposed method.

Keywords: Saddle point problems; Golden ratio; Primal-dual algorithm; Iterate convergence; Ergodic convergence

PDF (2237KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

聂佳琳, 龙宪军. 求解非光滑鞍点问题的黄金比率原始对偶算法[J]. 数学物理学报, 2024, 44(4): 1080-1091

Nie Jialin, Long Xianjun. A Golden Ratio Primal-Dual Algorithm for a Class of Nonsmooth Saddle Point Problems[J]. Acta Mathematica Scientia, 2024, 44(4): 1080-1091

1 引言

$ \mathbb{R}^{p} $$ \mathbb{R}^{q} $ 是有限维欧式空间, 并且每个空间上的內积和诱导范数分别表示为 $ \langle \cdot,\cdot \rangle $$ \|\cdot\|=\sqrt{\langle \cdot,\cdot \rangle}. $ 假设 $ h:\mathbb{R}^{q}\rightarrow \mathbb{R} $ 是凸函数, $ f:\mathbb{R}^{p}\rightarrow \mathbb{R}\cup\{+\infty\} $$ g:\mathbb{R}^{q}\rightarrow \mathbb{R}\cup\{+\infty\} $ 是扩展实值下半连续凸函数, $ \Phi :\mathbb{R}^{q} \times \mathbb{R}^{p} \rightarrow \mathbb{R} $ 是连续可微函数, $ K:\mathbb{R}^{q} \rightarrow \mathbb{R}^{p} $ 是有界线性算子. 函数 $ f $ 的共轭函数定义为 $ f^*(y)=\sup\limits_{x\in\mathbb{R}^{p}}\{\langle{y,x}\rangle-f(x)\} $.

考虑如下带有双线性耦合项的鞍点问题

$\begin{equation} \min_{x\in \mathbb{R}^{q}} \max_{y\in \mathbb{R}^{p}}\{ g(x) + \langle Kx,y \rangle - f^{*}(y)\}, \end{equation}$

问题 (1.1) 在许多领域有着广泛的应用, 比如信号与图像处理、压缩感知、机器学习、博弈论等, 许多学者研究了问题 (1.1), 详情见文献 [1-3]. 求解问题 (1.1) 的相关算法已经有很多, 其中最经典的是 Arrow-Hurwicz 方法[4], 即原始对偶算法. 从初始点 $ (x_{0},y_{0})\in \mathbb{R}^{q}\times \mathbb{R}^{p} $ 开始, 具体迭代为

$\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} x_{n}=\mbox{Prox}_{\tau g}(x_{n-1}-\tau K^{\top}y_{n-1}),\\ y_{n}=\mbox{Prox}_{\sigma f^{*}}(y_{n-1}+\sigma Kx_{n}), \end{array} \right. \end{aligned} \end{equation*}$

其中 $ \tau>0, \sigma>0 $ 是步长参数. 该方法在图像处理中也被称作原始对偶混合梯度算法. 若 $ f^{*} $ 的定义域有界且步长很小时, 可基于原始对偶间隙函数得到 $ O(\frac{1}{N}) $ 的遍历收敛率, 具体的收敛性分析[2,5]. 但是 Arrow-Hurwicz 方法在一般情况下不收敛[6]. 为了克服这一缺点, 许多学者提出了不同的改进方法[7-10].

受文献 [9] 的启发, 周丹青等[11] 提出了一类黄金比率原始对偶算法求解如下鞍点问题

$\begin{equation} \min_{x\in \mathbb{R}^{q}} \max_{y\in \mathbb{R}^{p}}\{ h(x) + g(x) + \langle Kx,y \rangle - f^{*}(y)\}, \end{equation}$

这里 $ h $ 是可微函数. 具体迭代为

$\begin{equation} \begin{aligned} \left\{ \begin{array}{ll} z_{n} = \frac{\psi-1}{\psi}x_{n-1} + \frac{1}{\psi}z_{n-1},\\ x_{n} = \mbox{Prox}_{\tau g}(z_{n} -\tau K^{\top}y_{n-1}- \tau \nabla h(x_{n-1})),\\ y_{n} = \mbox{Prox}_{\sigma f^{*}}(y_{n-1} + \sigma Kx_{n}), \end{array} \right. \end{aligned} \end{equation}$

其中 $ \tau, \sigma>0 $.$ \tau(\sigma\|K\|^{2}+2L_{h})\leq\psi $, $ \psi\in(1,\phi] $ ($ \phi $ 是黄金比率), 周丹青等证明了算法 (1.3) 的收敛性以及 $ O(\frac{1}{N}) $ 遍历收敛率.

注意到, 在问题 (1.1) 和 (1.2) 中涉及到一个双线性函数, 但是在实际应用中许多函数往往不满足双线性性. 因此, 如何研究带非线性二元函数的鞍点问题显得尤为重要. 最近, Zhu 等[12] 考虑了如下鞍点问题

$\begin{equation} \min_{x\in \mathbb{R}^{q}} \max_{y\in \mathbb{R}^{p}}\{\mathcal{L}(x,y)=h(x) + g(x) + \Phi(x,y) - f^{*}(y)\}, \end{equation}$

这里 $ h $ 是可微函数. Zhu 等[12] 提出了如下原始对偶算法

$\begin{equation} \begin{aligned} \left\{ \begin{array}{ll} u_{n} = \mbox{Prox}_{\rho_{n-1}(f^{*}(\cdot)-\Phi(x_{n-1},\cdot))}(y_{n-1}),\\[2mm] s_{n} = \nabla_{y}\Phi(x_{n-1},u_{n})-\frac{1}{\rho_{n-1}}(u_{n}-y_{n-1}),\\[3mm] x_{n} = \mbox{Prox}_{\frac{g}{L_{n-1}}}(x_{n-1} -\frac{1}{L_{n-1}}[\nabla h(x_{n-1})+ \nabla_{x}\Phi(x_{n-1},u_{n})]),\\[3mm] y_{n} = y_{n-1} + \frac{\eta_{n-1}}{\rho_{n-1}}(\mbox{Prox}_{-\rho_{n-1} \Phi(x_{n},\cdot)}(y_{n-1} - \rho_{n-1} s_{n}) - y_{n-1}), \end{array} \right. \end{aligned} \end{equation}$

其中 $ \rho_{n-1} > 0, \eta_{n-1} = \frac{\rho_{n-1}}{2} $, $ L_{n-1} = L_{11} + L_{h} + L_{21}^{2}(2+\rho_{n-1}L_{22})\rho_{n-1} $ ( $ L_{11} $$ L_{21} $$ L_{22} $ 是各个 Lipschitz 常数, 见假设 2.2). 在函数 $ \nabla_{x}\Phi(x,y) $$ \nabla_{y}\Phi(x,y) $ 关于 $ x $$ y $ 是 Lipschitz 连续的假设下证明了算法 (1.5) 的收敛性以及 $ O(\frac{1}{N}) $ 遍历收敛率. 值得注意的是, 算法 (1.5) 对于邻近算子参数 $ L_{n} $ 的取值范围严重依赖于 Lipschitz 常数, 且单次循环迭代步骤较多, 这将严重影响算法的收敛速度. 此外, 函数 $ h $ 可微这一假设比较强. 事实上, 许多函数并不满足可微性. 因此, 如何在不可微情况下提出加速的算法求解问题 (1.4) 是本文讨论的重点.

本文受到文献 [11,12] 的启发, 我们提出了求解问题 (1.4) 的黄金比率原始对偶算法, 证明了由算法产生的序列收敛到问题 (1.4) 的解, 并用数值实验验证了算法的优势. 本文所得的结果改进和推广了文献 [11,12] 中相应结果.

2 预备知识

全文用 $ \mathbb{N} $ 表示正整数集, 用 $ \phi $ 表示黄金比率, 即 $ \phi=\frac{1+\sqrt{5}}{2} $.$ w:\mathbb{R}^{q}\rightarrow \mathbb{R}\bigcup \{+\infty\} $ 为扩展实值下半连续凸函数, 其有效域记为 dom$(w):=\{x\in \mathbb{R}^{q}:w(x)<+\infty\} $.$ x\in \mathbb{R}^{q} $, $ w $ 在点 $ x $ 的次微分记为 $ \partial w(x) $, 即 $ \partial w(x):=\{\xi \in \mathbb{R}^{q}:w(y)\geq w(x)+\langle\xi,y-x\rangle, \forall y\in \mathbb{R}^{q}\} $, $ w $ 在点 $ x $ 的邻近点映射定义为

$\begin{equation*} \mbox{Prox}_{\lambda w}(x):=\arg\min_{y\in \mathbb{R}^{q}}\{w(y)+\frac{1}{2\lambda}\|y-x\|^{2}\}, x\in \mathbb{R}^{q}, \lambda >0. \end{equation*}$

问题 (1.4) 的原始问题与对偶问题分别为

$\begin{equation*} P^{*}:=\min_{x\in \mathbb{R}^{q}}\{h(x)+g(x)+p(x)\}, p(x):=\max_{y\in \mathbb{R}^{p}}\{\Phi(x,y) - f^{*}(y)\}, \end{equation*}$
$\begin{equation*} D^{*}:=\max_{y\in \mathbb{R}^{p}}\{d(y)-f^{*}(y)\}, d(y):=\min_{x\in \mathbb{R}^{q}}\{h(x) + g(x) + \Phi(x,y)\}. \end{equation*}$

为了证明本文的主要结果, 我们需要如下假设.

假设 2.1 对于问题 (1.4), 设存在 $ (\bar{x},\bar{y})\in ({\rm dom}(h)\cap {\rm dom}(g))\times {\rm dom}(f) $ 使得

$\begin{equation*} \mathcal{L}(\bar{x},y)\leq \mathcal{L}(\bar{x},\bar{y})\leq \mathcal{L}(x,\bar{y}), \end{equation*}$

并且 $ ({\rm dom}(h)\cap {\rm dom}(g))\times {\rm dom}(f)\subseteq {\rm dom}(\Phi) $ 以及 $ \mathcal{L}(\bar{x},\bar{y}) $ 是有界的.

注 2.1 假设 2.1 是凸凹极小极大问题中的标准假设. 它保证了强对偶性 $ (P^{*}=D^{*}=\mathcal{L}(\bar{x},\bar{y})) $ 以及问题 $ P^{*} $$ D^{*} $ 解的存在性[14].

假设 2.2 对任意的 $ y\in {\rm dom}(f) $, $ x\in {\rm dom}(g)\cap {\rm dom}(h) $, $ \Phi(x,y) $ 关于 $ x $$ y $ 分别是凸函数和凹函数. 此外, 对任意的 $ x_{1}, x_{2}\in {\rm dom}(g)\cap {\rm dom}(h) $$ y_{1}, y_{2}\in {\rm dom}(f) $ 满足

$\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} \|\nabla_{x}\Phi(x_{2},y_{2})-\nabla_{x}\Phi(x_{1},y_{1})\|\leq L_{11}\|x_{2}-x_{1}\|+L_{12}\|y_{2}-y_{1}\|,\\ \|\nabla_{y}\Phi(x_{1},y_{2})-\nabla_{y}\Phi(x_{1},y_{1})\|\leq L_{21}\|y_{2}-y_{1}\|. \end{array} \right. \end{aligned} \end{equation*}$

注 2.2 假设 2.2 广泛用于求解凸凹极小极大问题[12,13], 即要求 $ \nabla_{x}\Phi(x,y) $$ \nabla_{y}\Phi(x,y) $ 关于 $ x $$ y $ 是 Lipschitz 连续的.

假设 2.3 对任意的 $ u_{n}\in \partial h(x_{n}) $, $ u_{n-1}\in \partial h(x_{n-1}) $, 存在 $ L_{h}>0 $ 满足

$\begin{equation*} \|u_{n} - u_{n-1}\| \leq L_{h}\|x_{n} - x_{n-1}\|. \end{equation*}$

注 2.3$ h $ 是可微的, 则假设 2.3 退化为文献 [11,12] 中的梯度 Lipschitz 连续性假设.

由假设 2.1 知问题 (1.4) 的鞍点集非空, 并记为

$\begin{equation*} S:=\{(\bar{x},\bar{y})\in \mathbb{R}^{q} \times \mathbb{R}^{p}:0\in \partial g(\bar{x})+\nabla_{x}\Phi(\bar{x},\bar{y})+\partial h(\bar{x}), 0\in \nabla_{y}\Phi(\bar{x},\bar{y})-\partial f^{*}(\bar{y})\}. \end{equation*}$

引理 2.1[1]$ w:\mathbb{R}^{q}\rightarrow \mathbb{R}\bigcup \{+\infty\} $ 是扩展实值闭正常凸函数, $ \lambda>0 $ 以及 $ x\in \mathbb{R}^{q} $, 则

$\begin{equation*} p=\mbox{Prox}_{\lambda w}(x)\Leftrightarrow \langle p-x,y-p\rangle\geq \lambda(w(p)-w(y)), \forall y\in \mathbb{R}^{q}. \end{equation*}$

引理 2.2[14]$ \{a_{n}\}_{n\in \mathbb{N}} $$ \{b_{n}\}_{n\in \mathbb{N}} $ 是非负实数列. 如果存在 $ N>0 $ 使得 $ a_{n+1}\leq a_{n}-b_{n} $, $ \forall n\geq N $, 那么 $ \lim\limits_{n\rightarrow\infty}a_{n} $ 存在且 $ \lim\limits_{n\rightarrow\infty}b_{n}=0 $.

引理 2.3[14] 对任意 $ x,y,z\in \mathbb{R}^{q} $$ \alpha \in \mathbb{R} $

$\begin{equation*} \langle x-y,x-z\rangle=\frac{1}{2}\|x-y\|^{2}+\frac{1}{2}\|x-z\|^{2}-\frac{1}{2}\|y-z\|^{2}. \end{equation*}$
$\begin{equation*} \|\alpha x+(1-\alpha) y\|^{2}=\alpha\|x\|^{2}+(1-\alpha)\|y\|^{2}-\alpha(1-\alpha)\|x-y\|^{2}. \end{equation*}$

$ (\bar{x},\bar{y}) $ 是问题 (1.4) 的解, 则

$\begin{equation*} 0\in \partial g(\bar{x})+\nabla_{x}\Phi(\bar{x},\bar{y})+\partial h(\bar{x}), 0\in \nabla_{y}\Phi(\bar{x},\bar{y})-\partial f^{*}(\bar{y}). \end{equation*}$

$ \bar{u} \in \partial h(\bar{x}) $, 则上式等价于

$\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} P(x):=g(x)-g(\bar{x})+\langle \nabla_{x}\Phi(\bar{x},\bar{y})+\bar{u},x-\bar{x}\rangle \geq 0, \forall x\in \mathbb{R}^{q},\\ D(y):=f^{*}(y)-f^{*}(\bar{y})-\langle \nabla_{y}\Phi(\bar{x},\bar{y}),y-\bar{y}\rangle \geq 0, \forall y\in \mathbb{R}^{p}. \end{array} \right. \end{aligned} \end{equation*}$

故问题 (1.4) 的原始对偶间隙函数定义为

$\begin{equation*} G(x,y):=P(x)+D(y), \forall (x,y)\in \mathbb{R}^{q}\times \mathbb{R}^{p}. \end{equation*}$

显然, $ P(x),D(y) $$ G(x,y) $ 都是凸函数且 $ G(x,y)\geq0. $ 对任意的 $ y\in {\rm dom}(f) $, $ x\in {\rm dom}(g)\cap {\rm dom}(h) $, $ G(x^{*},y^{*}) = 0 $ 当且仅当 $ (x^{*},y^{*}) $ 是问题 (1.4) 的鞍点.

3 提出的算法与收敛性证明

本文提出如下算法


注 3.1$ \Phi(x,y) = \langle Kx,y \rangle $$ h $ 是可微函数时, 算法 1 就退化为文献 [11,算法 1].

注 3.2 算法 1 是完全可分裂的, 即在每次迭代中不依赖于求解任何子问题或线性方程组. 而且算法1 完全不同于文献 [12,算法 1] 的变体 1 (记为 Alg.1(v1)), 本文的算法更加的简洁, 数值效果更好, 见数值实验部分.

为了证明收敛性结果, 我们首先证明如下引理.

引理 3.1 假设 $ \{(x_{n},y_{n},z_{n})\}_{n\in \mathbb{N}} $ 是由算法 1 产生的序列, $ (\bar{x},\bar{y})\in S $ 以及 $ \bar{u} \in \partial h(\bar{x}) $, 那么对于任意的 $ (x,y) \in \mathbb{R}^{q}\times \mathbb{R}^{p} $, 有

$\begin{aligned} \tau G\left(x_{n}, y_{n}\right) \leq & \left\langle x_{n+1}-z_{n+1}, \bar{x}-x_{n+1}\right\rangle+\frac{\tau}{\sigma}\left\langle y_{n}-y_{n-1}, \bar{y}-y_{n}\right\rangle \\ & +\psi\left\langle x_{n}-z_{n+1}, x_{n+1}-x_{n}\right\rangle+\tau\left\langle u_{n}-u_{n-1}, x_{n}-x_{n+1}\right\rangle \\ & +\tau\left\langle\nabla_{x} \Phi\left(x_{n}, y_{n}\right)-\nabla_{x} \Phi\left(x_{n-1}, y_{n-1}\right), x_{n}-x_{n+1}\right\rangle \\ & +\tau\left\langle\nabla_{y} \Phi\left(x_{n}, y_{n}\right)-\nabla_{y} \Phi\left(x_{n}, y_{n-1}\right), y_{n-1}-y_{n}\right\rangle \end{aligned}$

由引理 2.1 可得

$\begin{equation} \begin{aligned} \left\{ \begin{array}{ll} \langle x_{n+1}-z_{n+1}+\tau\nabla_{x}\Phi(x_{n},y_{n})+\tau u_{n},\bar{x}-x_{n+1}\rangle\geq\tau(g(x_{n+1})-g(\bar{x})),\\ \langle \frac{\tau}{\sigma}(y_{n}-y_{n-1})-\tau\nabla_{y}\Phi(x_{n},y_{n-1}),\bar{y}-y_{n}\rangle\geq\tau(f^{*}(y_{n})-f^{*}(\bar{y})),\\ \langle x_{n}-z_{n}+\tau\nabla_{x}\Phi(x_{n-1},y_{n-1})+\tau u_{n-1},x_{n+1}-x_{n}\rangle\geq\tau(g(x_{n})-g(x_{n+1})). \end{array} \right. \end{aligned} \end{equation}$

$ G(x,y) $ 的定义知

$\begin{align*} \tau G(x_{n},y_{n})=\ &\tau(P(x_{n})+D(y_{n}))\nonumber\\ =\ &\tau(g(x_{n})-g(\bar{x})+\langle\nabla_{x}\Phi(\bar{x},\bar{y})+ \bar{u},x_{n}-\bar{x}\rangle)\nonumber\\ &+\tau(f^{*}(y_{n})-f^{*}(\bar{y})-\langle\nabla_{y}\Phi(\bar{x},\bar{y}),y_{n}-\bar{y}\rangle). \end{align*}$

上式结合 (3.2) 式有

$\begin{align*} \tau G(x_{n},y_{n})\leq\ &\langle x_{n+1}-z_{n+1},\bar{x}-x_{n+1}\rangle+\langle x_{n}-z_{n},x_{n+1}-x_{n}\rangle+ \frac{\tau}{\sigma}\langle y_{n}-y_{n-1},\bar{y}-y_{n}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(x_{n},y_{n}),\bar{x}-x_{n+1}\rangle+\tau\langle u_{n},\bar{x}-x_{n+1}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(x_{n-1},y_{n-1}),x_{n+1}-x_{n}\rangle+\tau\langle u_{n-1},x_{n+1}-x_{n}\rangle\nonumber\\ &+\tau\langle\nabla_{y}\Phi(x_{n},y_{n-1}),y_{n}-\bar{y}\rangle+\tau\langle\nabla_{x}\Phi(\bar{x},\bar{y}),x_{n}-\bar{x}\rangle\nonumber\\ &+\tau\langle \bar{u},x_{n}-\bar{x}\rangle-\tau\langle\nabla_{y}\Phi(\bar{x},\bar{y}),y_{n}-\bar{y}\rangle. \end{align*}$

又因为 $ x_{n}-z_{n}=\psi(x_{n}-z_{n+1}) $, 以及函数 $ \Phi(\cdot,\cdot) $ 关于第一变元的凸性和关于第二变元的凹性, 有

$\begin{align*} \tau G(x_{n},y_{n})\leq\ &\langle x_{n+1}-z_{n+1},\bar{x}-x_{n+1}\rangle+\psi\langle x_{n}-z_{n+1},x_{n+1}-x_{n}\rangle+ \frac{\tau}{\sigma}\langle y_{n}-y_{n-1},\bar{y}-y_{n}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(x_{n},y_{n}),\bar{x}-x_{n}\rangle+\tau\langle\nabla_{x}\Phi(x_{n},y_{n})-\nabla_{x}\Phi(x_{n-1},y_{n-1}),x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle u_{n}-\bar{u},\bar{x}-x_{n}\rangle+\tau\langle u_{n}-u_{n-1},x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle\nabla_{y}\Phi(x_{n},y_{n-1}),y_{n}-y_{n-1}\rangle-\tau\langle\nabla_{y}\Phi(x_{n},y_{n-1}),\bar{y}-y_{n-1}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(\bar{x},\bar{y}),x_{n}-\bar{x}\rangle-\tau\langle\nabla_{y}\Phi(\bar{x},\bar{y}),y_{n}-\bar{y}\rangle\nonumber\\ \leq\ &\langle x_{n+1}-z_{n+1},\bar{x}-x_{n+1}\rangle+\psi\langle x_{n}-z_{n+1},x_{n+1}-x_{n}\rangle+ \frac{\tau}{\sigma}\langle y_{n}-y_{n-1},\bar{y}-y_{n}\rangle\nonumber\\ &+\tau(\Phi(\bar{x},y_{n})-\Phi(x_{n},y_{n}))+\tau\langle\nabla_{x}\Phi(x_{n},y_{n})-\nabla_{x}\Phi(x_{n-1},y_{n-1}),x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle u_{n}-\bar{u},\bar{x}-x_{n}\rangle+\tau\langle u_{n}-u_{n-1},x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle\nabla_{y}\Phi(x_{n},y_{n-1}),y_{n}-y_{n-1}\rangle-\tau(\Phi(x_{n},\bar{y})-\Phi(x_{n},y_{n-1}))\nonumber\\ &+\tau(\Phi(x_{n},\bar{y})-\Phi(\bar{x},\bar{y}))-\tau(\Phi(\bar{x},y_{n})-\Phi(\bar{x},\bar{y}))\nonumber\\ \leq\ &\langle x_{n+1}-z_{n+1},\bar{x}-x_{n+1}\rangle+\psi\langle x_{n}-z_{n+1},x_{n+1}-x_{n}\rangle+ \frac{\tau}{\sigma}\langle y_{n}-y_{n-1},\bar{y}-y_{n}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(x_{n},y_{n})-\nabla_{x}\Phi(x_{n-1},y_{n-1}),x_{n}-x_{n+1}\rangle\nonumber\\ &-\tau\langle u_{n}-\bar{u},x_{n} - \bar{x}\rangle+\tau\langle u_{n}-u_{n-1},x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle\nabla_{y}\Phi(x_{n},y_{n})-\nabla_{y}\Phi(x_{n},y_{n-1}),y_{n-1}-y_{n}\rangle. \end{align*}$

由于 $ h $ 是凸函数, 则次梯度算子是单调的. 故 $ \langle u_{n}- \bar{u},x_{n}-\bar{x}\rangle \geq 0 $. 因此 (3.1) 式成立. 证毕.

下面给出算法的收敛性证明.

定理 3.1 假设 $ \{(x_{n},y_{n},z_{n})\}_{n\in \mathbb{N}} $ 是由算法 1 产生的序列, $ (\bar{x},\bar{y})\in S $ 以及 $ \bar{u} \in \partial h(\bar{x}) $.$ \{(x_{n},y_{n})\}_{n\in \mathbb{N}} $ 收敛到问题 (1.4) 的解, 即收敛到 $ S $ 中的一个元素.

由引理 2.3, 引理 3.1, 假设 2.2 和 Cauchy-Schwarz 不等式得

$\begin{aligned} & \left\|x_{n+1}-\bar{x}\right\|^{2}+\frac{\tau}{\sigma}\left\|y_{n}-\bar{y}\right\|^{2}+2 \tau G\left(x_{n}, y_{n}\right) \\ \leq & \left\|z_{n+1}-\bar{x}\right\|^{2}+\frac{\tau}{\sigma}\left\|y_{n-1}-\bar{y}\right\|^{2}-\frac{\tau}{\sigma}\left\|y_{n}-y_{n-1}\right\|^{2} \\ & -\psi\left\|x_{n}-x_{n+1}\right\|^{2}-\psi\left\|z_{n+1}-x_{n}\right\|^{2}+(\psi-1)\left\|x_{n+1}-z_{n+1}\right\|^{2} \\ & +2 \tau\left(L_{11}\left\|x_{n}-x_{n-1}\right\|+L_{12}\left\|y_{n}-y_{n-1}\right\|\right)\left\|x_{n}-x_{n+1}\right\| \\ & +2 \tau L_{h}\left\|x_{n}-x_{n-1}\right\|\left\|x_{n+1}-x_{n}\right\|+2 \tau L_{21}\left\|y_{n}-y_{n-1}\right\|^{2}. \end{aligned}$

注意到 $ x_{n+1}=\frac{\psi}{\psi-1}z_{n+2}-\frac{1}{\psi-1}z_{n+1} $$ z_{n+2}-z_{n+1}=\frac{\psi-1}{\psi}(x_{n+1}-z_{n+1}) $. 由引理 2.3 可得

$\begin{aligned} \left\|x_{n+1}-\bar{x}\right\|^{2} & =\frac{\psi}{\psi-1}\left\|z_{n+2}-\bar{x}\right\|^{2}-\frac{1}{\psi-1}\left\|z_{n+1}-\bar{x}\right\|^{2}+\frac{\psi}{(\psi-1)^{2}}\left\|z_{n+2}-z_{n+1}\right\|^{2} \\ & =\frac{\psi}{\psi-1}\left\|z_{n+2}-\bar{x}\right\|^{2}-\frac{1}{\psi-1}\left\|z_{n+1}-\bar{x}\right\|^{2}+\frac{1}{\psi}\left\|x_{n+1}-z_{n+1}\right\|^{2}. \end{aligned}$

由于

$\begin{align*} 2\|x_{n}-x_{n-1}\|\|x_{n+1}-x_{n}\|\leq\|x_{n}-x_{n-1}\|^{2}+\|x_{n+1}-x_{n}\|^{2},\nonumber\\ 2\|y_{n}-y_{n-1}\|\|x_{n}-x_{n+1}\|\leq\|y_{n}-y_{n-1}\|^{2}+\|x_{n}-x_{n+1}\|^{2}, \end{align*}$

则由 (3.3) 和 (3.4) 式可得

$\begin{align*} &\frac{\psi}{\psi-1}\|z_{n+2}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n}-\bar{y}\|^{2}\nonumber\\ &+2\tau G(x_{n},y_{n})+(\psi-\tau L_{h}-\tau L_{11}-\tau L_{12})\|x_{n+1}-x_{n}\|^{2}\nonumber\\ \leq\ &\frac{\psi}{\psi-1}\|z_{n+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n-1}-\bar{y}\|^{2}+(\psi-1-\frac{1}{\psi})\|x_{n+1}-z_{n+1}\|^{2}\nonumber\\ &-\psi\|z_{n+1}-x_{n}\|^{2}+(\tau L_{h}+\tau L_{11})\|x_{n}-x_{n-1}\|^{2}-(\frac{\tau}{\sigma}-\tau L_{12}-2\tau L_{21})\|y_{n}-y_{n-1}\|^{2}. \end{align*}$

因为 $ \tau(2L_{h}+2L_{11}+L_{12})\leq \psi, \psi \in (1,\phi] $$ L_{12}+2L_{21}\leq \frac{1}{\sigma} $, 则 $ \psi-\tau L_{h}-\tau L_{11}-\tau L_{12}\geq\tau L_{h}+\tau L_{11} $ 以及 $ \frac{\tau}{\sigma}-\tau L_{12}-2\tau L_{21}\geq0 $. 又因为 $ \psi\leq\phi $, 故 $ \psi-1-\frac{1}{\psi}\leq0 $. 因此上式可简化为

$\begin{align*} &\frac{\psi}{\psi-1}\|z_{n+2}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n}-\bar{y}\|^{2}+2\tau G(x_{n},y_{n})+(\tau L_{h}+\tau L_{11})\|x_{n+1}-x_{n}\|^{2}\nonumber\\ \leq\ &\frac{\psi}{\psi-1}\|z_{n+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n-1}-\bar{y}\|^{2}-\psi\|z_{n+1}-x_{n}\|^{2}\nonumber\\ &+(\tau L_{h}+\tau L_{11})\|x_{n}-x_{n-1}\|^{2}-(\frac{\tau}{\sigma}-\tau L_{12}-2\tau L_{21})\|y_{n}-y_{n-1}\|^{2}. \end{align*}$

$\begin{equation} \begin{aligned} \left\{ \begin{array}{ll} a_{n}=\frac{\psi}{\psi-1}\|z_{n+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n-1}-\bar{y}\|^{2}+(\tau L_{h}+ \tau L_{11})\|x_{n}-x_{n-1}\|^{2},\\[3mm] b_{n}=\psi\|z_{n+1}-x_{n}\|^{2}+(\frac{\tau}{\sigma}-\tau L_{12}-2\tau L_{21})\|y_{n}-y_{n-1}\|^{2}. \end{array} \right. \end{aligned} \end{equation}$

注意到 $ G(x_{n},y_{n})\geq 0 $, 则

$\begin{equation} a_{n+1}\leq a_{n+1}+2\tau G(x_{n},y_{n})\leq a_{n}-b_{n}. \end{equation}$

显然 $ a_{n}\geq0 $, $ b_{n}\geq 0 $. 由引理 2.2 知 $ \lim\limits_{n\rightarrow\infty}a_{n} $ 存在以及 $ \lim\limits_{n\rightarrow\infty}b_{n}=0 $. 又由 $ x_{n}-z_{n}=\psi(x_{n}-z_{n+1}) $ 以及 $ b_{n} $ 的定义可知

$\begin{equation*} \lim\limits_{n\rightarrow\infty}\|y_{n}-y_{n-1}\|=\lim\limits_{n\rightarrow\infty}\|z_{n+1}-x_{n}\|=\lim\limits_{n\rightarrow\infty}\|z_{n}-x_{n}\|=0. \end{equation*}$

因为 $ \lim\limits_{n\rightarrow\infty}a_{n} $ 存在, 故 $ \{z_{n+1}\}_{n\in \mathbb{N}} $$ \{y_{n}\}_{n\in \mathbb{N}} $ 是有界的. 进一步有 $ \{(z_{n+1},y_{n})\}_{n\in \mathbb{N}} $ 有界. 又因为 $ \lim\limits_{n\rightarrow\infty}\|z_{n}-x_{n}\|=0 $, 所以 $ \{x_{n}\}_{n\in \mathbb{N}} $ 也有界.

下面证明 $ \{(x_{n},y_{n})\}_{n\in \mathbb{N}} $ 收敛到问题 (1.4) 的一个解. 不妨假设 $ \{(x_{n+1},y_{n})\}_{n\in \mathbb{N}} $ 的子列 $ \{(x_{n_{k}+1},y_{n_{k}})\}_{k\in \mathbb{N}} $ 收敛于 $ (x^{*},y^{*}) $.$ \lim\limits_{k\rightarrow\infty}x_{n_{k}}=\lim\limits_{k\rightarrow\infty}x_{n_{k}+1}=x^{*}, \lim\limits_{k\rightarrow\infty}y_{n_{k}}=\lim\limits_{k\rightarrow\infty}y_{n_{k}-1}=y^{*} $. 对任意的 $ (x,y)\in \mathbb{R}^{q}\times \mathbb{R}^{p} $, 选取 $ u_{n_{k}} \in \partial h(x_{n_{k}}) $, 由引理 2.1 得如下不等式组

$\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} \langle x_{n_{k}+1}-z_{n_{k}+1}+\tau\nabla_{x}\Phi(x_{n_{k}},y_{n_{k}})+\tau u_{n_{k}},x-x_{n_{k}+1}\rangle\geq\tau(g(x_{n_{k}+1})-g(x)),\\ \langle \frac{\tau}{\sigma}(y_{n_{k}}-y_{n_{k}-1})-\tau\nabla_{y}\Phi(x_{n_{k}},y_{n_{k}-1}), y-y_{n_{k}}\rangle\geq\tau(f^{*}(y_{n_{k}})-f^{*}(y)). \end{array} \right. \end{aligned} \end{equation*}$

由于 $ g $, $ f^{*} $ 是下半连续的, 则在上式中令 $ k\rightarrow \infty $ 且两边同时除以 $ \tau(\tau>0) $, 选取 $ u^{*} \in \partial h(x^{*}) $

$\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} \langle \nabla_{x}\Phi(x^{*},y^{*})+ u^{*},x-x^{*}\rangle\geq g(x^{*})-g(x),\\ -\langle \nabla_{y}\Phi(x^{*},y^{*}),y-y^{*}\rangle\geq f^{*}(y^{*})-f^{*}(y). \end{array} \right. \end{aligned} \end{equation*}$

因此 $ (x^{*},y^{*})\in S $. 同时对任意的 $ (\bar{x},\bar{y})\in S $, 以上证明仍然成立. 因此, 在 (3.5) 式中可用 $ (x^{*},y^{*}) $ 去代替 $ (\bar{x},\bar{y}) $, 得到

$\begin{equation*} \lim\limits_{k\rightarrow\infty}\|z_{n_{k}+1}-x^{*}\|=\lim\limits_{k\rightarrow\infty}\|x_{n_{k}}-x^{*}\|=0, \end{equation*}$
$\begin{equation*} \lim\limits_{k\rightarrow\infty}\|y_{n_{k}-1}-y^{*}\|=\lim\limits_{k\rightarrow\infty}\|y_{n_{k}}-y^{*}\|=0. \end{equation*}$

由此可得 $ \lim\limits_{k\rightarrow\infty}a_{n_{k}}=0 $. 又因为 $ \{a_{n}\}_{n\in \mathbb{N}} $ 单调不增, 故 $ \lim\limits_{n\rightarrow\infty}a_{n}=0 $. 因此 $ \lim\limits_{n\rightarrow\infty}x_{n}=\lim\limits_{n\rightarrow\infty}z_{n+1}=x^{*} $ 且 $\lim _{n \rightarrow \infty} y_{n}=y^{*}$. 证毕.

下面给出算法 1 的 $ O(\frac{1}{N}) $ 遍历收敛速率.

定理 3.2 假设 $ \{(x_{n},y_{n},z_{n})\}_{n\in \mathbb{N}} $ 是由算法 1 产生的序列, $ (\bar{x},\bar{y})\in S $ 以及 $ \bar{u} \in \partial h(\bar{x}) $.$ N\geq 1 $ 是任意正整数, 正整数 $ t $ 是满足 $ 0<t<N $, 并定义

$\begin{equation} X_{N}=\frac{1}{N-t+1}\sum_{n=t}^{N}x_{n}, Y_{N}=\frac{1}{N-t+1}\sum_{n=t}^{N}y_{n}. \end{equation}$

$\begin{equation*} G(X_{N},Y_{N})\leq \frac{1}{2\tau(N-t+1)}(\frac{\psi}{\psi-1}\|z_{t+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{t-1}-\bar{y}\|^{2}+\tau(L_{h}+L_{11})\|x_{t}-x_{t-1}\|^{2}). \end{equation*}$

由 (3.5) 和 (3.6) 式知, 对任意的 $ n\geq 1 $, 有 $ 2\tau G(x_{n},y_{n})\leq a_{n}-a_{n+1} $.$ n=t,\cdots,N $, 将以上不等式相加, 得 $ 2\tau \sum\limits_{n=t}^{N}G(x_{n},y_{n})\leq a_{t}-a_{N+1}\leq a_{t} $. 注意到, $ G(x,y)=P(x)+D(y) $$ P(x) $$ D(y) $ 是凸函数, 由 Jessen 不等式和 (3.7) 式得

$\begin{align*} G(X_{N},Y_{N})=P(X_{N})+D(Y_{N})&\leq \frac{1}{N-t+1}\sum_{n=t}^{N}P(x_{n})+\frac{1}{N-t+1}\sum_{n=t}^{N}D(y_{n})\nonumber\\ &=\frac{1}{N-t+1}\sum_{n=t}^{N}G(x_{n},y_{n}). \end{align*}$

上式联合 $ a_{t}=\frac{\psi}{\psi-1}\|z_{t+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{t-1}-\bar{y}\|^{2}+\tau (L_{h}+ L_{11})\|x_{t}-x_{t-1}\|^{2} $ 可得结论. 证毕.

注 3.3 定理 3.1 从以下两个方面改进了文献 [12,定理 2]

(i) 将 $ h $ 的可微性弱化到不可微.

(ii) 本文提出的算法完全不同于文献 [12,算法 1] 的变体 1, 在算法的形式上更为精简. 算法 1 采用了黄金比率凸组合技术, 这可以显著的减少算法的迭代次数与运行时间, 见数值实验部分.

注 3.4$ \Phi(x,y) = \langle Kx,y \rangle $$ h $ 是可微函数时, 由本文定理 3.1 和 3.2, 我们可以重新获得文献 [11,定理 3.1 和 3.2].

4 数值实验

本节给出数值实验, 通过两个例子将本文算法 1 与文献 [12,算法 1] 的变体 1 (记为 Alg.1(v1)) 进行比较. 所有代码均在 MATLAB R2018a 和 Windows10 系统下运行, 计算机基本参数为 Intel(R) Core(TM) i5-8250U CPU@1.60GHz, 其中 “iter” 表示程序迭代次数, “CPU time” 表示程序运行时间, 单位为秒. 算法的终止条件为 $ ||[x_{n};y_{n}] - [x_{n-1};y_{n-1}]||^{2}\leq err$ (err 为提前设定的误差).

例 4.1[12] 考虑如下二次规划问题

$\begin{align*} \min_{x\in \mathbb{R}^{q}}\{h(x):= &\frac{1}{2}x^{T}A_{0}x+b_{0}^{T}x s.t. \|x\| \leq D,\nonumber\\ &\frac{1}{2}x^{T}A_{i}x+b_{i}^{T}x+c_{i} \leq 0, i=1,\cdots,p\}, \end{align*}$

其中 $ A_{i}\in \mathbb{R}^{q\times q} $ 是对称半正定矩阵, $ b_{i}\in \mathbb{R}^{q} $, $ c_{i}\in \mathbb{R}.$$ A_{0} $ 是正定矩阵, $ D:=10 $. 显然, (4.1) 式可转化为问题 (1.4), 其中 $ X:=\{x\in \mathbb{R}^{q}:\|x\| \leq D\} $, $ g(x):=\delta_{X}(x) $, $ f^{*}(y):=\delta_{\mathbb{R}^{p}_{+}}(y) $, $ \Phi(x,y):=\Sigma^{p}_{i=1}y_{i}w_{i}(x) $, $ w_{i}(x):=\frac{1}{2}x^{T}A_{i}x+b_{i}^{T}x+c_{i} $. 设初始点 $ x_{0}=y_{0}=(0,0,\cdots 0)^{T} $, $ A_{0} $, $ A_{i} $, $ b_{0} $, $ b_{i} $, $ c_{i} $ 分别是服从正态分布的随机矩阵、随机向量、随机数. 在此情况下, 我们对比了两种算法在不同维数 $ p $, $ q $ 和不同误差情况下的数值效果. 见表1表2.

表1   $ err=10^{-10} $ 时不同算法关于维度的比较

新窗口打开| 下载CSV


表2   $ p=q=50 $ 时不同算法关于终止条件精度的比较

新窗口打开| 下载CSV


参数选取如下

算法 1$ \tau=0.1, \sigma=0.1, \psi=1.6. $

文献 [12,算法 1] 的变体 1: 设 $ \rho=0.8, \eta=\frac{\rho}{2}, L_{11}=10, L_{f}=10, L_{21}=20, L_{22}=20 $.

例 4.2 考虑下述极大极小博弈问题

$\begin{align*} \min_{x\in\Delta_{q}}\max_{y\in\Delta_{p}}\bigg\{\frac{1}{N}\sum^{N}_{j=1}\log(1+\exp(a_{j}^{T}x)) + \langle j(x),k(y)\rangle\bigg\}, \end{align*}$

其中 $ \Delta_{q}:=\{x\in \mathbb{R}^{q}_{+}:\Sigma^{q}_{j=1}x_{j}=1\} $, $ \Delta_{p}:=\{y\in \mathbb{R}^{p}_{+}:\Sigma^{p}_{i=1}y_{i}=1\} $. 显然, (4.2) 式可转化为问题 (1.4), $ g(x):=\delta_{\Delta_{q}}(x), f^{*}(y):=\delta_{\Delta_{p}}(y) $, $ h(x):=\frac{1}{N}\sum\limits^{N}_{j=1}\log(1+\exp(a_{j}^{T}x)) $, $ \Phi(x,y):=\langle j(x),k(y)\rangle $, $ j_{i}(x):=\frac{b_{i}}{1+x_{i}} $, $ k_{i}(y):=y_{i} $. 设初始点 $ x_{0}=y_{0}=(0,0,\cdots 0)^{T} $, $ a_{j} $ 是服从正态分布的随机向量. 在此情况下, 我们对比了两种算法在不同维数 $ p $, $ q $ 和不同误差情况下的数值效果. 见表3表4.

表3   $ err=10^{-5} $ 时不同算法关于维度的比较

新窗口打开| 下载CSV


表4   $ p=q=50 $ 时不同算法关于终止条件精度的比较

新窗口打开| 下载CSV


参数选取如下

算法 1$ \tau$=0.8, $\sigma$=0.8, $\psi$=1.2.

文献 [12,算法 1] 的变体 1 设 $ \rho=1.4, \eta=\frac{\rho}{2}, L_{11}=10, L_{f}=10, L_{21}=20, L_{22}=20 $.

例 4.3 考虑下述极大极小问题

$\begin{align*} \min_{x\in\Delta_{q}}\max_{y\in\Delta_{p}}\{\|x\|_{1} + \langle j(x),k(y)\rangle\}, \end{align*}$

其中 $ \Delta_{q}:=\{x\in \mathbb{R}^{q}_{+}:\Sigma^{q}_{j=1}x_{j}=1\} $, $ \Delta_{p}:=\{y\in \mathbb{R}^{p}_{+}:\Sigma^{p}_{i=1}y_{i}=1\} $. 显然, (4.3) 式可转化为问题 (1.4), $ g(x):=\delta_{\Delta_{q}}(x), f^{*}(y):=\delta_{\Delta_{p}}(y) $, $ h(x):=\|x\|_{1} $, $ \Phi(x,y):=\langle j(x),k(y)\rangle $, $ j_{i}(x):=\frac{b_{i}}{1+x_{i}} $, $ k_{i}(y):=y_{i} $. 设初始点 $ x_{0}=y_{0}=(1,1,\cdots 1)^{T} $, $ a_{j} $ 是服从正态分布的随机向量. 由于 $ h $ 是非光滑函数, 所以文献 [12,算法 1] 的变体 1 以及文献 [11,算法 1] 不能求解本例子. 取 $ \psi=1.2 $, 在不可微点 $ x_{n-1}^{i}=0 (x_{n-1} $ 的第 $ i $ 个分量), 取次梯度 $ u_{n-1}^{i} = 0 \in \partial h(x_{n-1}^{i}) $. 在此情况下, 我们对比了算法 1 在不同维数 $ p $, $ q $, 不同步长和不同误差情况下的数值效果. 见表5表6. 更进一步, 我们在 $ p=q=150 $ 以及 $ err=10^{-30} $ 两种情况下分别给出了CPU time关于步长 ($ \tau, \sigma $) 的三维曲面图以及剖面图, 见图1图2图3图4.

表5   $ err=10^{-10} $ 时算法 1 关于维度的比较

新窗口打开| 下载CSV


表6   $ p=q=100 $ 时算法 1 关于终止条件精度的比较

新窗口打开| 下载CSV


图1

图1   $ p=q=150 $ 时 CPU time 关于步长的三维曲面图


图2

图2   $ p=q=150 $ 时 CPU time 关于步长 $ \tau $$ \sigma $ 的剖面图


图3

图3   $ err=10^{-30} $ 时 CPU time 关于步长的三维曲面图


图4

图4   $ err=10^{-30} $ 时 CPU time 分别关于步长 $ \tau $$ \sigma $ 的剖面图


注 4.1 从数值实验的结果来看, 我们有

(i) 算法 1 与文献 [12,算法 1] 的变体 1 都收敛到问题的解.

(ii) 从 CPU 运行时间来看 (针对例 4.1 与例 4.2), 在适当参数的选取下, 算法 1 优于文献 [12,算法 1], 见表1-4.

(iii) 从迭代次数来看, 在适当参数的选取下, 例 4.2 中算法 1 随着维度和精度的增加仍然表现出很强的稳定性, 较文献 [12,算法 1] 的变体 1 数值效果更佳, 见表3表4.

(iv) 例 4.3 中, 在 $ err=10^{-10} $, $ p=q=50 $, $ p=q=100 $, $ p=q=150 $ 的情况下, 我们选取了多组步长, 得到 $ \tau=0.8 $, $ \sigma=0.7 $ 时的数值效果最佳, 见表5图1, 图2; 以及在 $ p=q=100 $, $ err=10^{-10} $, $ err=10^{-20} $, $ err=10^{-30} $ 的情况下, 我们选取了多组步长, 同样得到 $ \tau=0.8 $, $ \sigma=0.7 $ 时的数值效果最佳, 见表6图3, 图4.

(v) 算法 1 在 $ h $ 光滑与非光滑的条件下同样适用.

参考文献

Bauschke H H, Combettes P. Convex Analysis and Monotone Operators Theory in Hilbert Spaces. New York: Springer-Verlag, 2020

[本文引用: 2]

Chambolle A, Pock T.

A first-order primal-dual algorithm for convex problems with applications to imaging

J Math Imaging Vis, 2011, 40: 120-145

[本文引用: 2]

Combettes P, Pesquet J C. Proximal splitting methods in signal processing// Bauschke H, Burachik R, Combetles P, et al. Fixed-Point Algorithms for Inverse Problems in Science and Engineering. New York: Springer-Verlag, 2011: 185-212

[本文引用: 1]

Uzawa H. Iterative methods for concave programming// Arrow K J, Hurwicz L, Uzawa H, eds. Studies in Linear and Nonlinear Programming. Stanford, CA: Stanford University Press, 1958, 6: 154-165

[本文引用: 1]

Esser E, Zhang X, Chan T F.

A general framework for a class of first order primal-dual algorithms for convex optimization in imaging science

SIAM J Imaging Sci, 2010, 3: 1015-1046

[本文引用: 1]

He B, You Y, Yuan X.

On the convergence of primal-dual hybrid gradient algorithm

SIAM J Imaging Sci, 2014, 7(4): 2526-2537

[本文引用: 1]

Chambolle A, Pock T.

On the ergodic convergence rates of a first-order primal-dual algorithm

Math Program, 2016, 159(1): 253-287

[本文引用: 1]

Condat L.

A primal-dual splitting method for convex optimization involving Lipschitzian, proximable and linear composite terms

J Optim Theory Appl, 2013, 158(2): 460-479

[本文引用: 1]

Malitsky Y.

Golden ratio algorithms for variational inequalities

Math Program, 2020, 184(1): 383-410

[本文引用: 2]

Xu Y.

Iteration complexity of inexact augmented Lagrangian methods for constrained convex programming

Math Program, 2021, 185: 89-117

[本文引用: 1]

周丹青, 常小凯, 杨俊峰.

一类新的黄金比率原始对偶算法

高等学校计算数学学报, 2022, 44: 97-106

[本文引用: 7]

Zhou D Q, Chang X K, Yang J F.

A new Golden ratio primal-dual algorithm

Numerical Math A J Chinese Univ, 2022, 44: 97-106

[本文引用: 7]

Zhu Y, Liu D, Tran-Ding Q.

New primal-dual algorithms for a class of nonsmooth and nonlinear convex-concave minimax problems

SIAM J Optim, 2022, 32(4): 2580-2611

[本文引用: 17]

Hamedani E Y, Aybat N S.

A primal-dual algorithm with line search for general convex-concave saddle point problems

SIAM J Optim, 2021, 31: 1299-1329

[本文引用: 1]

Rockafellar R, Wets R. Variational Analysis. Berlin: Springer, 2004

[本文引用: 3]

/