求解非光滑鞍点问题的黄金比率原始对偶算法

注 3.1 当 $\Phi(x,y) = \langle Kx,y \rangle$ 且 $h$ 是可微函数时, 算法 1 就退化为文献 [11,算法 1].

注 3.2 算法 1 是完全可分裂的, 即在每次迭代中不依赖于求解任何子问题或线性方程组. 而且算法1 完全不同于文献 [12,算法 1] 的变体 1 (记为 Alg.1(v1)), 本文的算法更加的简洁, 数值效果更好, 见数值实验部分.

为了证明收敛性结果, 我们首先证明如下引理.

引理 3.1 假设 $\{(x_{n},y_{n},z_{n})\}_{n\in \mathbb{N}}$ 是由算法 1 产生的序列, $(\bar{x},\bar{y})\in S$ 以及 $\bar{u} \in \partial h(\bar{x})$ , 那么对于任意的 $(x,y) \in \mathbb{R}^{q}\times \mathbb{R}^{p}$ , 有

$\begin{aligned} \tau G\left(x_{n}, y_{n}\right) \leq & \left\langle x_{n+1}-z_{n+1}, \bar{x}-x_{n+1}\right\rangle+\frac{\tau}{\sigma}\left\langle y_{n}-y_{n-1}, \bar{y}-y_{n}\right\rangle \\ & +\psi\left\langle x_{n}-z_{n+1}, x_{n+1}-x_{n}\right\rangle+\tau\left\langle u_{n}-u_{n-1}, x_{n}-x_{n+1}\right\rangle \\ & +\tau\left\langle\nabla_{x} \Phi\left(x_{n}, y_{n}\right)-\nabla_{x} \Phi\left(x_{n-1}, y_{n-1}\right), x_{n}-x_{n+1}\right\rangle \\ & +\tau\left\langle\nabla_{y} \Phi\left(x_{n}, y_{n}\right)-\nabla_{y} \Phi\left(x_{n}, y_{n-1}\right), y_{n-1}-y_{n}\right\rangle \end{aligned}$

(3.1)

证由引理 2.1 可得

$\begin{equation} \begin{aligned} \left\{ \begin{array}{ll} \langle x_{n+1}-z_{n+1}+\tau\nabla_{x}\Phi(x_{n},y_{n})+\tau u_{n},\bar{x}-x_{n+1}\rangle\geq\tau(g(x_{n+1})-g(\bar{x})),\\ \langle \frac{\tau}{\sigma}(y_{n}-y_{n-1})-\tau\nabla_{y}\Phi(x_{n},y_{n-1}),\bar{y}-y_{n}\rangle\geq\tau(f^{*}(y_{n})-f^{*}(\bar{y})),\\ \langle x_{n}-z_{n}+\tau\nabla_{x}\Phi(x_{n-1},y_{n-1})+\tau u_{n-1},x_{n+1}-x_{n}\rangle\geq\tau(g(x_{n})-g(x_{n+1})). \end{array} \right. \end{aligned} \end{equation}$

(3.2)

由 $G(x,y)$ 的定义知

$\begin{align*} \tau G(x_{n},y_{n})=\ &\tau(P(x_{n})+D(y_{n}))\nonumber\\ =\ &\tau(g(x_{n})-g(\bar{x})+\langle\nabla_{x}\Phi(\bar{x},\bar{y})+ \bar{u},x_{n}-\bar{x}\rangle)\nonumber\\ &+\tau(f^{*}(y_{n})-f^{*}(\bar{y})-\langle\nabla_{y}\Phi(\bar{x},\bar{y}),y_{n}-\bar{y}\rangle). \end{align*}$

上式结合 (3.2) 式有

$\begin{align*} \tau G(x_{n},y_{n})\leq\ &\langle x_{n+1}-z_{n+1},\bar{x}-x_{n+1}\rangle+\langle x_{n}-z_{n},x_{n+1}-x_{n}\rangle+ \frac{\tau}{\sigma}\langle y_{n}-y_{n-1},\bar{y}-y_{n}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(x_{n},y_{n}),\bar{x}-x_{n+1}\rangle+\tau\langle u_{n},\bar{x}-x_{n+1}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(x_{n-1},y_{n-1}),x_{n+1}-x_{n}\rangle+\tau\langle u_{n-1},x_{n+1}-x_{n}\rangle\nonumber\\ &+\tau\langle\nabla_{y}\Phi(x_{n},y_{n-1}),y_{n}-\bar{y}\rangle+\tau\langle\nabla_{x}\Phi(\bar{x},\bar{y}),x_{n}-\bar{x}\rangle\nonumber\\ &+\tau\langle \bar{u},x_{n}-\bar{x}\rangle-\tau\langle\nabla_{y}\Phi(\bar{x},\bar{y}),y_{n}-\bar{y}\rangle. \end{align*}$

又因为 $x_{n}-z_{n}=\psi(x_{n}-z_{n+1})$ , 以及函数 $\Phi(\cdot,\cdot)$ 关于第一变元的凸性和关于第二变元的凹性, 有

$\begin{align*} \tau G(x_{n},y_{n})\leq\ &\langle x_{n+1}-z_{n+1},\bar{x}-x_{n+1}\rangle+\psi\langle x_{n}-z_{n+1},x_{n+1}-x_{n}\rangle+ \frac{\tau}{\sigma}\langle y_{n}-y_{n-1},\bar{y}-y_{n}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(x_{n},y_{n}),\bar{x}-x_{n}\rangle+\tau\langle\nabla_{x}\Phi(x_{n},y_{n})-\nabla_{x}\Phi(x_{n-1},y_{n-1}),x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle u_{n}-\bar{u},\bar{x}-x_{n}\rangle+\tau\langle u_{n}-u_{n-1},x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle\nabla_{y}\Phi(x_{n},y_{n-1}),y_{n}-y_{n-1}\rangle-\tau\langle\nabla_{y}\Phi(x_{n},y_{n-1}),\bar{y}-y_{n-1}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(\bar{x},\bar{y}),x_{n}-\bar{x}\rangle-\tau\langle\nabla_{y}\Phi(\bar{x},\bar{y}),y_{n}-\bar{y}\rangle\nonumber\\ \leq\ &\langle x_{n+1}-z_{n+1},\bar{x}-x_{n+1}\rangle+\psi\langle x_{n}-z_{n+1},x_{n+1}-x_{n}\rangle+ \frac{\tau}{\sigma}\langle y_{n}-y_{n-1},\bar{y}-y_{n}\rangle\nonumber\\ &+\tau(\Phi(\bar{x},y_{n})-\Phi(x_{n},y_{n}))+\tau\langle\nabla_{x}\Phi(x_{n},y_{n})-\nabla_{x}\Phi(x_{n-1},y_{n-1}),x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle u_{n}-\bar{u},\bar{x}-x_{n}\rangle+\tau\langle u_{n}-u_{n-1},x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle\nabla_{y}\Phi(x_{n},y_{n-1}),y_{n}-y_{n-1}\rangle-\tau(\Phi(x_{n},\bar{y})-\Phi(x_{n},y_{n-1}))\nonumber\\ &+\tau(\Phi(x_{n},\bar{y})-\Phi(\bar{x},\bar{y}))-\tau(\Phi(\bar{x},y_{n})-\Phi(\bar{x},\bar{y}))\nonumber\\ \leq\ &\langle x_{n+1}-z_{n+1},\bar{x}-x_{n+1}\rangle+\psi\langle x_{n}-z_{n+1},x_{n+1}-x_{n}\rangle+ \frac{\tau}{\sigma}\langle y_{n}-y_{n-1},\bar{y}-y_{n}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(x_{n},y_{n})-\nabla_{x}\Phi(x_{n-1},y_{n-1}),x_{n}-x_{n+1}\rangle\nonumber\\ &-\tau\langle u_{n}-\bar{u},x_{n} - \bar{x}\rangle+\tau\langle u_{n}-u_{n-1},x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle\nabla_{y}\Phi(x_{n},y_{n})-\nabla_{y}\Phi(x_{n},y_{n-1}),y_{n-1}-y_{n}\rangle. \end{align*}$

由于 $h$ 是凸函数, 则次梯度算子是单调的. 故 $\langle u_{n}- \bar{u},x_{n}-\bar{x}\rangle \geq 0$ . 因此 (3.1) 式成立. 证毕.

下面给出算法的收敛性证明.

定理 3.1 假设 $\{(x_{n},y_{n},z_{n})\}_{n\in \mathbb{N}}$ 是由算法 1 产生的序列, $(\bar{x},\bar{y})\in S$ 以及 $\bar{u} \in \partial h(\bar{x})$ . 则 $\{(x_{n},y_{n})\}_{n\in \mathbb{N}}$ 收敛到问题 (1.4) 的解, 即收敛到 $S$ 中的一个元素.

证由引理 2.3, 引理 3.1, 假设 2.2 和 Cauchy-Schwarz 不等式得

$\begin{aligned} & \left\|x_{n+1}-\bar{x}\right\|^{2}+\frac{\tau}{\sigma}\left\|y_{n}-\bar{y}\right\|^{2}+2 \tau G\left(x_{n}, y_{n}\right) \\ \leq & \left\|z_{n+1}-\bar{x}\right\|^{2}+\frac{\tau}{\sigma}\left\|y_{n-1}-\bar{y}\right\|^{2}-\frac{\tau}{\sigma}\left\|y_{n}-y_{n-1}\right\|^{2} \\ & -\psi\left\|x_{n}-x_{n+1}\right\|^{2}-\psi\left\|z_{n+1}-x_{n}\right\|^{2}+(\psi-1)\left\|x_{n+1}-z_{n+1}\right\|^{2} \\ & +2 \tau\left(L_{11}\left\|x_{n}-x_{n-1}\right\|+L_{12}\left\|y_{n}-y_{n-1}\right\|\right)\left\|x_{n}-x_{n+1}\right\| \\ & +2 \tau L_{h}\left\|x_{n}-x_{n-1}\right\|\left\|x_{n+1}-x_{n}\right\|+2 \tau L_{21}\left\|y_{n}-y_{n-1}\right\|^{2}. \end{aligned}$

(3.3)

注意到 $x_{n+1}=\frac{\psi}{\psi-1}z_{n+2}-\frac{1}{\psi-1}z_{n+1}$ 和 $z_{n+2}-z_{n+1}=\frac{\psi-1}{\psi}(x_{n+1}-z_{n+1})$ . 由引理 2.3 可得

$\begin{aligned} \left\|x_{n+1}-\bar{x}\right\|^{2} & =\frac{\psi}{\psi-1}\left\|z_{n+2}-\bar{x}\right\|^{2}-\frac{1}{\psi-1}\left\|z_{n+1}-\bar{x}\right\|^{2}+\frac{\psi}{(\psi-1)^{2}}\left\|z_{n+2}-z_{n+1}\right\|^{2} \\ & =\frac{\psi}{\psi-1}\left\|z_{n+2}-\bar{x}\right\|^{2}-\frac{1}{\psi-1}\left\|z_{n+1}-\bar{x}\right\|^{2}+\frac{1}{\psi}\left\|x_{n+1}-z_{n+1}\right\|^{2}. \end{aligned}$

(3.4)

由于

$\begin{align*} 2\|x_{n}-x_{n-1}\|\|x_{n+1}-x_{n}\|\leq\|x_{n}-x_{n-1}\|^{2}+\|x_{n+1}-x_{n}\|^{2},\nonumber\\ 2\|y_{n}-y_{n-1}\|\|x_{n}-x_{n+1}\|\leq\|y_{n}-y_{n-1}\|^{2}+\|x_{n}-x_{n+1}\|^{2}, \end{align*}$

则由 (3.3) 和 (3.4) 式可得

$\begin{align*} &\frac{\psi}{\psi-1}\|z_{n+2}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n}-\bar{y}\|^{2}\nonumber\\ &+2\tau G(x_{n},y_{n})+(\psi-\tau L_{h}-\tau L_{11}-\tau L_{12})\|x_{n+1}-x_{n}\|^{2}\nonumber\\ \leq\ &\frac{\psi}{\psi-1}\|z_{n+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n-1}-\bar{y}\|^{2}+(\psi-1-\frac{1}{\psi})\|x_{n+1}-z_{n+1}\|^{2}\nonumber\\ &-\psi\|z_{n+1}-x_{n}\|^{2}+(\tau L_{h}+\tau L_{11})\|x_{n}-x_{n-1}\|^{2}-(\frac{\tau}{\sigma}-\tau L_{12}-2\tau L_{21})\|y_{n}-y_{n-1}\|^{2}. \end{align*}$

因为 $\tau(2L_{h}+2L_{11}+L_{12})\leq \psi, \psi \in (1,\phi]$ 且 $L_{12}+2L_{21}\leq \frac{1}{\sigma}$ , 则 $\psi-\tau L_{h}-\tau L_{11}-\tau L_{12}\geq\tau L_{h}+\tau L_{11}$ 以及 $\frac{\tau}{\sigma}-\tau L_{12}-2\tau L_{21}\geq0$ . 又因为 $\psi\leq\phi$ , 故 $\psi-1-\frac{1}{\psi}\leq0$ . 因此上式可简化为

$\begin{align*} &\frac{\psi}{\psi-1}\|z_{n+2}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n}-\bar{y}\|^{2}+2\tau G(x_{n},y_{n})+(\tau L_{h}+\tau L_{11})\|x_{n+1}-x_{n}\|^{2}\nonumber\\ \leq\ &\frac{\psi}{\psi-1}\|z_{n+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n-1}-\bar{y}\|^{2}-\psi\|z_{n+1}-x_{n}\|^{2}\nonumber\\ &+(\tau L_{h}+\tau L_{11})\|x_{n}-x_{n-1}\|^{2}-(\frac{\tau}{\sigma}-\tau L_{12}-2\tau L_{21})\|y_{n}-y_{n-1}\|^{2}. \end{align*}$

令

$\begin{equation} \begin{aligned} \left\{ \begin{array}{ll} a_{n}=\frac{\psi}{\psi-1}\|z_{n+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n-1}-\bar{y}\|^{2}+(\tau L_{h}+ \tau L_{11})\|x_{n}-x_{n-1}\|^{2},\\[3mm] b_{n}=\psi\|z_{n+1}-x_{n}\|^{2}+(\frac{\tau}{\sigma}-\tau L_{12}-2\tau L_{21})\|y_{n}-y_{n-1}\|^{2}. \end{array} \right. \end{aligned} \end{equation}$

(3.5)

注意到 $G(x_{n},y_{n})\geq 0$ , 则

$\begin{equation} a_{n+1}\leq a_{n+1}+2\tau G(x_{n},y_{n})\leq a_{n}-b_{n}. \end{equation}$

(3.6)

显然 $a_{n}\geq0$ , $b_{n}\geq 0$ . 由引理 2.2 知 $\lim\limits_{n\rightarrow\infty}a_{n}$ 存在以及 $\lim\limits_{n\rightarrow\infty}b_{n}=0$ . 又由 $x_{n}-z_{n}=\psi(x_{n}-z_{n+1})$ 以及 $b_{n}$ 的定义可知

$\begin{equation*} \lim\limits_{n\rightarrow\infty}\|y_{n}-y_{n-1}\|=\lim\limits_{n\rightarrow\infty}\|z_{n+1}-x_{n}\|=\lim\limits_{n\rightarrow\infty}\|z_{n}-x_{n}\|=0. \end{equation*}$

因为 $\lim\limits_{n\rightarrow\infty}a_{n}$ 存在, 故 $\{z_{n+1}\}_{n\in \mathbb{N}}$ 和 $\{y_{n}\}_{n\in \mathbb{N}}$ 是有界的. 进一步有 $\{(z_{n+1},y_{n})\}_{n\in \mathbb{N}}$ 有界. 又因为 $\lim\limits_{n\rightarrow\infty}\|z_{n}-x_{n}\|=0$ , 所以 $\{x_{n}\}_{n\in \mathbb{N}}$ 也有界.

下面证明 $\{(x_{n},y_{n})\}_{n\in \mathbb{N}}$ 收敛到问题 (1.4) 的一个解. 不妨假设 $\{(x_{n+1},y_{n})\}_{n\in \mathbb{N}}$ 的子列 $\{(x_{n_{k}+1},y_{n_{k}})\}_{k\in \mathbb{N}}$ 收敛于 $(x^{*},y^{*})$ . 则 $\lim\limits_{k\rightarrow\infty}x_{n_{k}}=\lim\limits_{k\rightarrow\infty}x_{n_{k}+1}=x^{*}, \lim\limits_{k\rightarrow\infty}y_{n_{k}}=\lim\limits_{k\rightarrow\infty}y_{n_{k}-1}=y^{*}$ . 对任意的 $(x,y)\in \mathbb{R}^{q}\times \mathbb{R}^{p}$ , 选取 $u_{n_{k}} \in \partial h(x_{n_{k}})$ , 由引理 2.1 得如下不等式组

$\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} \langle x_{n_{k}+1}-z_{n_{k}+1}+\tau\nabla_{x}\Phi(x_{n_{k}},y_{n_{k}})+\tau u_{n_{k}},x-x_{n_{k}+1}\rangle\geq\tau(g(x_{n_{k}+1})-g(x)),\\ \langle \frac{\tau}{\sigma}(y_{n_{k}}-y_{n_{k}-1})-\tau\nabla_{y}\Phi(x_{n_{k}},y_{n_{k}-1}), y-y_{n_{k}}\rangle\geq\tau(f^{*}(y_{n_{k}})-f^{*}(y)). \end{array} \right. \end{aligned} \end{equation*}$

由于 $g$ , $f^{*}$ 是下半连续的, 则在上式中令 $k\rightarrow \infty$ 且两边同时除以 $\tau(\tau>0)$ , 选取 $u^{*} \in \partial h(x^{*})$ 得

$\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} \langle \nabla_{x}\Phi(x^{*},y^{*})+ u^{*},x-x^{*}\rangle\geq g(x^{*})-g(x),\\ -\langle \nabla_{y}\Phi(x^{*},y^{*}),y-y^{*}\rangle\geq f^{*}(y^{*})-f^{*}(y). \end{array} \right. \end{aligned} \end{equation*}$

因此 $(x^{*},y^{*})\in S$ . 同时对任意的 $(\bar{x},\bar{y})\in S$ , 以上证明仍然成立. 因此, 在 (3.5) 式中可用 $(x^{*},y^{*})$ 去代替 $(\bar{x},\bar{y})$ , 得到

$\begin{equation*} \lim\limits_{k\rightarrow\infty}\|z_{n_{k}+1}-x^{*}\|=\lim\limits_{k\rightarrow\infty}\|x_{n_{k}}-x^{*}\|=0, \end{equation*}$

$\begin{equation*} \lim\limits_{k\rightarrow\infty}\|y_{n_{k}-1}-y^{*}\|=\lim\limits_{k\rightarrow\infty}\|y_{n_{k}}-y^{*}\|=0. \end{equation*}$

由此可得 $\lim\limits_{k\rightarrow\infty}a_{n_{k}}=0$ . 又因为 $\{a_{n}\}_{n\in \mathbb{N}}$ 单调不增, 故因此且 $\lim _{n \rightarrow \infty} y_{n}=y^{*}$ . 证毕.

下面给出算法 1 的 $O(\frac{1}{N})$ 遍历收敛速率.

定理 3.2 假设 $\{(x_{n},y_{n},z_{n})\}_{n\in \mathbb{N}}$ 是由算法 1 产生的序列, $(\bar{x},\bar{y})\in S$ 以及 $\bar{u} \in \partial h(\bar{x})$ . 设 $N\geq 1$ 是任意正整数, 正整数 $t$ 是满足 $0<t<N$ , 并定义

$\begin{equation} X_{N}=\frac{1}{N-t+1}\sum_{n=t}^{N}x_{n}, Y_{N}=\frac{1}{N-t+1}\sum_{n=t}^{N}y_{n}. \end{equation}$

(3.7)

则

$\begin{equation*} G(X_{N},Y_{N})\leq \frac{1}{2\tau(N-t+1)}(\frac{\psi}{\psi-1}\|z_{t+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{t-1}-\bar{y}\|^{2}+\tau(L_{h}+L_{11})\|x_{t}-x_{t-1}\|^{2}). \end{equation*}$

证由 (3.5) 和 (3.6) 式知, 对任意的 $n\geq 1$ , 有 $2\tau G(x_{n},y_{n})\leq a_{n}-a_{n+1}$ . 从 $n=t,\cdots,N$ , 将以上不等式相加, 得 $2\tau \sum\limits_{n=t}^{N}G(x_{n},y_{n})\leq a_{t}-a_{N+1}\leq a_{t}$ . 注意到, $G(x,y)=P(x)+D(y)$ 且 $P(x)$ 和 $D(y)$ 是凸函数, 由 Jessen 不等式和 (3.7) 式得

$\begin{align*} G(X_{N},Y_{N})=P(X_{N})+D(Y_{N})&\leq \frac{1}{N-t+1}\sum_{n=t}^{N}P(x_{n})+\frac{1}{N-t+1}\sum_{n=t}^{N}D(y_{n})\nonumber\\ &=\frac{1}{N-t+1}\sum_{n=t}^{N}G(x_{n},y_{n}). \end{align*}$

上式联合 $a_{t}=\frac{\psi}{\psi-1}\|z_{t+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{t-1}-\bar{y}\|^{2}+\tau (L_{h}+ L_{11})\|x_{t}-x_{t-1}\|^{2}$ 可得结论. 证毕.

注 3.3 定理 3.1 从以下两个方面改进了文献 [12,定理 2]

(i) 将 $h$ 的可微性弱化到不可微.

(ii) 本文提出的算法完全不同于文献 [12,算法 1] 的变体 1, 在算法的形式上更为精简. 算法 1 采用了黄金比率凸组合技术, 这可以显著的减少算法的迭代次数与运行时间, 见数值实验部分.

注 3.4 当 $\Phi(x,y) = \langle Kx,y \rangle$ 且 $h$ 是可微函数时, 由本文定理 3.1 和 3.2, 我们可以重新获得文献 [11,定理 3.1 和 3.2].

4 数值实验

本节给出数值实验, 通过两个例子将本文算法 1 与文献 [12,算法 1] 的变体 1 (记为 Alg.1(v1)) 进行比较. 所有代码均在 MATLAB R2018a 和 Windows10 系统下运行, 计算机基本参数为 Intel(R) Core(TM) i5-8250U CPU@1.60GHz, 其中 “iter” 表示程序迭代次数, “CPU time” 表示程序运行时间, 单位为秒. 算法的终止条件为 $||[x_{n};y_{n}] - [x_{n-1};y_{n-1}]||^{2}\leq err$ (err 为提前设定的误差).

例 4.1^[12] 考虑如下二次规划问题

$\begin{align*} \min_{x\in \mathbb{R}^{q}}\{h(x):= &\frac{1}{2}x^{T}A_{0}x+b_{0}^{T}x s.t. \|x\| \leq D,\nonumber\\ &\frac{1}{2}x^{T}A_{i}x+b_{i}^{T}x+c_{i} \leq 0, i=1,\cdots,p\}, \end{align*}$

(4.1)

其中 $A_{i}\in \mathbb{R}^{q\times q}$ 是对称半正定矩阵, $b_{i}\in \mathbb{R}^{q}$ , $c_{i}\in \mathbb{R}.$ $A_{0}$ 是正定矩阵, $D:=10$ . 显然, (4.1) 式可转化为问题 (1.4), 其中 $X:=\{x\in \mathbb{R}^{q}:\|x\| \leq D\}$ , $g(x):=\delta_{X}(x)$ , $f^{*}(y):=\delta_{\mathbb{R}^{p}_{+}}(y)$ , $\Phi(x,y):=\Sigma^{p}_{i=1}y_{i}w_{i}(x)$ , $w_{i}(x):=\frac{1}{2}x^{T}A_{i}x+b_{i}^{T}x+c_{i}$ . 设初始点 $x_{0}=y_{0}=(0,0,\cdots 0)^{T}$ , $A_{0}$ , $A_{i}$ , $b_{0}$ , $b_{i}$ , $c_{i}$ 分别是服从正态分布的随机矩阵、随机向量、随机数. 在此情况下, 我们对比了两种算法在不同维数 $p$ , $q$ 和不同误差情况下的数值效果. 见表1和表2.

表1 $err=10^{-10}$ 时不同算法关于维度的比较

表2 $p=q=50$ 时不同算法关于终止条件精度的比较

参数选取如下

算法 1 设 $\tau=0.1, \sigma=0.1, \psi=1.6.$

文献 [12,算法 1] 的变体 1: 设 $\rho=0.8, \eta=\frac{\rho}{2}, L_{11}=10, L_{f}=10, L_{21}=20, L_{22}=20$ .

例 4.2 考虑下述极大极小博弈问题

$\begin{align*} \min_{x\in\Delta_{q}}\max_{y\in\Delta_{p}}\bigg\{\frac{1}{N}\sum^{N}_{j=1}\log(1+\exp(a_{j}^{T}x)) + \langle j(x),k(y)\rangle\bigg\}, \end{align*}$

(4.2)

其中 $\Delta_{q}:=\{x\in \mathbb{R}^{q}_{+}:\Sigma^{q}_{j=1}x_{j}=1\}$ , $\Delta_{p}:=\{y\in \mathbb{R}^{p}_{+}:\Sigma^{p}_{i=1}y_{i}=1\}$ . 显然, (4.2) 式可转化为问题 (1.4), $g(x):=\delta_{\Delta_{q}}(x), f^{*}(y):=\delta_{\Delta_{p}}(y)$ , $h(x):=\frac{1}{N}\sum\limits^{N}_{j=1}\log(1+\exp(a_{j}^{T}x))$ , $\Phi(x,y):=\langle j(x),k(y)\rangle$ , $j_{i}(x):=\frac{b_{i}}{1+x_{i}}$ , $k_{i}(y):=y_{i}$ . 设初始点 $x_{0}=y_{0}=(0,0,\cdots 0)^{T}$ , $a_{j}$ 是服从正态分布的随机向量. 在此情况下, 我们对比了两种算法在不同维数 $p$ , $q$ 和不同误差情况下的数值效果. 见表3和表4.

表3 $err=10^{-5}$ 时不同算法关于维度的比较

表4 $p=q=50$ 时不同算法关于终止条件精度的比较

参数选取如下

算法 1 设 $\tau$ =0.8, $\sigma$ =0.8, $\psi$ =1.2.

文献 [12,算法 1] 的变体 1 设 $\rho=1.4, \eta=\frac{\rho}{2}, L_{11}=10, L_{f}=10, L_{21}=20, L_{22}=20$ .

例 4.3 考虑下述极大极小问题

$\begin{align*} \min_{x\in\Delta_{q}}\max_{y\in\Delta_{p}}\{\|x\|_{1} + \langle j(x),k(y)\rangle\}, \end{align*}$

(4.3)

其中 $\Delta_{q}:=\{x\in \mathbb{R}^{q}_{+}:\Sigma^{q}_{j=1}x_{j}=1\}$ , $\Delta_{p}:=\{y\in \mathbb{R}^{p}_{+}:\Sigma^{p}_{i=1}y_{i}=1\}$ . 显然, (4.3) 式可转化为问题 (1.4), $g(x):=\delta_{\Delta_{q}}(x), f^{*}(y):=\delta_{\Delta_{p}}(y)$ , $h(x):=\|x\|_{1}$ , $\Phi(x,y):=\langle j(x),k(y)\rangle$ , $j_{i}(x):=\frac{b_{i}}{1+x_{i}}$ , $k_{i}(y):=y_{i}$ . 设初始点 $x_{0}=y_{0}=(1,1,\cdots 1)^{T}$ , $a_{j}$ 是服从正态分布的随机向量. 由于 $h$ 是非光滑函数, 所以文献 [12,算法 1] 的变体 1 以及文献 [11,算法 1] 不能求解本例子. 取 $\psi=1.2$ , 在不可微点 $x_{n-1}^{i}=0 (x_{n-1}$ 的第 $i$ 个分量), 取次梯度 $u_{n-1}^{i} = 0 \in \partial h(x_{n-1}^{i})$ . 在此情况下, 我们对比了算法 1 在不同维数 $p$ , $q$ , 不同步长和不同误差情况下的数值效果. 见表5、表6. 更进一步, 我们在 $p=q=150$ 以及 $err=10^{-30}$ 两种情况下分别给出了CPU time关于步长 ( $\tau, \sigma$ ) 的三维曲面图以及剖面图, 见图1、图2、图3、图4.

表5 $err=10^{-10}$ 时算法 1 关于维度的比较

表6 $p=q=100$ 时算法 1 关于终止条件精度的比较

图1

图1 $p=q=150$ 时 CPU time 关于步长的三维曲面图

图2

图2 $p=q=150$ 时 CPU time 关于步长 $\tau$ 、 $\sigma$ 的剖面图

图3

图3 $err=10^{-30}$ 时 CPU time 关于步长的三维曲面图

图4

图4 $err=10^{-30}$ 时 CPU time 分别关于步长 $\tau$ 、 $\sigma$ 的剖面图

注 4.1 从数值实验的结果来看, 我们有

(i) 算法 1 与文献 [12,算法 1] 的变体 1 都收敛到问题的解.

(ii) 从 CPU 运行时间来看 (针对例 4.1 与例 4.2), 在适当参数的选取下, 算法 1 优于文献 [12,算法 1], 见表1-4.

(iii) 从迭代次数来看, 在适当参数的选取下, 例 4.2 中算法 1 随着维度和精度的增加仍然表现出很强的稳定性, 较文献 [12,算法 1] 的变体 1 数值效果更佳, 见表3和表4.

(iv) 例 4.3 中, 在 $err=10^{-10}$ , $p=q=50$ , $p=q=100$ , $p=q=150$ 的情况下, 我们选取了多组步长, 得到 $\tau=0.8$ , $\sigma=0.7$ 时的数值效果最佳, 见表5及图1, 图2; 以及在 $p=q=100$ , $err=10^{-10}$ , $err=10^{-20}$ , $err=10^{-30}$ 的情况下, 我们选取了多组步长, 同样得到 $\tau=0.8$ , $\sigma=0.7$ 时的数值效果最佳, 见表6及图3, 图4.

(v) 算法 1 在 $h$ 光滑与非光滑的条件下同样适用.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Bauschke

H H

, Combettes

. Convex Analysis and Monotone Operators Theory in Hilbert Spaces. New York: Springer-Verlag, 2020

[本文引用: 2]

[2]

Chambolle

, Pock

A first-order primal-dual algorithm for convex problems with applications to imaging

J Math Imaging Vis, 2011, 40: 120-145

[本文引用: 2]

[3]

Combettes

, Pesquet

J C

. Proximal splitting methods in signal processing// Bauschke H, Burachik R, Combetles P, et al. Fixed-Point Algorithms for Inverse Problems in Science and Engineering. New York: Springer-Verlag, 2011: 185-212

[4]

Uzawa

. Iterative methods for concave programming// Arrow K J, Hurwicz L, Uzawa H, eds. Studies in Linear and Nonlinear Programming. Stanford, CA: Stanford University Press, 1958, 6: 154-165

[5]

Esser

, Zhang

, Chan

T F

A general framework for a class of first order primal-dual algorithms for convex optimization in imaging science

SIAM J Imaging Sci, 2010, 3: 1015-1046

[6]

, You

, Yuan

On the convergence of primal-dual hybrid gradient algorithm

SIAM J Imaging Sci, 2014, 7(4): 2526-2537

[7]

Chambolle

, Pock

On the ergodic convergence rates of a first-order primal-dual algorithm

Math Program, 2016, 159(1): 253-287

[8]

Condat

A primal-dual splitting method for convex optimization involving Lipschitzian, proximable and linear composite terms

J Optim Theory Appl, 2013, 158(2): 460-479

[9]

Malitsky

Golden ratio algorithms for variational inequalities

Math Program, 2020, 184(1): 383-410

[本文引用: 2]

[10]

Iteration complexity of inexact augmented Lagrangian methods for constrained convex programming

Math Program, 2021, 185: 89-117

[11]

周丹青, 常小凯, 杨俊峰.

一类新的黄金比率原始对偶算法

高等学校计算数学学报, 2022, 44: 97-106

[本文引用: 7]

Zhou

D Q

, Chang

X K

, Yang

J F

A new Golden ratio primal-dual algorithm

Numerical Math A J Chinese Univ, 2022, 44: 97-106

[本文引用: 7]

[12]

Zhu

, Liu

, Tran-Ding

New primal-dual algorithms for a class of nonsmooth and nonlinear convex-concave minimax problems

SIAM J Optim, 2022, 32(4): 2580-2611

[本文引用: 17]

[13]

Hamedani

E Y

, Aybat

N S

A primal-dual algorithm with line search for general convex-concave saddle point problems

SIAM J Optim, 2021, 31: 1299-1329