1 引言
设 $ \mathbb{R}^{p} $ 和 $ \mathbb{R}^{q} $ 是有限维欧式空间, 并且每个空间上的內积和诱导范数分别表示为 $ \langle \cdot,\cdot \rangle $ 和 $ \|\cdot\|=\sqrt{\langle \cdot,\cdot \rangle}. $ 假设 $ h:\mathbb{R}^{q}\rightarrow \mathbb{R} $ 是凸函数, $ f:\mathbb{R}^{p}\rightarrow \mathbb{R}\cup\{+\infty\} $ 和 $ g:\mathbb{R}^{q}\rightarrow \mathbb{R}\cup\{+\infty\} $ 是扩展实值下半连续凸函数, $ \Phi :\mathbb{R}^{q} \times \mathbb{R}^{p} \rightarrow \mathbb{R} $ 是连续可微函数, $ K:\mathbb{R}^{q} \rightarrow \mathbb{R}^{p} $ 是有界线性算子. 函数 $ f $ 的共轭函数定义为 $ f^*(y)=\sup\limits_{x\in\mathbb{R}^{p}}\{\langle{y,x}\rangle-f(x)\} $ .
(1.1) $\begin{equation} \min_{x\in \mathbb{R}^{q}} \max_{y\in \mathbb{R}^{p}}\{ g(x) + \langle Kx,y \rangle - f^{*}(y)\}, \end{equation}$
问题 (1.1) 在许多领域有着广泛的应用, 比如信号与图像处理、压缩感知、机器学习、博弈论等, 许多学者研究了问题 (1.1), 详情见文献 [1 ⇓ -3 ]. 求解问题 (1.1) 的相关算法已经有很多, 其中最经典的是 Arrow-Hurwicz 方法[4 ] , 即原始对偶算法. 从初始点 $ (x_{0},y_{0})\in \mathbb{R}^{q}\times \mathbb{R}^{p} $ 开始, 具体迭代为
$\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} x_{n}=\mbox{Prox}_{\tau g}(x_{n-1}-\tau K^{\top}y_{n-1}),\\ y_{n}=\mbox{Prox}_{\sigma f^{*}}(y_{n-1}+\sigma Kx_{n}), \end{array} \right. \end{aligned} \end{equation*}$
其中 $ \tau>0, \sigma>0 $ 是步长参数. 该方法在图像处理中也被称作原始对偶混合梯度算法. 若 $ f^{*} $ 的定义域有界且步长很小时, 可基于原始对偶间隙函数得到 $ O(\frac{1}{N}) $ 的遍历收敛率, 具体的收敛性分析[2 ,5 ] . 但是 Arrow-Hurwicz 方法在一般情况下不收敛[6 ] . 为了克服这一缺点, 许多学者提出了不同的改进方法[7 ⇓ ⇓ -10 ] .
受文献 [9 ] 的启发, 周丹青等[11 ] 提出了一类黄金比率原始对偶算法求解如下鞍点问题
(1.2) $\begin{equation} \min_{x\in \mathbb{R}^{q}} \max_{y\in \mathbb{R}^{p}}\{ h(x) + g(x) + \langle Kx,y \rangle - f^{*}(y)\}, \end{equation}$
(1.3) $\begin{equation} \begin{aligned} \left\{ \begin{array}{ll} z_{n} = \frac{\psi-1}{\psi}x_{n-1} + \frac{1}{\psi}z_{n-1},\\ x_{n} = \mbox{Prox}_{\tau g}(z_{n} -\tau K^{\top}y_{n-1}- \tau \nabla h(x_{n-1})),\\ y_{n} = \mbox{Prox}_{\sigma f^{*}}(y_{n-1} + \sigma Kx_{n}), \end{array} \right. \end{aligned} \end{equation}$
其中 $ \tau, \sigma>0 $ . 若 $ \tau(\sigma\|K\|^{2}+2L_{h})\leq\psi $ , $ \psi\in(1,\phi] $ ($ \phi $ 是黄金比率), 周丹青等证明了算法 (1.3) 的收敛性以及 $ O(\frac{1}{N}) $ 遍历收敛率.
注意到, 在问题 (1.1) 和 (1.2) 中涉及到一个双线性函数, 但是在实际应用中许多函数往往不满足双线性性. 因此, 如何研究带非线性二元函数的鞍点问题显得尤为重要. 最近, Zhu 等[12 ] 考虑了如下鞍点问题
(1.4) $\begin{equation} \min_{x\in \mathbb{R}^{q}} \max_{y\in \mathbb{R}^{p}}\{\mathcal{L}(x,y)=h(x) + g(x) + \Phi(x,y) - f^{*}(y)\}, \end{equation}$
这里 $ h $ 是可微函数. Zhu 等[12 ] 提出了如下原始对偶算法
(1.5) $\begin{equation} \begin{aligned} \left\{ \begin{array}{ll} u_{n} = \mbox{Prox}_{\rho_{n-1}(f^{*}(\cdot)-\Phi(x_{n-1},\cdot))}(y_{n-1}),\\[2mm] s_{n} = \nabla_{y}\Phi(x_{n-1},u_{n})-\frac{1}{\rho_{n-1}}(u_{n}-y_{n-1}),\\[3mm] x_{n} = \mbox{Prox}_{\frac{g}{L_{n-1}}}(x_{n-1} -\frac{1}{L_{n-1}}[\nabla h(x_{n-1})+ \nabla_{x}\Phi(x_{n-1},u_{n})]),\\[3mm] y_{n} = y_{n-1} + \frac{\eta_{n-1}}{\rho_{n-1}}(\mbox{Prox}_{-\rho_{n-1} \Phi(x_{n},\cdot)}(y_{n-1} - \rho_{n-1} s_{n}) - y_{n-1}), \end{array} \right. \end{aligned} \end{equation}$
其中 $ \rho_{n-1} > 0, \eta_{n-1} = \frac{\rho_{n-1}}{2} $ , $ L_{n-1} = L_{11} + L_{h} + L_{21}^{2}(2+\rho_{n-1}L_{22})\rho_{n-1} $ ( $ L_{11} $ 、 $ L_{21} $ 和 $ L_{22} $ 是各个 Lipschitz 常数, 见假设 2.2). 在函数 $ \nabla_{x}\Phi(x,y) $ 和 $ \nabla_{y}\Phi(x,y) $ 关于 $ x $ 和 $ y $ 是 Lipschitz 连续的假设下证明了算法 (1.5) 的收敛性以及 $ O(\frac{1}{N}) $ 遍历收敛率. 值得注意的是, 算法 (1.5) 对于邻近算子参数 $ L_{n} $ 的取值范围严重依赖于 Lipschitz 常数, 且单次循环迭代步骤较多, 这将严重影响算法的收敛速度. 此外, 函数 $ h $ 可微这一假设比较强. 事实上, 许多函数并不满足可微性. 因此, 如何在不可微情况下提出加速的算法求解问题 (1.4) 是本文讨论的重点.
本文受到文献 [11 ,12 ] 的启发, 我们提出了求解问题 (1.4) 的黄金比率原始对偶算法, 证明了由算法产生的序列收敛到问题 (1.4) 的解, 并用数值实验验证了算法的优势. 本文所得的结果改进和推广了文献 [11 ,12 ] 中相应结果.
2 预备知识
全文用 $ \mathbb{N} $ 表示正整数集, 用 $ \phi $ 表示黄金比率, 即 $ \phi=\frac{1+\sqrt{5}}{2} $ . 设 $ w:\mathbb{R}^{q}\rightarrow \mathbb{R}\bigcup \{+\infty\} $ 为扩展实值下半连续凸函数, 其有效域记为 dom$(w):=\{x\in \mathbb{R}^{q}:w(x)<+\infty\} $ . 设 $ x\in \mathbb{R}^{q} $ , $ w $ 在点 $ x $ 的次微分记为 $ \partial w(x) $ , 即 $ \partial w(x):=\{\xi \in \mathbb{R}^{q}:w(y)\geq w(x)+\langle\xi,y-x\rangle, \forall y\in \mathbb{R}^{q}\} $ , $ w $ 在点 $ x $ 的邻近点映射定义为
$\begin{equation*} \mbox{Prox}_{\lambda w}(x):=\arg\min_{y\in \mathbb{R}^{q}}\{w(y)+\frac{1}{2\lambda}\|y-x\|^{2}\}, x\in \mathbb{R}^{q}, \lambda >0. \end{equation*}$
$\begin{equation*} P^{*}:=\min_{x\in \mathbb{R}^{q}}\{h(x)+g(x)+p(x)\}, p(x):=\max_{y\in \mathbb{R}^{p}}\{\Phi(x,y) - f^{*}(y)\}, \end{equation*}$
$\begin{equation*} D^{*}:=\max_{y\in \mathbb{R}^{p}}\{d(y)-f^{*}(y)\}, d(y):=\min_{x\in \mathbb{R}^{q}}\{h(x) + g(x) + \Phi(x,y)\}. \end{equation*}$
假设 2.1 对于问题 (1.4), 设存在 $ (\bar{x},\bar{y})\in ({\rm dom}(h)\cap {\rm dom}(g))\times {\rm dom}(f) $ 使得
$\begin{equation*} \mathcal{L}(\bar{x},y)\leq \mathcal{L}(\bar{x},\bar{y})\leq \mathcal{L}(x,\bar{y}), \end{equation*}$
并且 $ ({\rm dom}(h)\cap {\rm dom}(g))\times {\rm dom}(f)\subseteq {\rm dom}(\Phi) $ 以及 $ \mathcal{L}(\bar{x},\bar{y}) $ 是有界的.
注 2.1 假设 2.1 是凸凹极小极大问题中的标准假设. 它保证了强对偶性 $ (P^{*}=D^{*}=\mathcal{L}(\bar{x},\bar{y})) $ 以及问题 $ P^{*} $ 、 $ D^{*} $ 解的存在性[14 ] .
假设 2.2 对任意的 $ y\in {\rm dom}(f) $ , $ x\in {\rm dom}(g)\cap {\rm dom}(h) $ , $ \Phi(x,y) $ 关于 $ x $ 和 $ y $ 分别是凸函数和凹函数. 此外, 对任意的 $ x_{1}, x_{2}\in {\rm dom}(g)\cap {\rm dom}(h) $ 和 $ y_{1}, y_{2}\in {\rm dom}(f) $ 满足
$\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} \|\nabla_{x}\Phi(x_{2},y_{2})-\nabla_{x}\Phi(x_{1},y_{1})\|\leq L_{11}\|x_{2}-x_{1}\|+L_{12}\|y_{2}-y_{1}\|,\\ \|\nabla_{y}\Phi(x_{1},y_{2})-\nabla_{y}\Phi(x_{1},y_{1})\|\leq L_{21}\|y_{2}-y_{1}\|. \end{array} \right. \end{aligned} \end{equation*}$
注 2.2 假设 2.2 广泛用于求解凸凹极小极大问题[12 ,13 ] , 即要求 $ \nabla_{x}\Phi(x,y) $ 和 $ \nabla_{y}\Phi(x,y) $ 关于 $ x $ 和 $ y $ 是 Lipschitz 连续的.
假设 2.3 对任意的 $ u_{n}\in \partial h(x_{n}) $ , $ u_{n-1}\in \partial h(x_{n-1}) $ , 存在 $ L_{h}>0 $ 满足
$\begin{equation*} \|u_{n} - u_{n-1}\| \leq L_{h}\|x_{n} - x_{n-1}\|. \end{equation*}$
注 2.3 若 $ h $ 是可微的, 则假设 2.3 退化为文献 [11 ,12 ] 中的梯度 Lipschitz 连续性假设.
由假设 2.1 知问题 (1.4) 的鞍点集非空, 并记为
$\begin{equation*} S:=\{(\bar{x},\bar{y})\in \mathbb{R}^{q} \times \mathbb{R}^{p}:0\in \partial g(\bar{x})+\nabla_{x}\Phi(\bar{x},\bar{y})+\partial h(\bar{x}), 0\in \nabla_{y}\Phi(\bar{x},\bar{y})-\partial f^{*}(\bar{y})\}. \end{equation*}$
引理 2.1 [1 ] 设 $ w:\mathbb{R}^{q}\rightarrow \mathbb{R}\bigcup \{+\infty\} $ 是扩展实值闭正常凸函数, $ \lambda>0 $ 以及 $ x\in \mathbb{R}^{q} $ , 则
$\begin{equation*} p=\mbox{Prox}_{\lambda w}(x)\Leftrightarrow \langle p-x,y-p\rangle\geq \lambda(w(p)-w(y)), \forall y\in \mathbb{R}^{q}. \end{equation*}$
引理 2.2 [14 ] 设 $ \{a_{n}\}_{n\in \mathbb{N}} $ 和 $ \{b_{n}\}_{n\in \mathbb{N}} $ 是非负实数列. 如果存在 $ N>0 $ 使得 $ a_{n+1}\leq a_{n}-b_{n} $ , $ \forall n\geq N $ , 那么 $ \lim\limits_{n\rightarrow\infty}a_{n} $ 存在且 $ \lim\limits_{n\rightarrow\infty}b_{n}=0 $ .
引理 2.3 [14 ] 对任意 $ x,y,z\in \mathbb{R}^{q} $ 和 $ \alpha \in \mathbb{R} $ 有
$\begin{equation*} \langle x-y,x-z\rangle=\frac{1}{2}\|x-y\|^{2}+\frac{1}{2}\|x-z\|^{2}-\frac{1}{2}\|y-z\|^{2}. \end{equation*}$
$\begin{equation*} \|\alpha x+(1-\alpha) y\|^{2}=\alpha\|x\|^{2}+(1-\alpha)\|y\|^{2}-\alpha(1-\alpha)\|x-y\|^{2}. \end{equation*}$
设 $ (\bar{x},\bar{y}) $ 是问题 (1.4) 的解, 则
$\begin{equation*} 0\in \partial g(\bar{x})+\nabla_{x}\Phi(\bar{x},\bar{y})+\partial h(\bar{x}), 0\in \nabla_{y}\Phi(\bar{x},\bar{y})-\partial f^{*}(\bar{y}). \end{equation*}$
取 $ \bar{u} \in \partial h(\bar{x}) $ , 则上式等价于
$\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} P(x):=g(x)-g(\bar{x})+\langle \nabla_{x}\Phi(\bar{x},\bar{y})+\bar{u},x-\bar{x}\rangle \geq 0, \forall x\in \mathbb{R}^{q},\\ D(y):=f^{*}(y)-f^{*}(\bar{y})-\langle \nabla_{y}\Phi(\bar{x},\bar{y}),y-\bar{y}\rangle \geq 0, \forall y\in \mathbb{R}^{p}. \end{array} \right. \end{aligned} \end{equation*}$
$\begin{equation*} G(x,y):=P(x)+D(y), \forall (x,y)\in \mathbb{R}^{q}\times \mathbb{R}^{p}. \end{equation*}$
显然, $ P(x),D(y) $ 和 $ G(x,y) $ 都是凸函数且 $ G(x,y)\geq0. $ 对任意的 $ y\in {\rm dom}(f) $ , $ x\in {\rm dom}(g)\cap {\rm dom}(h) $ , $ G(x^{*},y^{*}) = 0 $ 当且仅当 $ (x^{*},y^{*}) $ 是问题 (1.4) 的鞍点.
3 提出的算法与收敛性证明
注 3.1 当 $ \Phi(x,y) = \langle Kx,y \rangle $ 且 $ h $ 是可微函数时, 算法 1 就退化为文献 [11 ,算法 1].
注 3.2 算法 1 是完全可分裂的, 即在每次迭代中不依赖于求解任何子问题或线性方程组. 而且算法1 完全不同于文献 [12 ,算法 1] 的变体 1 (记为 Alg.1(v1)), 本文的算法更加的简洁, 数值效果更好, 见数值实验部分.
引理 3.1 假设 $ \{(x_{n},y_{n},z_{n})\}_{n\in \mathbb{N}} $ 是由算法 1 产生的序列, $ (\bar{x},\bar{y})\in S $ 以及 $ \bar{u} \in \partial h(\bar{x}) $ , 那么对于任意的 $ (x,y) \in \mathbb{R}^{q}\times \mathbb{R}^{p} $ , 有
(3.1) $\begin{aligned} \tau G\left(x_{n}, y_{n}\right) \leq & \left\langle x_{n+1}-z_{n+1}, \bar{x}-x_{n+1}\right\rangle+\frac{\tau}{\sigma}\left\langle y_{n}-y_{n-1}, \bar{y}-y_{n}\right\rangle \\ & +\psi\left\langle x_{n}-z_{n+1}, x_{n+1}-x_{n}\right\rangle+\tau\left\langle u_{n}-u_{n-1}, x_{n}-x_{n+1}\right\rangle \\ & +\tau\left\langle\nabla_{x} \Phi\left(x_{n}, y_{n}\right)-\nabla_{x} \Phi\left(x_{n-1}, y_{n-1}\right), x_{n}-x_{n+1}\right\rangle \\ & +\tau\left\langle\nabla_{y} \Phi\left(x_{n}, y_{n}\right)-\nabla_{y} \Phi\left(x_{n}, y_{n-1}\right), y_{n-1}-y_{n}\right\rangle \end{aligned}$
(3.2) $\begin{equation} \begin{aligned} \left\{ \begin{array}{ll} \langle x_{n+1}-z_{n+1}+\tau\nabla_{x}\Phi(x_{n},y_{n})+\tau u_{n},\bar{x}-x_{n+1}\rangle\geq\tau(g(x_{n+1})-g(\bar{x})),\\ \langle \frac{\tau}{\sigma}(y_{n}-y_{n-1})-\tau\nabla_{y}\Phi(x_{n},y_{n-1}),\bar{y}-y_{n}\rangle\geq\tau(f^{*}(y_{n})-f^{*}(\bar{y})),\\ \langle x_{n}-z_{n}+\tau\nabla_{x}\Phi(x_{n-1},y_{n-1})+\tau u_{n-1},x_{n+1}-x_{n}\rangle\geq\tau(g(x_{n})-g(x_{n+1})). \end{array} \right. \end{aligned} \end{equation}$
$\begin{align*} \tau G(x_{n},y_{n})=\ &\tau(P(x_{n})+D(y_{n}))\nonumber\\ =\ &\tau(g(x_{n})-g(\bar{x})+\langle\nabla_{x}\Phi(\bar{x},\bar{y})+ \bar{u},x_{n}-\bar{x}\rangle)\nonumber\\ &+\tau(f^{*}(y_{n})-f^{*}(\bar{y})-\langle\nabla_{y}\Phi(\bar{x},\bar{y}),y_{n}-\bar{y}\rangle). \end{align*}$
$\begin{align*} \tau G(x_{n},y_{n})\leq\ &\langle x_{n+1}-z_{n+1},\bar{x}-x_{n+1}\rangle+\langle x_{n}-z_{n},x_{n+1}-x_{n}\rangle+ \frac{\tau}{\sigma}\langle y_{n}-y_{n-1},\bar{y}-y_{n}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(x_{n},y_{n}),\bar{x}-x_{n+1}\rangle+\tau\langle u_{n},\bar{x}-x_{n+1}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(x_{n-1},y_{n-1}),x_{n+1}-x_{n}\rangle+\tau\langle u_{n-1},x_{n+1}-x_{n}\rangle\nonumber\\ &+\tau\langle\nabla_{y}\Phi(x_{n},y_{n-1}),y_{n}-\bar{y}\rangle+\tau\langle\nabla_{x}\Phi(\bar{x},\bar{y}),x_{n}-\bar{x}\rangle\nonumber\\ &+\tau\langle \bar{u},x_{n}-\bar{x}\rangle-\tau\langle\nabla_{y}\Phi(\bar{x},\bar{y}),y_{n}-\bar{y}\rangle. \end{align*}$
又因为 $ x_{n}-z_{n}=\psi(x_{n}-z_{n+1}) $ , 以及函数 $ \Phi(\cdot,\cdot) $ 关于第一变元的凸性和关于第二变元的凹性, 有
$\begin{align*} \tau G(x_{n},y_{n})\leq\ &\langle x_{n+1}-z_{n+1},\bar{x}-x_{n+1}\rangle+\psi\langle x_{n}-z_{n+1},x_{n+1}-x_{n}\rangle+ \frac{\tau}{\sigma}\langle y_{n}-y_{n-1},\bar{y}-y_{n}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(x_{n},y_{n}),\bar{x}-x_{n}\rangle+\tau\langle\nabla_{x}\Phi(x_{n},y_{n})-\nabla_{x}\Phi(x_{n-1},y_{n-1}),x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle u_{n}-\bar{u},\bar{x}-x_{n}\rangle+\tau\langle u_{n}-u_{n-1},x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle\nabla_{y}\Phi(x_{n},y_{n-1}),y_{n}-y_{n-1}\rangle-\tau\langle\nabla_{y}\Phi(x_{n},y_{n-1}),\bar{y}-y_{n-1}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(\bar{x},\bar{y}),x_{n}-\bar{x}\rangle-\tau\langle\nabla_{y}\Phi(\bar{x},\bar{y}),y_{n}-\bar{y}\rangle\nonumber\\ \leq\ &\langle x_{n+1}-z_{n+1},\bar{x}-x_{n+1}\rangle+\psi\langle x_{n}-z_{n+1},x_{n+1}-x_{n}\rangle+ \frac{\tau}{\sigma}\langle y_{n}-y_{n-1},\bar{y}-y_{n}\rangle\nonumber\\ &+\tau(\Phi(\bar{x},y_{n})-\Phi(x_{n},y_{n}))+\tau\langle\nabla_{x}\Phi(x_{n},y_{n})-\nabla_{x}\Phi(x_{n-1},y_{n-1}),x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle u_{n}-\bar{u},\bar{x}-x_{n}\rangle+\tau\langle u_{n}-u_{n-1},x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle\nabla_{y}\Phi(x_{n},y_{n-1}),y_{n}-y_{n-1}\rangle-\tau(\Phi(x_{n},\bar{y})-\Phi(x_{n},y_{n-1}))\nonumber\\ &+\tau(\Phi(x_{n},\bar{y})-\Phi(\bar{x},\bar{y}))-\tau(\Phi(\bar{x},y_{n})-\Phi(\bar{x},\bar{y}))\nonumber\\ \leq\ &\langle x_{n+1}-z_{n+1},\bar{x}-x_{n+1}\rangle+\psi\langle x_{n}-z_{n+1},x_{n+1}-x_{n}\rangle+ \frac{\tau}{\sigma}\langle y_{n}-y_{n-1},\bar{y}-y_{n}\rangle\nonumber\\ &+\tau\langle\nabla_{x}\Phi(x_{n},y_{n})-\nabla_{x}\Phi(x_{n-1},y_{n-1}),x_{n}-x_{n+1}\rangle\nonumber\\ &-\tau\langle u_{n}-\bar{u},x_{n} - \bar{x}\rangle+\tau\langle u_{n}-u_{n-1},x_{n}-x_{n+1}\rangle\nonumber\\ &+\tau\langle\nabla_{y}\Phi(x_{n},y_{n})-\nabla_{y}\Phi(x_{n},y_{n-1}),y_{n-1}-y_{n}\rangle. \end{align*}$
由于 $ h $ 是凸函数, 则次梯度算子是单调的. 故 $ \langle u_{n}- \bar{u},x_{n}-\bar{x}\rangle \geq 0 $ . 因此 (3.1) 式成立. 证毕.
定理 3.1 假设 $ \{(x_{n},y_{n},z_{n})\}_{n\in \mathbb{N}} $ 是由算法 1 产生的序列, $ (\bar{x},\bar{y})\in S $ 以及 $ \bar{u} \in \partial h(\bar{x}) $ . 则 $ \{(x_{n},y_{n})\}_{n\in \mathbb{N}} $ 收敛到问题 (1.4) 的解, 即收敛到 $ S $ 中的一个元素.
证 由引理 2.3, 引理 3.1, 假设 2.2 和 Cauchy-Schwarz 不等式得
(3.3) $\begin{aligned} & \left\|x_{n+1}-\bar{x}\right\|^{2}+\frac{\tau}{\sigma}\left\|y_{n}-\bar{y}\right\|^{2}+2 \tau G\left(x_{n}, y_{n}\right) \\ \leq & \left\|z_{n+1}-\bar{x}\right\|^{2}+\frac{\tau}{\sigma}\left\|y_{n-1}-\bar{y}\right\|^{2}-\frac{\tau}{\sigma}\left\|y_{n}-y_{n-1}\right\|^{2} \\ & -\psi\left\|x_{n}-x_{n+1}\right\|^{2}-\psi\left\|z_{n+1}-x_{n}\right\|^{2}+(\psi-1)\left\|x_{n+1}-z_{n+1}\right\|^{2} \\ & +2 \tau\left(L_{11}\left\|x_{n}-x_{n-1}\right\|+L_{12}\left\|y_{n}-y_{n-1}\right\|\right)\left\|x_{n}-x_{n+1}\right\| \\ & +2 \tau L_{h}\left\|x_{n}-x_{n-1}\right\|\left\|x_{n+1}-x_{n}\right\|+2 \tau L_{21}\left\|y_{n}-y_{n-1}\right\|^{2}. \end{aligned}$
注意到 $ x_{n+1}=\frac{\psi}{\psi-1}z_{n+2}-\frac{1}{\psi-1}z_{n+1} $ 和 $ z_{n+2}-z_{n+1}=\frac{\psi-1}{\psi}(x_{n+1}-z_{n+1}) $ . 由引理 2.3 可得
(3.4) $\begin{aligned} \left\|x_{n+1}-\bar{x}\right\|^{2} & =\frac{\psi}{\psi-1}\left\|z_{n+2}-\bar{x}\right\|^{2}-\frac{1}{\psi-1}\left\|z_{n+1}-\bar{x}\right\|^{2}+\frac{\psi}{(\psi-1)^{2}}\left\|z_{n+2}-z_{n+1}\right\|^{2} \\ & =\frac{\psi}{\psi-1}\left\|z_{n+2}-\bar{x}\right\|^{2}-\frac{1}{\psi-1}\left\|z_{n+1}-\bar{x}\right\|^{2}+\frac{1}{\psi}\left\|x_{n+1}-z_{n+1}\right\|^{2}. \end{aligned}$
$\begin{align*} 2\|x_{n}-x_{n-1}\|\|x_{n+1}-x_{n}\|\leq\|x_{n}-x_{n-1}\|^{2}+\|x_{n+1}-x_{n}\|^{2},\nonumber\\ 2\|y_{n}-y_{n-1}\|\|x_{n}-x_{n+1}\|\leq\|y_{n}-y_{n-1}\|^{2}+\|x_{n}-x_{n+1}\|^{2}, \end{align*}$
$\begin{align*} &\frac{\psi}{\psi-1}\|z_{n+2}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n}-\bar{y}\|^{2}\nonumber\\ &+2\tau G(x_{n},y_{n})+(\psi-\tau L_{h}-\tau L_{11}-\tau L_{12})\|x_{n+1}-x_{n}\|^{2}\nonumber\\ \leq\ &\frac{\psi}{\psi-1}\|z_{n+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n-1}-\bar{y}\|^{2}+(\psi-1-\frac{1}{\psi})\|x_{n+1}-z_{n+1}\|^{2}\nonumber\\ &-\psi\|z_{n+1}-x_{n}\|^{2}+(\tau L_{h}+\tau L_{11})\|x_{n}-x_{n-1}\|^{2}-(\frac{\tau}{\sigma}-\tau L_{12}-2\tau L_{21})\|y_{n}-y_{n-1}\|^{2}. \end{align*}$
因为 $ \tau(2L_{h}+2L_{11}+L_{12})\leq \psi, \psi \in (1,\phi] $ 且 $ L_{12}+2L_{21}\leq \frac{1}{\sigma} $ , 则 $ \psi-\tau L_{h}-\tau L_{11}-\tau L_{12}\geq\tau L_{h}+\tau L_{11} $ 以及 $ \frac{\tau}{\sigma}-\tau L_{12}-2\tau L_{21}\geq0 $ . 又因为 $ \psi\leq\phi $ , 故 $ \psi-1-\frac{1}{\psi}\leq0 $ . 因此上式可简化为
$\begin{align*} &\frac{\psi}{\psi-1}\|z_{n+2}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n}-\bar{y}\|^{2}+2\tau G(x_{n},y_{n})+(\tau L_{h}+\tau L_{11})\|x_{n+1}-x_{n}\|^{2}\nonumber\\ \leq\ &\frac{\psi}{\psi-1}\|z_{n+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n-1}-\bar{y}\|^{2}-\psi\|z_{n+1}-x_{n}\|^{2}\nonumber\\ &+(\tau L_{h}+\tau L_{11})\|x_{n}-x_{n-1}\|^{2}-(\frac{\tau}{\sigma}-\tau L_{12}-2\tau L_{21})\|y_{n}-y_{n-1}\|^{2}. \end{align*}$
(3.5) $\begin{equation} \begin{aligned} \left\{ \begin{array}{ll} a_{n}=\frac{\psi}{\psi-1}\|z_{n+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{n-1}-\bar{y}\|^{2}+(\tau L_{h}+ \tau L_{11})\|x_{n}-x_{n-1}\|^{2},\\[3mm] b_{n}=\psi\|z_{n+1}-x_{n}\|^{2}+(\frac{\tau}{\sigma}-\tau L_{12}-2\tau L_{21})\|y_{n}-y_{n-1}\|^{2}. \end{array} \right. \end{aligned} \end{equation}$
注意到 $ G(x_{n},y_{n})\geq 0 $ , 则
(3.6) $\begin{equation} a_{n+1}\leq a_{n+1}+2\tau G(x_{n},y_{n})\leq a_{n}-b_{n}. \end{equation}$
显然 $ a_{n}\geq0 $ , $ b_{n}\geq 0 $ . 由引理 2.2 知 $ \lim\limits_{n\rightarrow\infty}a_{n} $ 存在以及 $ \lim\limits_{n\rightarrow\infty}b_{n}=0 $ . 又由 $ x_{n}-z_{n}=\psi(x_{n}-z_{n+1}) $ 以及 $ b_{n} $ 的定义可知
$\begin{equation*} \lim\limits_{n\rightarrow\infty}\|y_{n}-y_{n-1}\|=\lim\limits_{n\rightarrow\infty}\|z_{n+1}-x_{n}\|=\lim\limits_{n\rightarrow\infty}\|z_{n}-x_{n}\|=0. \end{equation*}$
因为 $ \lim\limits_{n\rightarrow\infty}a_{n} $ 存在, 故 $ \{z_{n+1}\}_{n\in \mathbb{N}} $ 和 $ \{y_{n}\}_{n\in \mathbb{N}} $ 是有界的. 进一步有 $ \{(z_{n+1},y_{n})\}_{n\in \mathbb{N}} $ 有界. 又因为 $ \lim\limits_{n\rightarrow\infty}\|z_{n}-x_{n}\|=0 $ , 所以 $ \{x_{n}\}_{n\in \mathbb{N}} $ 也有界.
下面证明 $ \{(x_{n},y_{n})\}_{n\in \mathbb{N}} $ 收敛到问题 (1.4) 的一个解. 不妨假设 $ \{(x_{n+1},y_{n})\}_{n\in \mathbb{N}} $ 的子列 $ \{(x_{n_{k}+1},y_{n_{k}})\}_{k\in \mathbb{N}} $ 收敛于 $ (x^{*},y^{*}) $ . 则 $ \lim\limits_{k\rightarrow\infty}x_{n_{k}}=\lim\limits_{k\rightarrow\infty}x_{n_{k}+1}=x^{*}, \lim\limits_{k\rightarrow\infty}y_{n_{k}}=\lim\limits_{k\rightarrow\infty}y_{n_{k}-1}=y^{*} $ . 对任意的 $ (x,y)\in \mathbb{R}^{q}\times \mathbb{R}^{p} $ , 选取 $ u_{n_{k}} \in \partial h(x_{n_{k}}) $ , 由引理 2.1 得如下不等式组
$\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} \langle x_{n_{k}+1}-z_{n_{k}+1}+\tau\nabla_{x}\Phi(x_{n_{k}},y_{n_{k}})+\tau u_{n_{k}},x-x_{n_{k}+1}\rangle\geq\tau(g(x_{n_{k}+1})-g(x)),\\ \langle \frac{\tau}{\sigma}(y_{n_{k}}-y_{n_{k}-1})-\tau\nabla_{y}\Phi(x_{n_{k}},y_{n_{k}-1}), y-y_{n_{k}}\rangle\geq\tau(f^{*}(y_{n_{k}})-f^{*}(y)). \end{array} \right. \end{aligned} \end{equation*}$
由于 $ g $ , $ f^{*} $ 是下半连续的, 则在上式中令 $ k\rightarrow \infty $ 且两边同时除以 $ \tau(\tau>0) $ , 选取 $ u^{*} \in \partial h(x^{*}) $ 得
$\begin{equation*} \begin{aligned} \left\{ \begin{array}{ll} \langle \nabla_{x}\Phi(x^{*},y^{*})+ u^{*},x-x^{*}\rangle\geq g(x^{*})-g(x),\\ -\langle \nabla_{y}\Phi(x^{*},y^{*}),y-y^{*}\rangle\geq f^{*}(y^{*})-f^{*}(y). \end{array} \right. \end{aligned} \end{equation*}$
因此 $ (x^{*},y^{*})\in S $ . 同时对任意的 $ (\bar{x},\bar{y})\in S $ , 以上证明仍然成立. 因此, 在 (3.5) 式中可用 $ (x^{*},y^{*}) $ 去代替 $ (\bar{x},\bar{y}) $ , 得到
$\begin{equation*} \lim\limits_{k\rightarrow\infty}\|z_{n_{k}+1}-x^{*}\|=\lim\limits_{k\rightarrow\infty}\|x_{n_{k}}-x^{*}\|=0, \end{equation*}$
$\begin{equation*} \lim\limits_{k\rightarrow\infty}\|y_{n_{k}-1}-y^{*}\|=\lim\limits_{k\rightarrow\infty}\|y_{n_{k}}-y^{*}\|=0. \end{equation*}$
由此可得 $ \lim\limits_{k\rightarrow\infty}a_{n_{k}}=0 $ . 又因为 $ \{a_{n}\}_{n\in \mathbb{N}} $ 单调不增, 故 $ \lim\limits_{n\rightarrow\infty}a_{n}=0 $ . 因此 $ \lim\limits_{n\rightarrow\infty}x_{n}=\lim\limits_{n\rightarrow\infty}z_{n+1}=x^{*} $ 且 $\lim _{n \rightarrow \infty} y_{n}=y^{*}$. 证毕.
下面给出算法 1 的 $ O(\frac{1}{N}) $ 遍历收敛速率.
定理 3.2 假设 $ \{(x_{n},y_{n},z_{n})\}_{n\in \mathbb{N}} $ 是由算法 1 产生的序列, $ (\bar{x},\bar{y})\in S $ 以及 $ \bar{u} \in \partial h(\bar{x}) $ . 设 $ N\geq 1 $ 是任意正整数, 正整数 $ t $ 是满足 $ 0<t<N $ , 并定义
(3.7) $\begin{equation} X_{N}=\frac{1}{N-t+1}\sum_{n=t}^{N}x_{n}, Y_{N}=\frac{1}{N-t+1}\sum_{n=t}^{N}y_{n}. \end{equation}$
$\begin{equation*} G(X_{N},Y_{N})\leq \frac{1}{2\tau(N-t+1)}(\frac{\psi}{\psi-1}\|z_{t+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{t-1}-\bar{y}\|^{2}+\tau(L_{h}+L_{11})\|x_{t}-x_{t-1}\|^{2}). \end{equation*}$
证 由 (3.5) 和 (3.6) 式知, 对任意的 $ n\geq 1 $ , 有 $ 2\tau G(x_{n},y_{n})\leq a_{n}-a_{n+1} $ . 从 $ n=t,\cdots,N $ , 将以上不等式相加, 得 $ 2\tau \sum\limits_{n=t}^{N}G(x_{n},y_{n})\leq a_{t}-a_{N+1}\leq a_{t} $ . 注意到, $ G(x,y)=P(x)+D(y) $ 且 $ P(x) $ 和 $ D(y) $ 是凸函数, 由 Jessen 不等式和 (3.7) 式得
$\begin{align*} G(X_{N},Y_{N})=P(X_{N})+D(Y_{N})&\leq \frac{1}{N-t+1}\sum_{n=t}^{N}P(x_{n})+\frac{1}{N-t+1}\sum_{n=t}^{N}D(y_{n})\nonumber\\ &=\frac{1}{N-t+1}\sum_{n=t}^{N}G(x_{n},y_{n}). \end{align*}$
上式联合 $ a_{t}=\frac{\psi}{\psi-1}\|z_{t+1}-\bar{x}\|^{2}+\frac{\tau}{\sigma}\|y_{t-1}-\bar{y}\|^{2}+\tau (L_{h}+ L_{11})\|x_{t}-x_{t-1}\|^{2} $ 可得结论. 证毕.
注 3.3 定理 3.1 从以下两个方面改进了文献 [12 ,定理 2]
(ii) 本文提出的算法完全不同于文献 [12 ,算法 1] 的变体 1, 在算法的形式上更为精简. 算法 1 采用了黄金比率凸组合技术, 这可以显著的减少算法的迭代次数与运行时间, 见数值实验部分.
注 3.4 当 $ \Phi(x,y) = \langle Kx,y \rangle $ 且 $ h $ 是可微函数时, 由本文定理 3.1 和 3.2, 我们可以重新获得文献 [11 ,定理 3.1 和 3.2].
4 数值实验
本节给出数值实验, 通过两个例子将本文算法 1 与文献 [12 ,算法 1] 的变体 1 (记为 Alg.1(v1)) 进行比较. 所有代码均在 MATLAB R2018a 和 Windows10 系统下运行, 计算机基本参数为 Intel(R) Core(TM) i5-8250U CPU@1.60GHz, 其中 “iter” 表示程序迭代次数, “CPU time” 表示程序运行时间, 单位为秒. 算法的终止条件为 $ ||[x_{n};y_{n}] - [x_{n-1};y_{n-1}]||^{2}\leq err$ (err 为提前设定的误差).
(4.1) $\begin{align*} \min_{x\in \mathbb{R}^{q}}\{h(x):= &\frac{1}{2}x^{T}A_{0}x+b_{0}^{T}x s.t. \|x\| \leq D,\nonumber\\ &\frac{1}{2}x^{T}A_{i}x+b_{i}^{T}x+c_{i} \leq 0, i=1,\cdots,p\}, \end{align*}$
其中 $ A_{i}\in \mathbb{R}^{q\times q} $ 是对称半正定矩阵, $ b_{i}\in \mathbb{R}^{q} $ , $ c_{i}\in \mathbb{R}.$ $ A_{0} $ 是正定矩阵, $ D:=10 $ . 显然, (4.1) 式可转化为问题 (1.4), 其中 $ X:=\{x\in \mathbb{R}^{q}:\|x\| \leq D\} $ , $ g(x):=\delta_{X}(x) $ , $ f^{*}(y):=\delta_{\mathbb{R}^{p}_{+}}(y) $ , $ \Phi(x,y):=\Sigma^{p}_{i=1}y_{i}w_{i}(x) $ , $ w_{i}(x):=\frac{1}{2}x^{T}A_{i}x+b_{i}^{T}x+c_{i} $ . 设初始点 $ x_{0}=y_{0}=(0,0,\cdots 0)^{T} $ , $ A_{0} $ , $ A_{i} $ , $ b_{0} $ , $ b_{i} $ , $ c_{i} $ 分别是服从正态分布的随机矩阵、随机向量、随机数. 在此情况下, 我们对比了两种算法在不同维数 $ p $ , $ q $ 和不同误差情况下的数值效果. 见表1 和表2 .
算法 1 设 $ \tau=0.1, \sigma=0.1, \psi=1.6. $
文献 [12 ,算法 1] 的变体 1: 设 $ \rho=0.8, \eta=\frac{\rho}{2}, L_{11}=10, L_{f}=10, L_{21}=20, L_{22}=20 $ .
(4.2) $\begin{align*} \min_{x\in\Delta_{q}}\max_{y\in\Delta_{p}}\bigg\{\frac{1}{N}\sum^{N}_{j=1}\log(1+\exp(a_{j}^{T}x)) + \langle j(x),k(y)\rangle\bigg\}, \end{align*}$
其中 $ \Delta_{q}:=\{x\in \mathbb{R}^{q}_{+}:\Sigma^{q}_{j=1}x_{j}=1\} $ , $ \Delta_{p}:=\{y\in \mathbb{R}^{p}_{+}:\Sigma^{p}_{i=1}y_{i}=1\} $ . 显然, (4.2) 式可转化为问题 (1.4), $ g(x):=\delta_{\Delta_{q}}(x), f^{*}(y):=\delta_{\Delta_{p}}(y) $ , $ h(x):=\frac{1}{N}\sum\limits^{N}_{j=1}\log(1+\exp(a_{j}^{T}x)) $ , $ \Phi(x,y):=\langle j(x),k(y)\rangle $ , $ j_{i}(x):=\frac{b_{i}}{1+x_{i}} $ , $ k_{i}(y):=y_{i} $ . 设初始点 $ x_{0}=y_{0}=(0,0,\cdots 0)^{T} $ , $ a_{j} $ 是服从正态分布的随机向量. 在此情况下, 我们对比了两种算法在不同维数 $ p $ , $ q $ 和不同误差情况下的数值效果. 见表3 和表4 .
算法 1 设 $ \tau$ =0.8, $\sigma$ =0.8, $\psi$ =1.2.
文献 [12 ,算法 1] 的变体 1 设 $ \rho=1.4, \eta=\frac{\rho}{2}, L_{11}=10, L_{f}=10, L_{21}=20, L_{22}=20 $ .
(4.3) $\begin{align*} \min_{x\in\Delta_{q}}\max_{y\in\Delta_{p}}\{\|x\|_{1} + \langle j(x),k(y)\rangle\}, \end{align*}$
其中 $ \Delta_{q}:=\{x\in \mathbb{R}^{q}_{+}:\Sigma^{q}_{j=1}x_{j}=1\} $ , $ \Delta_{p}:=\{y\in \mathbb{R}^{p}_{+}:\Sigma^{p}_{i=1}y_{i}=1\} $ . 显然, (4.3) 式可转化为问题 (1.4), $ g(x):=\delta_{\Delta_{q}}(x), f^{*}(y):=\delta_{\Delta_{p}}(y) $ , $ h(x):=\|x\|_{1} $ , $ \Phi(x,y):=\langle j(x),k(y)\rangle $ , $ j_{i}(x):=\frac{b_{i}}{1+x_{i}} $ , $ k_{i}(y):=y_{i} $ . 设初始点 $ x_{0}=y_{0}=(1,1,\cdots 1)^{T} $ , $ a_{j} $ 是服从正态分布的随机向量. 由于 $ h $ 是非光滑函数, 所以文献 [12 ,算法 1] 的变体 1 以及文献 [11 ,算法 1] 不能求解本例子. 取 $ \psi=1.2 $ , 在不可微点 $ x_{n-1}^{i}=0 (x_{n-1} $ 的第 $ i $ 个分量), 取次梯度 $ u_{n-1}^{i} = 0 \in \partial h(x_{n-1}^{i}) $ . 在此情况下, 我们对比了算法 1 在不同维数 $ p $ , $ q $ , 不同步长和不同误差情况下的数值效果. 见表5 、表6 . 更进一步, 我们在 $ p=q=150 $ 以及 $ err=10^{-30} $ 两种情况下分别给出了CPU time关于步长 ($ \tau, \sigma $ ) 的三维曲面图以及剖面图, 见图1 、图2 、图3 、图4 .
图1
图1
$ p=q=150 $ 时 CPU time 关于步长的三维曲面图
图2
图2
$ p=q=150 $ 时 CPU time 关于步长 $ \tau $ 、 $ \sigma $ 的剖面图
图3
图3
$ err=10^{-30} $ 时 CPU time 关于步长的三维曲面图
图4
图4
$ err=10^{-30} $ 时 CPU time 分别关于步长 $ \tau $ 、 $ \sigma $ 的剖面图
(i) 算法 1 与文献 [12 ,算法 1] 的变体 1 都收敛到问题的解.
(ii) 从 CPU 运行时间来看 (针对例 4.1 与例 4.2), 在适当参数的选取下, 算法 1 优于文献 [12 ,算法 1], 见表1 -4 .
(iii) 从迭代次数来看, 在适当参数的选取下, 例 4.2 中算法 1 随着维度和精度的增加仍然表现出很强的稳定性, 较文献 [12 ,算法 1] 的变体 1 数值效果更佳, 见表3 和表4 .
(iv) 例 4.3 中, 在 $ err=10^{-10} $ , $ p=q=50 $ , $ p=q=100 $ , $ p=q=150 $ 的情况下, 我们选取了多组步长, 得到 $ \tau=0.8 $ , $ \sigma=0.7 $ 时的数值效果最佳, 见表5 及图1 , 图2 ; 以及在 $ p=q=100 $ , $ err=10^{-10} $ , $ err=10^{-20} $ , $ err=10^{-30} $ 的情况下, 我们选取了多组步长, 同样得到 $ \tau=0.8 $ , $ \sigma=0.7 $ 时的数值效果最佳, 见表6 及图3 , 图4 .
(v) 算法 1 在 $ h $ 光滑与非光滑的条件下同样适用.
参考文献
View Option
[1]
Bauschke H H , Combettes P . Convex Analysis and Monotone Operators Theory in Hilbert Spaces . New York : Springer-Verlag , 2020
[本文引用: 2]
[2]
Chambolle A , Pock T . A first-order primal-dual algorithm for convex problems with applications to imaging
J Math Imaging Vis , 2011 , 40 : 120 -145
[本文引用: 2]
[3]
Combettes P , Pesquet J C . Proximal splitting methods in signal processing// Bauschke H, Burachik R, Combetles P, et al. Fixed-Point Algorithms for Inverse Problems in Science and Engineering . New York : Springer-Verlag , 2011 : 185 -212
[本文引用: 1]
[4]
Uzawa H . Iterative methods for concave programming// Arrow K J, Hurwicz L, Uzawa H, eds . Studies in Linear and Nonlinear Programming. Stanford, CA : Stanford University Press , 1958 , 6 : 154 -165
[本文引用: 1]
[5]
Esser E , Zhang X , Chan T F . A general framework for a class of first order primal-dual algorithms for convex optimization in imaging science
SIAM J Imaging Sci , 2010 , 3 : 1015 -1046
[本文引用: 1]
[6]
He B , You Y , Yuan X . On the convergence of primal-dual hybrid gradient algorithm
SIAM J Imaging Sci , 2014 , 7 (4 ): 2526 -2537
[本文引用: 1]
[7]
Chambolle A , Pock T . On the ergodic convergence rates of a first-order primal-dual algorithm
Math Program , 2016 , 159 (1 ): 253 -287
[本文引用: 1]
[8]
Condat L . A primal-dual splitting method for convex optimization involving Lipschitzian, proximable and linear composite terms
J Optim Theory Appl , 2013 , 158 (2 ): 460 -479
[本文引用: 1]
[9]
Malitsky Y . Golden ratio algorithms for variational inequalities
Math Program , 2020 , 184 (1 ): 383 -410
[本文引用: 2]
[10]
Xu Y . Iteration complexity of inexact augmented Lagrangian methods for constrained convex programming
Math Program , 2021 , 185 : 89 -117
[本文引用: 1]
[11]
周丹青 , 常小凯 , 杨俊峰 . 一类新的黄金比率原始对偶算法
高等学校计算数学学报 , 2022 , 44 : 97 -106
[本文引用: 7]
Zhou D Q , Chang X K , Yang J F . A new Golden ratio primal-dual algorithm
Numerical Math A J Chinese Univ , 2022 , 44 : 97 -106
[本文引用: 7]
[12]
Zhu Y , Liu D , Tran-Ding Q . New primal-dual algorithms for a class of nonsmooth and nonlinear convex-concave minimax problems
SIAM J Optim , 2022 , 32 (4 ): 2580 -2611
[本文引用: 17]
[13]
Hamedani E Y , Aybat N S . A primal-dual algorithm with line search for general convex-concave saddle point problems
SIAM J Optim , 2021 , 31 : 1299 -1329
[本文引用: 1]
[14]
Rockafellar R , Wets R . Variational Analysis . Berlin : Springer , 2004
[本文引用: 3]
2
2020
... 问题 (1.1) 在许多领域有着广泛的应用, 比如信号与图像处理、压缩感知、机器学习、博弈论等, 许多学者研究了问题 (1.1), 详情见文献 [1 ⇓ -3 ]. 求解问题 (1.1) 的相关算法已经有很多, 其中最经典的是 Arrow-Hurwicz 方法[4 ] , 即原始对偶算法. 从初始点 $ (x_{0},y_{0})\in \mathbb{R}^{q}\times \mathbb{R}^{p} $ 开始, 具体迭代为 ...
... 引理 2.1 [1 ] 设 $ w:\mathbb{R}^{q}\rightarrow \mathbb{R}\bigcup \{+\infty\} $ 是扩展实值闭正常凸函数, $ \lambda>0 $ 以及 $ x\in \mathbb{R}^{q} $ , 则 ...
A first-order primal-dual algorithm for convex problems with applications to imaging
2
2011
... 问题 (1.1) 在许多领域有着广泛的应用, 比如信号与图像处理、压缩感知、机器学习、博弈论等, 许多学者研究了问题 (1.1), 详情见文献 [1 ⇓ -3 ]. 求解问题 (1.1) 的相关算法已经有很多, 其中最经典的是 Arrow-Hurwicz 方法[4 ] , 即原始对偶算法. 从初始点 $ (x_{0},y_{0})\in \mathbb{R}^{q}\times \mathbb{R}^{p} $ 开始, 具体迭代为 ...
... 其中 $ \tau>0, \sigma>0 $ 是步长参数. 该方法在图像处理中也被称作原始对偶混合梯度算法. 若 $ f^{*} $ 的定义域有界且步长很小时, 可基于原始对偶间隙函数得到 $ O(\frac{1}{N}) $ 的遍历收敛率, 具体的收敛性分析[2 ,5 ] . 但是 Arrow-Hurwicz 方法在一般情况下不收敛[6 ] . 为了克服这一缺点, 许多学者提出了不同的改进方法[7 ⇓ ⇓ -10 ] . ...
1
2011
... 问题 (1.1) 在许多领域有着广泛的应用, 比如信号与图像处理、压缩感知、机器学习、博弈论等, 许多学者研究了问题 (1.1), 详情见文献 [1 ⇓ -3 ]. 求解问题 (1.1) 的相关算法已经有很多, 其中最经典的是 Arrow-Hurwicz 方法[4 ] , 即原始对偶算法. 从初始点 $ (x_{0},y_{0})\in \mathbb{R}^{q}\times \mathbb{R}^{p} $ 开始, 具体迭代为 ...
1
1958
... 问题 (1.1) 在许多领域有着广泛的应用, 比如信号与图像处理、压缩感知、机器学习、博弈论等, 许多学者研究了问题 (1.1), 详情见文献 [1 ⇓ -3 ]. 求解问题 (1.1) 的相关算法已经有很多, 其中最经典的是 Arrow-Hurwicz 方法[4 ] , 即原始对偶算法. 从初始点 $ (x_{0},y_{0})\in \mathbb{R}^{q}\times \mathbb{R}^{p} $ 开始, 具体迭代为 ...
A general framework for a class of first order primal-dual algorithms for convex optimization in imaging science
1
2010
... 其中 $ \tau>0, \sigma>0 $ 是步长参数. 该方法在图像处理中也被称作原始对偶混合梯度算法. 若 $ f^{*} $ 的定义域有界且步长很小时, 可基于原始对偶间隙函数得到 $ O(\frac{1}{N}) $ 的遍历收敛率, 具体的收敛性分析[2 ,5 ] . 但是 Arrow-Hurwicz 方法在一般情况下不收敛[6 ] . 为了克服这一缺点, 许多学者提出了不同的改进方法[7 ⇓ ⇓ -10 ] . ...
On the convergence of primal-dual hybrid gradient algorithm
1
2014
... 其中 $ \tau>0, \sigma>0 $ 是步长参数. 该方法在图像处理中也被称作原始对偶混合梯度算法. 若 $ f^{*} $ 的定义域有界且步长很小时, 可基于原始对偶间隙函数得到 $ O(\frac{1}{N}) $ 的遍历收敛率, 具体的收敛性分析[2 ,5 ] . 但是 Arrow-Hurwicz 方法在一般情况下不收敛[6 ] . 为了克服这一缺点, 许多学者提出了不同的改进方法[7 ⇓ ⇓ -10 ] . ...
On the ergodic convergence rates of a first-order primal-dual algorithm
1
2016
... 其中 $ \tau>0, \sigma>0 $ 是步长参数. 该方法在图像处理中也被称作原始对偶混合梯度算法. 若 $ f^{*} $ 的定义域有界且步长很小时, 可基于原始对偶间隙函数得到 $ O(\frac{1}{N}) $ 的遍历收敛率, 具体的收敛性分析[2 ,5 ] . 但是 Arrow-Hurwicz 方法在一般情况下不收敛[6 ] . 为了克服这一缺点, 许多学者提出了不同的改进方法[7 ⇓ ⇓ -10 ] . ...
A primal-dual splitting method for convex optimization involving Lipschitzian, proximable and linear composite terms
1
2013
... 其中 $ \tau>0, \sigma>0 $ 是步长参数. 该方法在图像处理中也被称作原始对偶混合梯度算法. 若 $ f^{*} $ 的定义域有界且步长很小时, 可基于原始对偶间隙函数得到 $ O(\frac{1}{N}) $ 的遍历收敛率, 具体的收敛性分析[2 ,5 ] . 但是 Arrow-Hurwicz 方法在一般情况下不收敛[6 ] . 为了克服这一缺点, 许多学者提出了不同的改进方法[7 ⇓ ⇓ -10 ] . ...
Golden ratio algorithms for variational inequalities
2
2020
... 其中 $ \tau>0, \sigma>0 $ 是步长参数. 该方法在图像处理中也被称作原始对偶混合梯度算法. 若 $ f^{*} $ 的定义域有界且步长很小时, 可基于原始对偶间隙函数得到 $ O(\frac{1}{N}) $ 的遍历收敛率, 具体的收敛性分析[2 ,5 ] . 但是 Arrow-Hurwicz 方法在一般情况下不收敛[6 ] . 为了克服这一缺点, 许多学者提出了不同的改进方法[7 ⇓ ⇓ -10 ] . ...
... 受文献 [9 ] 的启发, 周丹青等[11 ] 提出了一类黄金比率原始对偶算法求解如下鞍点问题 ...
Iteration complexity of inexact augmented Lagrangian methods for constrained convex programming
1
2021
... 其中 $ \tau>0, \sigma>0 $ 是步长参数. 该方法在图像处理中也被称作原始对偶混合梯度算法. 若 $ f^{*} $ 的定义域有界且步长很小时, 可基于原始对偶间隙函数得到 $ O(\frac{1}{N}) $ 的遍历收敛率, 具体的收敛性分析[2 ,5 ] . 但是 Arrow-Hurwicz 方法在一般情况下不收敛[6 ] . 为了克服这一缺点, 许多学者提出了不同的改进方法[7 ⇓ ⇓ -10 ] . ...
一类新的黄金比率原始对偶算法
7
2022
... 受文献 [9 ] 的启发, 周丹青等[11 ] 提出了一类黄金比率原始对偶算法求解如下鞍点问题 ...
... 本文受到文献 [11 ,12 ] 的启发, 我们提出了求解问题 (1.4) 的黄金比率原始对偶算法, 证明了由算法产生的序列收敛到问题 (1.4) 的解, 并用数值实验验证了算法的优势. 本文所得的结果改进和推广了文献 [11 ,12 ] 中相应结果. ...
... ] 的启发, 我们提出了求解问题 (1.4) 的黄金比率原始对偶算法, 证明了由算法产生的序列收敛到问题 (1.4) 的解, 并用数值实验验证了算法的优势. 本文所得的结果改进和推广了文献 [11 ,12 ] 中相应结果. ...
... 注 2.3 若 $ h $ 是可微的, 则假设 2.3 退化为文献 [11 ,12 ] 中的梯度 Lipschitz 连续性假设. ...
... 注 3.1 当 $ \Phi(x,y) = \langle Kx,y \rangle $ 且 $ h $ 是可微函数时, 算法 1 就退化为文献 [11 ,算法 1]. ...
... 注 3.4 当 $ \Phi(x,y) = \langle Kx,y \rangle $ 且 $ h $ 是可微函数时, 由本文定理 3.1 和 3.2, 我们可以重新获得文献 [11 ,定理 3.1 和 3.2]. ...
... 其中 $ \Delta_{q}:=\{x\in \mathbb{R}^{q}_{+}:\Sigma^{q}_{j=1}x_{j}=1\} $ , $ \Delta_{p}:=\{y\in \mathbb{R}^{p}_{+}:\Sigma^{p}_{i=1}y_{i}=1\} $ . 显然, (4.3) 式可转化为问题 (1.4), $ g(x):=\delta_{\Delta_{q}}(x), f^{*}(y):=\delta_{\Delta_{p}}(y) $ , $ h(x):=\|x\|_{1} $ , $ \Phi(x,y):=\langle j(x),k(y)\rangle $ , $ j_{i}(x):=\frac{b_{i}}{1+x_{i}} $ , $ k_{i}(y):=y_{i} $ . 设初始点 $ x_{0}=y_{0}=(1,1,\cdots 1)^{T} $ , $ a_{j} $ 是服从正态分布的随机向量. 由于 $ h $ 是非光滑函数, 所以文献 [12 ,算法 1] 的变体 1 以及文献 [11 ,算法 1] 不能求解本例子. 取 $ \psi=1.2 $ , 在不可微点 $ x_{n-1}^{i}=0 (x_{n-1} $ 的第 $ i $ 个分量), 取次梯度 $ u_{n-1}^{i} = 0 \in \partial h(x_{n-1}^{i}) $ . 在此情况下, 我们对比了算法 1 在不同维数 $ p $ , $ q $ , 不同步长和不同误差情况下的数值效果. 见表5 、表6 . 更进一步, 我们在 $ p=q=150 $ 以及 $ err=10^{-30} $ 两种情况下分别给出了CPU time关于步长 ($ \tau, \sigma $ ) 的三维曲面图以及剖面图, 见图1 、图2 、图3 、图4 . ...
一类新的黄金比率原始对偶算法
7
2022
... 受文献 [9 ] 的启发, 周丹青等[11 ] 提出了一类黄金比率原始对偶算法求解如下鞍点问题 ...
... 本文受到文献 [11 ,12 ] 的启发, 我们提出了求解问题 (1.4) 的黄金比率原始对偶算法, 证明了由算法产生的序列收敛到问题 (1.4) 的解, 并用数值实验验证了算法的优势. 本文所得的结果改进和推广了文献 [11 ,12 ] 中相应结果. ...
... ] 的启发, 我们提出了求解问题 (1.4) 的黄金比率原始对偶算法, 证明了由算法产生的序列收敛到问题 (1.4) 的解, 并用数值实验验证了算法的优势. 本文所得的结果改进和推广了文献 [11 ,12 ] 中相应结果. ...
... 注 2.3 若 $ h $ 是可微的, 则假设 2.3 退化为文献 [11 ,12 ] 中的梯度 Lipschitz 连续性假设. ...
... 注 3.1 当 $ \Phi(x,y) = \langle Kx,y \rangle $ 且 $ h $ 是可微函数时, 算法 1 就退化为文献 [11 ,算法 1]. ...
... 注 3.4 当 $ \Phi(x,y) = \langle Kx,y \rangle $ 且 $ h $ 是可微函数时, 由本文定理 3.1 和 3.2, 我们可以重新获得文献 [11 ,定理 3.1 和 3.2]. ...
... 其中 $ \Delta_{q}:=\{x\in \mathbb{R}^{q}_{+}:\Sigma^{q}_{j=1}x_{j}=1\} $ , $ \Delta_{p}:=\{y\in \mathbb{R}^{p}_{+}:\Sigma^{p}_{i=1}y_{i}=1\} $ . 显然, (4.3) 式可转化为问题 (1.4), $ g(x):=\delta_{\Delta_{q}}(x), f^{*}(y):=\delta_{\Delta_{p}}(y) $ , $ h(x):=\|x\|_{1} $ , $ \Phi(x,y):=\langle j(x),k(y)\rangle $ , $ j_{i}(x):=\frac{b_{i}}{1+x_{i}} $ , $ k_{i}(y):=y_{i} $ . 设初始点 $ x_{0}=y_{0}=(1,1,\cdots 1)^{T} $ , $ a_{j} $ 是服从正态分布的随机向量. 由于 $ h $ 是非光滑函数, 所以文献 [12 ,算法 1] 的变体 1 以及文献 [11 ,算法 1] 不能求解本例子. 取 $ \psi=1.2 $ , 在不可微点 $ x_{n-1}^{i}=0 (x_{n-1} $ 的第 $ i $ 个分量), 取次梯度 $ u_{n-1}^{i} = 0 \in \partial h(x_{n-1}^{i}) $ . 在此情况下, 我们对比了算法 1 在不同维数 $ p $ , $ q $ , 不同步长和不同误差情况下的数值效果. 见表5 、表6 . 更进一步, 我们在 $ p=q=150 $ 以及 $ err=10^{-30} $ 两种情况下分别给出了CPU time关于步长 ($ \tau, \sigma $ ) 的三维曲面图以及剖面图, 见图1 、图2 、图3 、图4 . ...
New primal-dual algorithms for a class of nonsmooth and nonlinear convex-concave minimax problems
17
2022
... 注意到, 在问题 (1.1) 和 (1.2) 中涉及到一个双线性函数, 但是在实际应用中许多函数往往不满足双线性性. 因此, 如何研究带非线性二元函数的鞍点问题显得尤为重要. 最近, Zhu 等[12 ] 考虑了如下鞍点问题 ...
... 这里 $ h $ 是可微函数. Zhu 等[12 ] 提出了如下原始对偶算法 ...
... 本文受到文献 [11 ,12 ] 的启发, 我们提出了求解问题 (1.4) 的黄金比率原始对偶算法, 证明了由算法产生的序列收敛到问题 (1.4) 的解, 并用数值实验验证了算法的优势. 本文所得的结果改进和推广了文献 [11 ,12 ] 中相应结果. ...
... ,12 ] 中相应结果. ...
... 注 2.2 假设 2.2 广泛用于求解凸凹极小极大问题[12 ,13 ] , 即要求 $ \nabla_{x}\Phi(x,y) $ 和 $ \nabla_{y}\Phi(x,y) $ 关于 $ x $ 和 $ y $ 是 Lipschitz 连续的. ...
... 注 2.3 若 $ h $ 是可微的, 则假设 2.3 退化为文献 [11 ,12 ] 中的梯度 Lipschitz 连续性假设. ...
... 注 3.2 算法 1 是完全可分裂的, 即在每次迭代中不依赖于求解任何子问题或线性方程组. 而且算法1 完全不同于文献 [12 ,算法 1] 的变体 1 (记为 Alg.1(v1)), 本文的算法更加的简洁, 数值效果更好, 见数值实验部分. ...
... 注 3.3 定理 3.1 从以下两个方面改进了文献 [12 ,定理 2] ...
... (ii) 本文提出的算法完全不同于文献 [12 ,算法 1] 的变体 1, 在算法的形式上更为精简. 算法 1 采用了黄金比率凸组合技术, 这可以显著的减少算法的迭代次数与运行时间, 见数值实验部分. ...
... 本节给出数值实验, 通过两个例子将本文算法 1 与文献 [12 ,算法 1] 的变体 1 (记为 Alg.1(v1)) 进行比较. 所有代码均在 MATLAB R2018a 和 Windows10 系统下运行, 计算机基本参数为 Intel(R) Core(TM) i5-8250U CPU@1.60GHz, 其中 “iter” 表示程序迭代次数, “CPU time” 表示程序运行时间, 单位为秒. 算法的终止条件为 $ ||[x_{n};y_{n}] - [x_{n-1};y_{n-1}]||^{2}\leq err$ (err 为提前设定的误差). ...
... 例 4.1 [12 ] 考虑如下二次规划问题 ...
... 文献 [12 ,算法 1] 的变体 1: 设 $ \rho=0.8, \eta=\frac{\rho}{2}, L_{11}=10, L_{f}=10, L_{21}=20, L_{22}=20 $ . ...
... 文献 [12 ,算法 1] 的变体 1 设 $ \rho=1.4, \eta=\frac{\rho}{2}, L_{11}=10, L_{f}=10, L_{21}=20, L_{22}=20 $ . ...
... 其中 $ \Delta_{q}:=\{x\in \mathbb{R}^{q}_{+}:\Sigma^{q}_{j=1}x_{j}=1\} $ , $ \Delta_{p}:=\{y\in \mathbb{R}^{p}_{+}:\Sigma^{p}_{i=1}y_{i}=1\} $ . 显然, (4.3) 式可转化为问题 (1.4), $ g(x):=\delta_{\Delta_{q}}(x), f^{*}(y):=\delta_{\Delta_{p}}(y) $ , $ h(x):=\|x\|_{1} $ , $ \Phi(x,y):=\langle j(x),k(y)\rangle $ , $ j_{i}(x):=\frac{b_{i}}{1+x_{i}} $ , $ k_{i}(y):=y_{i} $ . 设初始点 $ x_{0}=y_{0}=(1,1,\cdots 1)^{T} $ , $ a_{j} $ 是服从正态分布的随机向量. 由于 $ h $ 是非光滑函数, 所以文献 [12 ,算法 1] 的变体 1 以及文献 [11 ,算法 1] 不能求解本例子. 取 $ \psi=1.2 $ , 在不可微点 $ x_{n-1}^{i}=0 (x_{n-1} $ 的第 $ i $ 个分量), 取次梯度 $ u_{n-1}^{i} = 0 \in \partial h(x_{n-1}^{i}) $ . 在此情况下, 我们对比了算法 1 在不同维数 $ p $ , $ q $ , 不同步长和不同误差情况下的数值效果. 见表5 、表6 . 更进一步, 我们在 $ p=q=150 $ 以及 $ err=10^{-30} $ 两种情况下分别给出了CPU time关于步长 ($ \tau, \sigma $ ) 的三维曲面图以及剖面图, 见图1 、图2 、图3 、图4 . ...
... (i) 算法 1 与文献 [12 ,算法 1] 的变体 1 都收敛到问题的解. ...
... (ii) 从 CPU 运行时间来看 (针对例 4.1 与例 4.2), 在适当参数的选取下, 算法 1 优于文献 [12 ,算法 1], 见表1 -4 . ...
... (iii) 从迭代次数来看, 在适当参数的选取下, 例 4.2 中算法 1 随着维度和精度的增加仍然表现出很强的稳定性, 较文献 [12 ,算法 1] 的变体 1 数值效果更佳, 见表3 和表4 . ...
A primal-dual algorithm with line search for general convex-concave saddle point problems
1
2021
... 注 2.2 假设 2.2 广泛用于求解凸凹极小极大问题[12 ,13 ] , 即要求 $ \nabla_{x}\Phi(x,y) $ 和 $ \nabla_{y}\Phi(x,y) $ 关于 $ x $ 和 $ y $ 是 Lipschitz 连续的. ...
3
2004
... 注 2.1 假设 2.1 是凸凹极小极大问题中的标准假设. 它保证了强对偶性 $ (P^{*}=D^{*}=\mathcal{L}(\bar{x},\bar{y})) $ 以及问题 $ P^{*} $ 、 $ D^{*} $ 解的存在性[14 ] . ...
... 引理 2.2 [14 ] 设 $ \{a_{n}\}_{n\in \mathbb{N}} $ 和 $ \{b_{n}\}_{n\in \mathbb{N}} $ 是非负实数列. 如果存在 $ N>0 $ 使得 $ a_{n+1}\leq a_{n}-b_{n} $ , $ \forall n\geq N $ , 那么 $ \lim\limits_{n\rightarrow\infty}a_{n} $ 存在且 $ \lim\limits_{n\rightarrow\infty}b_{n}=0 $ . ...
... 引理 2.3 [14 ] 对任意 $ x,y,z\in \mathbb{R}^{q} $ 和 $ \alpha \in \mathbb{R} $ 有 ...