数学物理学报, 2024, 44(6): 1630-1651

非凸非光滑优化问题的两步惯性 Bregman 邻近交替线性极小化算法

赵静,*, 郭晨正,

中国民航大学理学院 天津 300300

Two-Step Inertial Bregman Proximal Alternating Linearized Minimization Algorithm for Nonconvex and Nonsmooth Problems

Zhao Jing,*, Guo Chenzheng,

College of Science, Civil Aviation University of China, Tianjin 300300

通讯作者: *赵静, Email: zhaojing200103@163.com

收稿日期: 2023-06-15   修回日期: 2024-04-16  

基金资助: 天津市教委科研计划项目自然科学重点项目(2022ZD007)

Received: 2023-06-15   Revised: 2024-04-16  

Fund supported: Scientific Research Project of Tianjin Municipal Education Commission(2022ZD007)

作者简介 About authors

郭晨正,Email:g13526199036@163.com

摘要

针对一类非凸非光滑不可分优化问题, 该文基于邻近交替线性极小化算法, 结合两步惯性外推和 Bregman 距离提出了一种新的迭代算法. 通过构造适当的效益函数, 利用 Kurdyka-Łojasiewicz 性质, 证明了所提出算法生成的迭代序列具有收敛性. 最后, 将该算法应用于稀疏非负矩阵分解、信号恢复、二次分式规划问题, 通过数值算例表明了提出算法的有效性.

关键词: 非凸非光滑优化; 邻近交替线性极小化; 惯性外推; Bregman 距离; Kurdyka-Łojasiewicz 性质

Abstract

In this paper, for solving a class of nonconvex and nonsmooth nonseparable optimization problems, based on proximal alternating linearized minimization method we propose a new iterative algorithm which combines two-step inertial extrapolation and Bregman distance. By constructing appropriate benefit function, with the help of Kurdyka-Łojasiewicz property we establish the convergence of the whole sequence generated by proposed algorithm. We apply the proposed algorithm to solve sparse nonnegative matrix factorization, signal recovery and quadratic fractional programming problems, and show the effectiveness of proposed algorithm.

Keywords: Nonconvex and nonsmooth optimization; Proximal alternating linearized minimization; Inertial extrapolation; Bregman distance; Kurdyka-Łojasiewicz property

PDF (9184KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

赵静, 郭晨正. 非凸非光滑优化问题的两步惯性 Bregman 邻近交替线性极小化算法[J]. 数学物理学报, 2024, 44(6): 1630-1651

Zhao Jing, Guo Chenzheng. Two-Step Inertial Bregman Proximal Alternating Linearized Minimization Algorithm for Nonconvex and Nonsmooth Problems[J]. Acta Mathematica Scientia, 2024, 44(6): 1630-1651

1 引言

由于非凸函数比凸函数通常能够更好地近似原问题, 所以大量问题需对非凸目标函数或非凸约束条件进行优化决策. 近年来, 非凸非光滑优化问题受到众多学者的广泛关注与研究[1-3], 并提出了一些有效和稳定的算法. 在本文中, 我们考虑解决如下非凸非光滑不可分优化问题

$\begin{equation} \min_{x\in \mathbb R^{l},y\in\mathbb R^{m}} L(x,y)=f(x)+Q(x,y)+g(y), \end{equation}$

其中 $f:\mathbb{R}^l\rightarrow {(-\infty,+\infty]}$, $g:\mathbb{R}^m\rightarrow {(-\infty,+\infty]}$ 是正常下半连续函数, $Q(x,y):\mathbb{R}^l\times \mathbb{R}^m \rightarrow \mathbb{R}$ 连续可微且 $\nabla Q$ 在有界集上 Lipschitz 连续. 注意到目标函数都没有凸性的假设. 许多应用问题可以被建模为问题 (1.1), 例如, 信号与图像处理[4-6]、矩阵分解[7]、二次分式规划[8]、 压缩感知[9,10]、应用统计和机器学习[11] 等.

为了求解问题 (1.1), 自然考虑利用两分块结构, 采取交替极小化算法. 也就是, 给定一个初始点 $\left ( x_{0},y_{0} \right ) \in \mathbb{R}^l \times \mathbb{R}^m $, 通过以下算法生成迭代序列 $\left \{ \left ( x_{k},y_{k} \right ) \right \} $

$\begin{equation} \begin{cases} x_{k+1}\in \arg\min_{ x\in \mathbb{R}^l}\{L(x,y_k)\},\\ y_{k+1}\in \arg\min_{y\in \mathbb{R}^m}\{L(x_{k+1},y)\}.\\ \end{cases} \end{equation}$

在一些文献中, 交替极小化算法也被称为 Gauss-Seidel 法或块坐标下降法. 在文献 [12-14] 中, 针对目标函数具有凸性的情况下研究交替极小化算法. 当 $L(x, y)$ 为连续可微凸函数, 且 $L$ 关于变量 $x$$y$ 严格凸时, 由该算法产生的序列 $\left \{ \left ( x_{k},y_{k} \right ) \right \} $ 的每一个极限点都是 $L$ 的极小值点[12-14]. 为了提高算法的收敛速度、减弱算法的收敛条件, 文献 [15] 通过引入邻近项来去掉严格凸性的假设, 提出了如下邻近交替极小化算法 (PAM)

$\begin{equation} \begin{cases} x_{k+1}\in \arg\min_{ x\in \mathbb{R}^l}\{L(x,y_k)+\frac{1}{2\lambda_k}\|x-x_k\|^2_2\},\\[3mm] y_{k+1}\in \arg\min_{y\in \mathbb{R}^m}\{L(x_{k+1},y)+\frac{1}{2\mu_k}\|y-y_k\|^2_2\},\\ \end{cases} \end{equation}$

其中 $\lambda_k>0$, $\mu_k>0$. Attouch 等在文献 [16] 中应用 (1.3) 式求解非凸非光滑不可分优化问题 (1.1), 并证明了由 PAM (1.3) 生成的序列收敛到稳定点.

因为邻近交替极小化算法在每次迭代时都需要得到精确解, 所以 (1.3) 式中的子问题可能很难解决. 线性化技术是克服子问题没有解析解的有效方法之一. Bolte 等[7] 受邻近向前向后分裂算法的启发, 在耦合项 $Q(x, y)$ 连续可微的条件下对 (1.3) 式中的每个子问题进行线性化, 提出了邻近交替线性极小化算法 (PALM) 求解问题 (1.1). 具体来说, 对于 $x$ 子问题, 在 $x_k$ 处线性化函数 $Q(x,y_{k})$, 对于 $y$ 子问题, 在 $y_k$ 处线性化函数 $Q(x_{k+1},y)$, 提出了如下的 PALM

$\begin{equation} \begin{cases} x_{k+1}\in \arg\min_{ x\in \mathbb{R}^l}\{f(x)+\langle x,\nabla_xQ(x_k,y_k)\rangle+\frac{1}{2\lambda_k}\|x-x_k\|^2_2\},\\[3mm] y_{k+1}\in \arg\min_{y\in \mathbb{R}^m}\{g(y)+\langle y,\nabla_yQ(x_{k+1},y_k)\rangle+\frac{1}{2\mu_k}\|y-y_k\|^2_2\}.\\ \end{cases} \end{equation}$

如果 $f$$g$ 的邻近算子有封闭的形式, 则 (1.4)式的子问题易于求解. 文献 [7] 证明了由 PALM 生成的每个有界序列全局收敛到稳定点. 当 $f$$g$ 连续可微时, 一个自然的想法是线性化 $f$$g$. Nikolova 等在文献 [17] 中提出了相应的算法, 称为交替结构自适应的邻近梯度下降 (ASAP) 法. 利用 Kurdyka-Łojasiewicz 性质, 他们建立了由所提算法生成的整个序列的收敛性.

惯性外推源于二阶动力系统的重力球方法[18], 此技术在每次迭代的计算量基本不变, 在计算下一步时用到前两步或多步的信息. 惯性外推技术能有效地改进算法的数值表现 (特别是一阶算法), 所以这种方法被广泛应用于加速凸优化和非凸优化的迭代算法[19,20].

近年来, 很多学者关注并提出多种惯性算法, 如 Le 等在文献 [21] 中提出了求解非凸非光滑优化问题的块坐标下降惯性算法. Feng 等在文献 [22] 中针对非凸非光滑优化问题提出了惯性 Douglas-Rachford 分裂算法, 并将惯性外推技术纳入了 Douglas-Rachford 分裂算法的框架中. 特别地, 为了解决问题 (1.1), Zhang 和 He[23] 提出了惯性邻近交替极小化方法, Pock 和 Sabach[24]结合线性化技术提出了如下惯性邻近交替线性极小化 (iPALM) 算法

$\left\{\begin{array}{l}u_{1 k}=x_{k}+\alpha_{1 k}\left(x_{k}-x_{k-1}\right), v_{1 k}=x_{k}+\beta_{1 k}\left(x_{k}-x_{k-1}\right), \\x_{k+1} \in \arg \min _{x \in \mathbb{R}^{l}}\left\{f(x)+\left\langle x, \nabla_{x} Q\left(v_{1 k}, y_{k}\right)\right\rangle+\frac{1}{2 \lambda_{k}}\left\|x-u_{1 k}\right\|_{2}^{2}\right\},\\u_{2 k}=y_{k}+\alpha_{2 k}\left(y_{k}-y_{k-1}\right), v_{2 k}=y_{k}+\beta_{2 k}\left(y_{k}-y_{k-1}\right), \\y_{k+1} \in \arg \min _{y \in \mathbb{R}^{m}}\left\{g(y)+\left\langle y, \nabla_{y} Q\left(x_{k+1}, v_{2 k}\right)\right\rangle+\frac{1}{2 \mu_{k}}\left\|y-u_{2 k}\right\|_{2}^{2}\right\},\end{array}\right.$

其中 $\alpha _{1k},\alpha _{2k},\beta _{1k},\beta _{2k}\in \left [ 0,1 \right ] $. 当目标函数满足 Kurdyka-Łojasiewicz 性质时, 他们证明由该算法生成的序列全局收敛到稳定点. 当 $\alpha _{1k}=\alpha _{2k}=\beta _{1k}=\beta _{2k}=0$ 时, 惯性邻近交替线性极小化算法 (iPALM) 为 PALM. Cai 等[25] 提出如下的 Gauss-Seidel 型惯性邻近交替线性极小化算法 (GiPALM)

$\begin{equation} \begin{cases} x_{k+1}\in \arg\min_{ x\in \mathbb{R}^l}\{f(x)+\langle x,\nabla_xQ(\tilde{x}_{k},\tilde{y}_k)\rangle+\frac{1}{2\lambda_k}\|x-\tilde{x}_{k}\|^2_2\},\\ \tilde{x}_{k+1}=x_{k+1}+\alpha (x_{k+1}-\tilde{x}_{k}), \alpha \in [0,1),\\ y_{k+1}\in \arg\min_{y\in \mathbb{R}^m}\{g(y)+\langle y,\nabla_yQ(\tilde{x}_{k+1},\tilde{y}_{k})\rangle+\frac{1}{2\mu_k}\|y-\tilde{y}_{k}\|^2_2\},\\ \tilde{y}_{k+1}=y_{k+1}+\beta(y_{k+1}-\tilde{y}_{k}), \beta \in [0,1). \end{cases} \end{equation}$

为了尽可能地利用现有的信息, Wang 等[26]提出了另一种惯性邻近交替线性极小化 (NiPALM) 算法, 该算法结合了 iPALM 和 GiPALM. 当 $f$, $g$ 连续可微时, Yang 等[27] 基于交替结构自适应的邻近梯度下降法 (ASAP), 利用惯性外推技术提出了加速交替结构自适应的邻近梯度下降算法 (aASAP).

Bregman 距离作为 2 范数平方距离的推广, 在使用时具有更大的灵活性, 生成函数不局限于 2 范数平方. 虽然 Bregman 距离不是真正的距离, 但采用 Bregman 距离正则化使得算法的适用性更广. 有时选择适当的 Bregman 距离可以得到子问题的显示解, 提高算法的收敛速度, 因此很多算法采用 Bregman 距离正则化来提高数值效果. 在文献 [28] 中, 针对问题 (1.1), 作者利用前三步迭代信息提出了如下两步惯性 Bregman 交替极小化算法 (TiBAM)

$\begin{equation} \begin{cases} x_{k+1}\in \arg\min_{ x\in \mathbb{R}^l}\{L(x,y_k)+D_{\phi_1}(x,x_k)+\alpha_{1k} \langle x,x_{k-1}-x_k\rangle+\alpha_{2k} \langle x,x_{k-2}-x_{k-1}\rangle\},\\ y_{k+1}\in \arg\min_{y\in \mathbb{R}^m}\{L(x_{k+1},y)+D_{\phi_2}(y,y_k)+\beta_{1k} \langle y,y_{k-1}-y_k\rangle+\beta_{2k} \langle y,y_{k-2}-y_{k-1}\}, \end{cases} \end{equation}$

其中 $D_{\phi_i}(i=1,2)$ 是函数 $\phi_i(i=1,2)$ 生成的 Bregman 距离. 在效益函数满足 Kurdyka-Łojasiewicz 性质的条件下, 证明了算法的全局收敛性. 基于交替极小化算法, Chao 等[29] 提出了如下惯性 Bregman 交替极小化算法 (BIAM) 求解问题(1.1)

$\begin{equation} \begin{cases} x_{k+1}\in \arg\min_{ x\in \mathbb{R}^l}\{f(x)+Q(x,\hat{y} _k)+\lambda _{k} D_{\phi_1}(x,\hat{x} _k)\},\\ \hat{x}_{k+1}=x_{k+1}+\alpha(x_{k+1}-\hat x_{k}), \alpha \in [0,1),\\ y_{k+1}\in \arg\min_{ y\in \mathbb{R}^m}\{g(y)+Q(\hat{x}_{k+1},y)+\mu _{k} D_{\phi_2}(y,\hat{y} _k)\},\\ \hat{y}_{k+1}=y_{k+1}+\beta(y_{k+1}-\hat y_{k}), \beta \in [0,1). \end{cases} \end{equation}$

在效益函数满足 Kurdyka-Łojasiewicz 性质且合理选择参数的条件下, 给出了算法的全局收敛性分析.

本文基于邻近交替极小化算法, 结合惯性外推技术、线性化技术和 Bregman 距离, 利用前三次迭代的信息, 构造了两步惯性 Bregman 邻近交替线性极小化算法, 并在效益函数满足 Kurdyka-Łojasiewicz 性质的假设下, 给出了所提出算法的全局收敛性分析.

本文内容组织如下: 在第二部分, 我们回顾了一些概念和重要引理, 这些概念和引理将用于证明主要的收敛结果. 在第三部分, 我们提出了两步惯性 Bregman 邻近交替线性极小化算法, 并给出收敛性分析. 最后, 在第四部分, 应用提出的算法求解稀疏非负矩阵分解、信号恢复和二次分式规划问题, 通过数值结果显示所提出算法的有效性.

2 预备知识

维数为 $d\geq 1$ 的欧几里得向量空间记为 $\mathbb{R}^d$, 本文用 $\langle\cdot,\cdot\rangle$ 表示标准内积, 用 $\|\cdot\|_2$ 表示范数. 使用 $\omega(x_k)=\{x:\exists x_{k_j} \rightarrow x\}$ 来表示 $\{x_k\}_{k\in \mathbb{N}}$ 的极限集.

给定一个函数 $f: \mathbb{R}^d \rightarrow(-\infty,+\infty]$, $f$ 的有效域和上方图分别定义为 dom$f:=\{x\in \mathbb{R}^d: f(x)<+\infty\}$ 和 epi$f:=\{(x,\alpha )\in \mathbb{R}^d\times \mathbb{R}: f(x)\le \alpha \}$. 如果 dom$f\neq \emptyset$, 则称 $f$ 是正常的; 如果 epi$f$ 是闭的, 则 $f$$x$ 处下半连续. 下面给出本文所需要的一些基本概念和基本性质[30,31].

2.1 非凸非光滑函数的次微分

定义 2.1$f: \mathbb{R}^d \rightarrow(-\infty,+\infty]$ 是正常下半连续函数.

(1) 若 $x\in$ dom $f$, 定义如下集合

$\left\{v\in \mathbb{R}^d:\liminf_{y\rightarrow x}\frac{1}{\|x-y\|_2}[f(y)-f(x)-\langle v,y-x\rangle]\geq 0\right\}$

为函数 $f$$x\in$ dom $f$ 处的 Fréchet 次微分, 记作 $\hat{\partial}f(x)$.$x\not\in$ dom$f$, 定义 $\hat{\partial}f(x)=\emptyset$. 称集合

$\{v\in \mathbb{R}^d: \exists x_k\rightarrow x, f(x_k)\rightarrow f(x), v_k\in \hat{\partial}f(x_k), v_k\rightarrow v\}$

$f$$x\in$ dom $f$ 处的极限次微分[32], 记作 $\partial f(x)$.

注 2.1 根据上述定义, 可得

(a) 对于 $\forall x\in \mathbb{R}^d$, 有 $\hat{\partial}f(x)\subseteq \partial f(x)$, 其中 $\hat{\partial}f(x)$ 是闭凸的, $\partial f(x)$ 仅是闭集[32].

(b) ($\partial f$ 的闭性) 设 $\{x_k\}_{k\in \mathbb{N}}$$\{v_k\}_{k\in \mathbb{N}}$$\mathbb{R}^d$ 中的序列, 并且对 $\forall k\in \mathbb{N}$, $v_k \in \partial f(x_k)$. 如果当 $k\rightarrow \infty$ 时, $(x_k,v_k)\rightarrow (x,v)$, $f(x_k)\rightarrow f(x)$, 那么 $v \in \partial f(x)$.

(c) $x\in \mathbb{R}^d$$f$ 极小值的一个必要 (但不充分) 条件是

$0\in \partial f(x).$

(d) 如果 $f: \mathbb{R}^d \rightarrow(-\infty,+\infty]$ 是正常下半连续函数, $h : \mathbb{R}^d \rightarrow \mathbb{R}$ 是连续可微函数, 那么对 $\forall x \in \mathbb{R}^d$, 都有 $\partial(f+h)(x) = \partial f(x)+\nabla h(x)$.

2.2 Kurdyka-Łojasiewicz 性质

Kurdyka-Łojasiewicz 性质对算法的收敛结果起着至关重要的作用. 现在我们给出 Kurdyka-Łojasiewicz 性质的定义.

$f: \mathbb R^d \rightarrow(-\infty,+\infty]$ 是正常下半连续函数, $\eta_1$, $\eta_2$ 满足 $-\infty <\eta_1<\eta_2 \leq +\infty$, 记

$[\eta_1<f<\eta_2]=\{x\in \mathbb R^d:\eta_1<f(x)<\eta_2\}.$

定义 2.2 (Kurdyka-Łojasiewicz 性质) 函数 $f: \mathbb R^d \rightarrow(-\infty,+\infty]$ 是正常下半连续函数, $x^\ast\in$ dom$f$, 若存在 $\eta\in (0,+\infty]$, $x^\ast$ 的邻域 $U$ 及连续凹函数 $\varphi:[0,\eta)\rightarrow \mathbb R_{+}$, 使得 $\varphi(0)=0$, $\varphi$$(0,\eta)$ 上连续可微, $\forall s\in(0,\eta)$$\varphi'(s)>0$, 且 $\forall x\in U\cap[f(x^\ast)<f<f(x^\ast)+\eta]$, Kurdyka-Łojasiewicz 不等式

$\varphi'(f(x)-f(x^\ast)){\rm dist}(0,\partial f(x))\geq 1$

都成立, 则称函数 $f$$x^\ast\in$ dom $f$ 具有 Kurdyka-Łojasiewicz (KŁ) 性质. 若函数 $f$ 在 dom $f$ 中的每一点都满足 KŁ 性质, 则函数 $f$ 称为 KŁ 函数.

在应用中很多目标函数具有 KŁ 性质, 典型的函数包括强凸函数、实解析函数、半代数函数[16]、 次解析函数[33] 和对数--指数函数. 我们注意到当 $0 < q< 1$ 时, $L_q$ 上的拟范数 $\|x\|_q:= (\Sigma_i|x_i|^q)^{1/q}$, 无穷范数 $\|x\|_\infty:= \max_i|x_i|$, 以及关于 $x$ 的函数 $\|Ax-b\|_q^q$$\|Ax-b\|_\infty$ 都是半代数函数, 所以它们都满足 Kurdyka-Łojasiewicz 性质.

已知实解析函数和半代数函数都是次解析的. 一般来说, 两个次解析函数的和不一定是次解析的. 然而, 对于两个次解析函数, 如果至少有一个函数将有界集映射到有界集, 那么它们的和也是次解析的, 见文献 [34]. 特别地, 次解析函数与解析函数的和函数是次解析的. 典型的次解析函数包括 $\|Ax-b\|^2_2+\lambda\|y\|_q^q$, $\|Ax-b\|_2^2+\lambda\Sigma_i(y_i^2 +\varepsilon)^{q/2}$ 等.

2.3 Bregman 距离

定义 2.3$f: \mathbb R^d \rightarrow(-\infty,+\infty]$, 如果有效域 dom$f$ 是凸集, 且对任意的 $x$, $y\in$dom$f$, $\alpha\in[0,1]$, 有

$f(\alpha x+(1-\alpha)y)\leq \alpha f(x)+(1-\alpha)f(y)$

成立, 则称函数 $f$ 是凸的. 如果存在 $\theta>0$ 使得 $f-\frac{\theta}{2}\|\cdot\|^2$ 是凸的, 则称 $f$$\theta$-强凸的, 即对任意的 $x$, $y\in$dom$f$, $\alpha\in[0,1]$, 有

$f(\alpha x+(1-\alpha)y)\leq \alpha f(x)+(1-\alpha)f(y)-\frac{1}{2}\theta\alpha(1-\alpha)\|x-y\|^2$

成立.

假设函数 $f$ 是可微的, 那么 $f$ 是凸的当且仅当 dom$f$ 是凸集并且对任意的 $x$, $y\in$dom$f$, 有

$f(x)\ge f(y)+\langle \nabla f(y),x-y\rangle$

成立. 再者, $f$$\theta$-强凸的当且仅当对任意的 $x$, $y\in$dom$f$, 有

$f(x)\ge f(y)+\langle \nabla f(y),x-y\rangle+\frac{\theta}{2}\|x-y\|^2$

成立.

作为 2 范数平方距离的推广, Bregman 距离具有许多与 2 范数平方距离相似的良好性质. 然而, Bregman 距离并不是真正的距离, 因为它不满足三角不等式或对称性, 但使用 Bregman 距离使得算法的应用更加广泛.

定义 2.4$\phi:\mathbb{R}^d \rightarrow(-\infty,+\infty]$ 是凸可微函数. 定义

$D_\phi(x,y)=\phi(x)-\phi(y)-\langle \nabla\phi(y),x-y\rangle$

$\phi$ 生成的 Bregman 距离, 其中 $D_\phi :$ dom$\phi\,\,\times$ intdom$\phi \rightarrow [0,+\infty)$.

$\phi(x)=\frac{1}{2}\|x\|^2$, 则 $D_\phi(x,y)=\frac{1}{2}\|x-y\|^2$. 此外, 对于 $d$ 阶正定矩阵 $M$, 令 $\|x\|_M:=\sqrt{\langle x,Mx\rangle}$, 并取 $\phi(x)=\|x\|_M^2$, 则 $D_\phi(x,y)=\|x-y\|_M^2$, 见文献 [35]. 特别地, 如果 $M$ 是单位矩阵, 那么 $D_\phi(x,y)$ 为欧几里得平方距离.

由 Bregman 距离定义可知, 如果 $\phi$$\theta$-强凸的, 则

$\begin{equation} D_\phi(x,y)\geq\frac{\theta}{2}\|x-y\|^2. \end{equation}$

2.4 基本引理

引理 2.1 (下降引理)[20]$f: \mathbb{R}^{d}\rightarrow \mathbb{R}$ 是一个连续可微函数, 假设梯度 $\nabla f$$L_{f}$-Lipschitz 连续的. 那么

$\begin{equation} f\left ( u \right ) \le f\left ( v \right ) + \left \langle u-v,\nabla f\left ( v \right ) \right \rangle+\frac{L_{f} }2{\left \| u-v \right \| ^{2}_2,\ \forall u,v\in \mathbb R^{d}. } \end{equation}$

假设 2.1$\{u_k\}_{k\in \mathbb{N}}:=\{(z_k, z_{k-1}, z_{k-2})\}_{k\in \mathbb{N}}$$\mathbb{R}^{3p}$ 中的序列, 其中 $z_k, z_{k-1}, z_{k-2}\in \mathbb{R}^p$. 为了方便起见, 使用缩写 $\triangle_k := \|z_k-z_{k-1}\|_2$, 其中 $k\in \mathbb{N}$.$F : \mathbb{R}^{3p}\rightarrow {(-\infty,+\infty]}$ 是正常下半连续函数且存在 $a>0$, $b>0$, 使得序列 $\{u_k\}_{k\in \mathbb{N}}$ 满足如下条件

(H1) (充分下降性). 任意 $k\in \mathbb{N}$, 都有

$F(u_{k+1})+ a\triangle_{k+1}^2\leq F(u_k),$

其中 $u_k=(z_k,z_{k-1},z_{k-2})$, 即 $F(z_{k+1}, z_{k}, z_{k-1})+ a\|z_{k+1}-z_k\|_2^2\leq F(z_k, z_{k-1}, z_{k-2})$ (此时称函数 $F$ 满足充分下降性);

(H2) (相对误差性). 任意 $k\in \mathbb{N}$, 存在 $w_{k+1}\in \partial F(u_{k+1})$ 使得

$\|w_{k+1}\|_2\leq b(\triangle_{k+1}+\triangle_k+\triangle_{k-1})$

成立, 即 ${\|w_{k+1}\|_2\leq b(\|z_{k+1}-z_k\|_2+\|z_k-z_{k-1}\|_2+ \|z_{k-1}-z_{k-2}\|_2)}$ (此时称函数 $F$ 满足相对误差性);

(H3) (连续性条件). {存在子序列 $\{u_{k_j}\}_{j\in \mathbb{N}}$$\tilde{u}$} 使得当 $j\rightarrow\infty$ 时, 有

$u_{k_j}\rightarrow \tilde{u},\ \ F(u_{k_j})\rightarrow F(\tilde{u})$

成立 (此时称函数 $F$ 满足连续性).

下面给出一个框架性收敛结果[28], 可应用于分析本文提出算法的收敛性.

引理 2.2[28]$F: \mathbb{R}^{3p}\rightarrow {(-\infty,+\infty]}$ 是正常下半连续函数, 并且序列 $\{u_k\}_{k\in \mathbb{N}}= \{(z_k, z_{k-1},z_{k-2})\}_{k\in \mathbb{N}}$ 满足假设 2.1, 也就是条件 (H1), (H2) 和 (H3). 假设 $F$ 在 (H3) 中的聚点 $\widetilde{u} $ 处有 KŁ 性质, 则序列 $\{z_k\}_{k\in \mathbb{N}}$ 具有有限的长度, 即 $\sum\limits_{k=0}^{\infty}\|z_{k+1}-z_k\|_2<+\infty$. 而且, 当 $k \rightarrow\infty$ 时, 序列 $\{z_k\}_{k\in \mathbb{N}}$ 收敛于 $\widetilde{z}$, 其中 $\widetilde{u}=(\widetilde{z}, \widetilde{z}, \widetilde{z})$$F$ 的稳定点.

3 两步惯性 Bregman 邻近交替线性极小化算法

下面给出两步惯性 Brgeman 邻近交替线性极小化算法 (TiBPALM) 来求解问题 (1.1). 假设 $\phi_i$$\theta_i$-强凸可微函数, 且 $\nabla\phi_i$$L_{\nabla\phi_i}$-Lipschitz 连续的 $(1\le i\le 2)$.$\theta=\min\{\theta_1,\theta_2\}$.

算法 3.1 选取 $(x_0,y_0)\in{\rm dom}L$, 并令 $(x_{-i},y_{-i})=(x_0,y_0)$, $i=1, 2$. 取序列 $\{\alpha_{1k}\}$, $\{\beta_{1k}\}\subseteq[\alpha_1]$$\{\alpha_{2k}\}$, $\{\beta_{2k}\}\subseteq[\alpha_2]$, 其中 $\alpha_1\geq0$$\alpha_2\geq0$. 对于 $k\geq 0$, 迭代步骤如下

$\left\{\begin{array}{l}x_{k+1} \in \arg \min _{x \in \mathbb{R}^{l}}\left\{f(x)+\left\langle x, \nabla_{x} Q\left(x_{k}, y_{k}\right)\right\rangle+D_{\phi_{1}}\left(x, x_{k}\right)+\alpha_{1 k}\left\langle x, x_{k-1}-x_{k}\right\rangle\right. \\\left.+\alpha_{2 k}\left\langle x, x_{k-2}-x_{k-1}\right\rangle\right\}, \\y_{k+1} \in \arg \min _{y \in \mathbb{R}^{m}}\left\{g(y)+\left\langle y, \nabla_{y} Q\left(x_{k+1}, y_{k}\right)\right\rangle+D_{\phi_{2}}\left(y, y_{k}\right)+\beta_{1 k}\left\langle y, y_{k-1}-y_{k}\right\rangle\right. \\\left.+\beta_{2 k}\left\langle y, y_{k-2}-y_{k-1}\right\rangle\right\},\end{array}\right.$

其中 $D_{\phi_1}$$D_{\phi_2}$ 分别是函数 $\phi_1$$\phi_2$ 生成的 Bregman 距离.

由于 $f$$g$ 是正常下半连续函数, 且 $\phi_i$ ($i=1,2$) 是强凸的, 因此上面定义的迭代序列是有意义的, 即对每个 $k\geq 0$, 都可以保证 $(x_{k+1},y_{k+1})$ 存在.

注 3.1 下面给出了算法 1 的特殊情况.

(1) 设 $\lambda$$\mu$ 为正常数. 取 $\phi_1(x)=\frac{1}{2\lambda}\|x\|^2_2$$\phi_2(y)=\frac{1}{2\mu}\|y\|^2_2$, 其中 $x\in \mathbb{R}^l$$y\in \mathbb{R}^m$, 那么算法1 为

$\left\{\begin{array}{l}x_{k+1} \in \arg \min _{x \in \mathbb{R}^{l}}\left\{f(x)+\left\langle x, \nabla_{x} Q\left(x_{k}, y_{k}\right)\right\rangle+\frac{1}{2 \lambda}\left\|x-x_{k}\right\|_{2}^{2}+\alpha_{1 k}\left\langle x, x_{k-1}-x_{k}\right\rangle\right. \\\left.+\alpha_{2 k}\left\langle x, x_{k-2}-x_{k-1}\right\rangle\right\}, \\y_{k+1} \in \arg \min _{y \in \mathbb{R}^{m}}\left\{g(y)+\left\langle y, \nabla_{y} Q\left(x_{k+1}, y_{k}\right)\right\rangle+\frac{1}{2 \mu}\left\|y-y_{k}\right\|_{2}^{2}+\beta_{1 k}\left\langle y, y_{k-1}-y_{k}\right\rangle\right. \\\left.+\beta_{2 k}\left\langle y, y_{k-2}-y_{k-1}\right\rangle\right\}.\end{array}\right.$

在这种情况下, 令 $\alpha_{2k}\equiv\beta_{2k}\equiv 0$, 算法1就是如下的一步惯性算法

$\left\{\begin{array}{l}x_{k+1} \in \arg \min _{x \in \mathbb{R}^{l}}\left\{f(x)+\left\langle x, \nabla_{x} Q\left(x_{k}, y_{k}\right)\right\rangle+\frac{1}{2 \lambda}\left\|x-x_{k}\right\|_{2}^{2}+\alpha_{1 k}\left\langle x, x_{k-1}-x_{k}\right\rangle\right\}, \\y_{k+1} \in \arg \min _{y \in \mathbb{R}^{m}}\left\{g(y)+\left\langle y, \nabla_{y} Q\left(x_{k+1}, y_{k}\right)\right\rangle+\frac{1}{2 \mu}\left\|y-y_{k}\right\|_{2}^{2}+\beta_{1 k}\left\langle y, y_{k-1}-y_{k}\right\rangle\right\}.\end{array}\right.$

$\alpha_{2k}\equiv\beta_{2k}=\alpha_{1k}\equiv\beta_{1k}\equiv 0$, 算法 1 就是邻近交替线性极小化算法 (PALM) PALM, 其中 $\lambda_k\equiv\lambda$$\mu_k\equiv\mu$.

(2) 令 $\alpha_{2k}\equiv\beta_{2k}\equiv 0$, 算法1为如下一步惯性 Bregman 邻近交替线性极小化算法 (iBPALM)

$\left\{\begin{array}{l}x_{k+1} \in \arg \min _{x \in \mathbb{R}^{l}}\left\{f(x)+\left\langle x, \nabla_{x} Q\left(x_{k}, y_{k}\right)\right\rangle+D_{\phi_{1}}\left(x, x_{k}\right)+\alpha_{1 k}\left\langle x, x_{k-1}-x_{k}\right\rangle\right\}, \\y_{k+1} \in \arg \min _{y \in \mathbb{R}^{m}}\left\{g(y)+\left\langle y, \nabla_{y} Q\left(x_{k+1}, y_{k}\right)\right\rangle+D_{\phi_{2}}\left(y, y_{k}\right)+\beta_{1 k}\left\langle y, y_{k-1}-y_{k}\right\rangle\right\}.\end{array}\right.$

(3) 令 $\alpha_{2k}\equiv\beta_{2k}=\alpha_{1k}\equiv\beta_{1k}\equiv 0$, 算法 1 为如下 Bregman 邻近交替线性极小化算法 (BPALM)

$\left\{\begin{array}{l}x_{k+1} \in \arg \min _{x \in \mathbb{R}^{i}}\left\{f(x)+\left\langle x, \nabla_{x} Q\left(x_{k}, y_{k}\right)\right\rangle+D_{\phi_{1}}\left(x, x_{k}\right)\right\}, \\y_{k+1} \in \arg \min _{y \in \mathbb{R}^{m}}\left\{g(y)+\left\langle y, \nabla_{y} Q\left(x_{k+1}, y_{k}\right)\right\rangle+D_{\phi_{2}}\left(y, y_{k}\right)\right\}.\end{array}\right.$

为了得到算法 1 的收敛性分析, 我们作如下必要的假设.

假设 3.1 (1) $f(x)$, $g(y)$ 都是正常下半连续函数, $Q(x, y)$ 连续可微且梯度在有界集上 Lipschitz 连续, $L(x, y)$ 下方有界且强制.

(2) 对于任意固定的 $y$, 偏梯度 $\nabla_{x} Q$ 是全局 $L_1{\left ( y \right )}$-Lipschitz 连续的, 即

$\left \|\nabla_{x} Q\left ( x_{1},y \right ) - \nabla_{x} Q\left ( x_{2},y \right ) \right \|\le L_1{\left ( y \right )}\left \| x_{1}-x_{2} \right \|, \ \forall x_{1},x_{2} \in \mathbb R^{l}. $

同样地, 对于任意固定的 $x$, 偏梯度 $\nabla_{y} Q$ 是全局 $L_2{\left (x \right )}$-Lipschitz 连续的, 即

$\left \|\nabla_{y} Q\left ( x,y_{1} \right ) - \nabla_{y} Q\left ( x,y_{2} \right ) \right \|\le L_2{\left ( x \right )}\left \| y_{1}-y_{2} \right \|, \ \forall y_{1},y_{2} \in \mathbb R^{m}. $

(3) 对于 $i=1,2$, 存在 $0<L _{i}^{+}<\theta _{i}$, 使得

$\sup\left \{ L_{1}\left ( y_{k} \right ):k\in \mathbb N \right \} \le L _{1}^{+}, \ \sup\left \{ L_{2}\left ( x_{k} \right ):k\in \mathbb N \right \} \le L _{2}^{+}. $

$\rho =\min\{\theta _{1} -L_{1}^{+}\, \theta _{2} -L_{2}^{+}\}$. 本文设 $\{(x_k,y_k)\}_{k\in \mathbb{N}}$ 是由算法 1 生成的序列且假设 3.1 成立. $\forall k\in \mathbb{N}$, 记 $z_k=(x_k,y_k)$, $\triangle_k=\|z_k-z_{k-1}\|_2$. 引入效益函数

$\begin{equation} H(u,v,w):= L(u)+\frac{\alpha_1+\alpha_2}{2}\|u-v\|_2^2+\frac{\alpha_2}{2}\|v-w\|_2^2. \end{equation}$

值得注意的是, 当 $u=v=w$ 时, $H(u,v,w)= L(u)$.

引理 3.1$2(\alpha_1+\alpha_2)<\rho $, 则如下结论成立

(1) 序列 $\{H(z_{k},z_{k-1},z_{k-2})\}_{k\in \mathbb{N}}$ 是单调递减且收敛的, 且

$H\left(z_{k+1}, z_{k}, z_{k-1}\right)+a \triangle_{k+1}^{2} \leq H\left(z_{k}, z_{k-1}, z_{k-2}\right), k \geq 0,$

其中 $a=\frac{\rho-2(\alpha_1+\alpha_2)}{2}>0$;

(2) $\sum\limits_{k=0}^\infty\triangle_{k}^2<+\infty$, 因此 $\lim\limits_{k\rightarrow\infty}\triangle_{k}=0$;

(3) 序列 $\{L(x_k,y_k)\}_{k\in \mathbb{N}}$ 是收敛的.

(1) 根据算法 1, 可得

$\begin{aligned} &f(x_{k+1} ) +\langle x _{k+1},\nabla_xQ(x_k,y_k)\rangle+D_{\phi_1}(x_{k+1},x_k)+\alpha_{1k} \langle x_{k+1},x_{k-1}-x_k\rangle \\ &+\alpha_{2k} \langle x_{k+1},x_{k-2}-x_{k-1}\rangle \\ \leq &f(x_{k} )+\langle x _{k},\nabla_xQ(x_k,y_k)\rangle+D_{\phi_1}(x_{k},x_k)+\alpha_{1k} \langle x_{k},x_{k-1}-x_k\rangle \\ &+\alpha_{2k} \langle x_{k},x_{k-2}-x_{k-1}\rangle \\ =&f(x_{k} )+\langle x _{k},\nabla_xQ(x_k,y_k)\rangle+\alpha_{1k} \langle x_{k},x_{k-1}-x_k\rangle+\alpha_{2k} \langle x_{k},x_{k-2}-x_{k-1}\rangle. \end{aligned}$

根据引理 2.1, 有

$\begin{equation} Q\left ( x_{k+1},y_{k} \right ) \le Q\left (x_{k},y_{k} \right ) + \left \langle x_{k+1}-x_{k},\nabla_x Q\left ( x_{k},y_{k} \right ) \right \rangle+\frac{L_{1}(y_{k} ) }2{\left \| x_{k+1}-x_{k} \right \| ^{2}_2 }. \end{equation}$

将 (3.5) 式和 (3.6) 式相加, 可得

$\begin{aligned} &f(x_{k+1} ) +Q(x_{k+1},y_k)+D_{\phi_1}(x_{k+1},x_k)+\alpha_{1k} \langle x_{k+1},x_{k-1}-x_k\rangle+\alpha_{2k} \langle x_{k+1},x_{k-2}-x_{k-1}\rangle\\ \le& f(x_{k} ) +Q\left (x_{k},y_{k} \right ) + \frac{L_{1}(y_{k} ) }2{\left \| x_{k+1}-x_{k} \right \| ^{2}_2 }+\alpha_{1k} \langle x_{k},x_{k-1}-x_k\rangle+\alpha_{2k} \langle x_{k},x_{k-2}-x_{k-1}\rangle, \end{aligned}$

$\begin{aligned} &L(x_{k+1},y_k)+D_{\phi_1}(x_{k+1},x_k)- \frac{L_{1}(y_{k} ) }2{\left \| x_{k+1}-x_{k} \right \| ^{2}_2 } \\ \le& L(x_{k},y_k)+\alpha_{1k} \langle x_{k+1}-x_{k},x_k-x_{k-1}\rangle+\alpha_{2k} \langle x_{k+1}-x_{k},x_{k-1}-x_{k-2}\rangle. \end{aligned}$

根据 (2.1) 式和假设 3.1 (3), 再结合 (3.8) 式可得

$\begin{aligned} &L(x_{k+1},y_k)+\frac{1}{2}\left ( \theta _{1} -L_{1}^{+} \right ) \|x_{k+1}-x_k\|_2^2 \\ \leq& L(x_{k},y_k)+\alpha_{1k} \langle x_{k+1}-x_k,x_k-x_{k-1}\rangle+\alpha_{2k} \langle x_{k+1}-x_k,x_{k-1}-x_{k-2}\rangle. \end{aligned}$

同理,

$\begin{aligned} &L(x_{k+1},y_{k+1})+\frac{1}{2}\left ( \theta _{2} -L_{2}^{+} \right )\|y_{k+1}-y_k\|_2^2 \\ \leq& L(x_{k+1},y_k)+\beta_{1k} \langle y_{k+1}-y_k,y_k-y_{k-1}\rangle+\beta_{2k} \langle y_{k+1}-y_k,y_{k-1}-y_{k-2}\rangle. \end{aligned}$

将 (3.9) 式和 (3.10) 式相加, 可得

$\begin{aligned} &L(x_{k+1},y_{k+1})+\frac{1}{2}\left ( \theta _{1} -L_{1}^{+} \right )\|x_{k+1}-x_k\|_2^2+\frac{1}{2}\left ( \theta _{2} -L_{2}^{+} \right )\|y_{k+1}-y_k\|_2^2 \\ \leq&L(x_{k},y_k)+\alpha_{1k} \langle x_{k+1}-x_k,x_k-x_{k-1}\rangle+\alpha_{2k} \langle x_{k+1}-x_k,x_{k-1}-x_{k-2}\rangle \\ &+\beta_{1k} \langle y_{k+1}-y_k,y_k-y_{k-1}\rangle+\beta_{2k} \langle y_{k+1}-y_k,y_{k-1}-y_{k-2}\rangle \\ \leq&L(x_{k},y_k)+\frac{\alpha_{1k}}{2} (\|x_{k+1}-x_k\|_2^2+\|x_k-x_{k-1}\|_2^2) +\frac{\alpha_{2k}}{2}(\|x_{k+1}-x_k\|_2^2+\|x_{k-1}-x_{k-2}\|_2^2) \\ &+\frac{\beta_{1k}}{2}(\|y_{k+1}-y_k\|_2^2+\|y_k-y_{k-1}\|_2^2) +\frac{\beta_{2k}}{2}(\|y_{k+1}-y_k\|_2^2+\|y_{k-1}-y_{k-2}\|_2^2) \\ \leq& L(x_{k},y_k)+(\frac{\alpha_{1k}+\alpha_{2k}}{2} \|x_{k+1}-x_k\|_2^2+\frac{\beta_{1k}+\beta _{2k}}{2} \|y_{k+1}-y_k\|_2^2)+(\frac{\alpha_{1k}}{2} \|x_k-x_{k-1}\|_2^2 \\ &+\frac{\beta_{1k}}{2} \|y_k-y_{k-1}\|_2^2)+(\frac{\alpha_{2k}}{2} \|x_{k-1}-x_{k-2}\|_2^2+\frac{\beta_{2k}}{2} \|y_{k-1}-y_{k-2}\|_2^2). \end{aligned}$

由于 $\rho =\min\{\theta _{1} -L_{1}^{+}\, \theta _{2} -L_{2}^{+}\}>0$, $\{\alpha_{1k}\}$, $\{\beta_{1k}\}\subseteq[\alpha_1]$$\{\alpha_{2k}\}$, $\{\beta_{2k}\}\subseteq[\alpha_2]$, 故

$\begin{aligned} &L(z_{k+1})+\frac{\rho }{2}\|z_{k+1}-z_k\|_2^2\\ \leq& L(z_{k})+\frac{\alpha_1+\alpha_2}{2}\|z_{k+1}-z_k\|_2^2+\frac{\alpha_1}{2}\|z_{k}-z_{k-1}\|_2^2 +\frac{\alpha_2}{2}\|z_{k-1}-z_{k-2}\|_2^2, \end{aligned}$

$\begin{equation*} L(z_{k+1})+\frac{\alpha_1+\alpha_2}{2}\triangle_{k+1}^2+\frac{\alpha_2}{2}\triangle_{k}^2 +\frac{\rho -2(\alpha_1+\alpha_2)}{2}\triangle_{k+1}^2 \leq L(z_{k})+\frac{\alpha_1+\alpha_2}{2}\triangle_{k}^2+\frac{\alpha_2}{2}\triangle_{k-1}^2. \end{equation*}$

因此, (3.4) 式成立, 并且序列 $\{H(z_k,z_{k-1},z_{k-2})\}_{k\in \mathbb{N}}$ 是单调递减的. 根据假设 3.1 (1), $L$ 下方有界, 因此序列 $\{H(z_k,z_{k-1},z_{k-2})\}_{k\in \mathbb{N}}$ 收敛.

(2) 从 (3.4) 式中可得不等式

$\begin{equation} a\triangle_{k+1}^2\leq H(z_{k},z_{k-1},z_{k-2})-H(z_{k+1},z_{k},z_{k-1}) \end{equation}$

成立. 任取正整数 $K$, 将 (3.12) 式从 $k= 0,\cdots,K$ 相加 (注意到 $H(z_0, z_{-1},z_{-2})=L(z_0) $), 有

$\sum\limits_{k=0}^K a \triangle_{k+1}^2\leq L(z_0)-H(z_{K+1},z_{K},z_{K-1})\leq L(z_0)-\inf\limits_{\mathbb{R}^l\times \mathbb{R}^m}L<+\infty.$

$K\rightarrow +\infty$, 由 $a>0$, 可得结论成立.

(3) 由效益函数定义可知

$L(x_k,y_k)=L(z_k)=H(z_{k},z_{k-1},z_{k-2})-\frac{\alpha_1+\alpha_2}{2}\triangle_{k}^2-\frac{\alpha_2}{2}\triangle_{k-1}^2,$

根据结论 (1) 和 (2), 可得序列 $\{L(x_k,y_k)\}_{k\in \mathbb{N}}$ 收敛并且

$\lim\limits_{k\rightarrow\infty}L(x_k,y_k)=\lim\limits_{k\rightarrow\infty}H(z_{k},z_{k-1},z_{k-2}).$

证毕.

引理 3.2$\{z_k\}_{k\in \mathbb{N}}$ 是由算法 1 生成的序列. 当 $k\geq 0$ 时, 定义

$\begin{aligned} w_{k+1} =&(\nabla_xQ(x_{k+1},y_{k+1})-\nabla_xQ(x_{k},y_{k}) +\nabla\phi_1(x_k)-\nabla\phi_1(x_{k+1}),\nabla_yQ(x_{k+1},y_{k+1}) \\ &-\nabla_yQ(x_{k+1},y_{k})+\nabla\phi_2(y_k)-\nabla\phi_2(y_{k+1}),0,0,0,0)+(\alpha_{1k}(x_k-x_{k-1}) \\ &+\alpha_{2k}(x_{k-1}-x_{k-2}),\beta_{1k}(y_k-y_{k-1})+\beta_{2k}(y_{k-1}-y_{k-2}),0,0,0,0) \\ &+((\alpha_{1}+\alpha_2)(x_{k+1}-x_{k}),(\alpha_{1}+\alpha_2)(y_{k+1}-y_{k}),0,0,0,0) \\ &+(0,0,(\alpha_{1}+\alpha_{2})(x_{k}-x_{k+1})+\alpha_2(x_{k}-x_{k-1}), (\alpha_{1}+\alpha_{2})(y_{k}-y_{k+1}) \\ &+\alpha_2(y_{k}-y_{k-1}),0,0)+(0,0,0,0,\alpha_{2}(x_{k-1}-x_{k}),\alpha_{2}(y_{k-1}-y_{k})). \end{aligned}$

$\begin{equation} w_{k+1}\in \partial H(z_{k+1},z_{k},z_{k-1})={\partial}H(x_{k+1},y_{k+1},x_{k},y_{k},x_{k-1},y_{k-1}). \end{equation}$

进而, 如果序列 $\{z_k\}_{k\in \mathbb{N}}$ 是有界的, 则存在 $M>0$, 使得

$\begin{aligned} \|w_{k+1}\|_2 \leq&(M+L_{\nabla\phi_1}+2\alpha_1+2\alpha_2)\|x_{k+1}-x_k\|_2 \\ &+(M+L_2{\left ( x _{k+1} \right )}+L_{\nabla\phi_2}+2\alpha_1+2\alpha_2)\|y_{k+1}-y_k\|_2 \\ &+(\alpha_1+2\alpha_2)(\|x_{k}-x_{k-1}\|_2+\|y_{k}-y_{k-1}\|_2) \\ &+\alpha_{2}(\|x_{k-1}-x_{k-2}\|_2+\|y_{k-1}-y_{k-2}\|_2). \end{aligned}$

根据 $x_{k+1}$ 的定义, $0$ 一定属于如下函数在 $x_{k+1}$ 点处的次微分

$x\longmapsto f(x)+\langle x,\nabla_xQ(x_k,y_k)\rangle+D_{\phi_1}(x,x_k)+\alpha_{1k} \langle x,x_{k-1}-x_k\rangle+\alpha_{2k} \langle x,x_{k-2}-x_{k-1}\rangle.$

因为 $\phi$ 是可微的, 所以有

$0\in \partial f(x_{k+1})+\nabla_x Q(x_{k},y_k)+\nabla\phi_1(x_{k+1})- \nabla\phi_1(x_k)+\alpha_{1k}(x_{k-1}-x_k)+\alpha_{2k}(x_{k-2}-x_{k-1}),$

$\begin{equation} -\nabla_x Q(x_{k},y_k)+\nabla\phi_1(x_k)-\nabla\phi_1(x_{k+1}) +\alpha_{1k}(x_k-x_{k-1}) +\alpha_{2k}(x_{k-1}-x_{k-2})\in \partial f(x_{k+1}). \end{equation}$

同理,

$0\in \partial g(y_{k+1})+\nabla_y Q(x_{k+1},y_{k})+\nabla\phi_2(y_{k+1})- \nabla\phi_2(y_k)+\beta_{1k}(y_{k-1}-y_k)+\beta_{2k}(y_{k-2}-y_{k-1}),$

$\begin{equation} -\nabla_y Q(x_{k+1},y_{k})+\nabla\phi_2(y_k)-\nabla\phi_2(y_{k+1}) +\beta_{1k}(y_k-y_{k-1})+\beta_{2k}(y_{k-1}-y_{k-2})\in \partial g(y_{k+1}). \end{equation}$

根据函数 $L$ 的结构, 有 $\partial_xL(x_{k+1},y_{k+1})=\partial f(x_{k+1})+\nabla_x Q(x_{k+1},y_{k+1})$$\partial_yL(x_{k+1},y_{k+1})=\nabla_y Q(x_{k+1},y_{k+1})+\partial g(y_{k+1})$. 因此, 由 (3.16) 式和 (3.17) 式可得

$\begin{aligned} &\nabla_x Q(x_{k+1},y_{k+1})-\nabla_x Q(x_{k},y_k)+\nabla\phi_1(x_k)-\nabla\phi_1(x_{k+1}) \\ &+\alpha_{1k}(x_k-x_{k-1})+\alpha_{2k}(x_{k-1}-x_{k-2}) \in\partial_xL(x_{k+1},y_{k+1}) \end{aligned}$

$\begin{aligned} &\nabla_y Q(x_{k+1},y_{k+1})-\nabla_y Q(x_{k+1},y_k)+\nabla\phi_2(y_k)-\nabla\phi_2(y_{k+1}) \\ &+\beta_{1k}(y_k-y_{k-1})+\beta_{2k}(y_{k-1}-y_{k-2}) \in\partial_yL(x_{k+1},y_{k+1}). \end{aligned}$

$\begin{aligned} H(z_{k+1},z_{k},z_{k-1}) &=L(z_{k+1})+\frac{\alpha_1+\alpha_2}{2}\|z_{k+1}-z_{k}\|_2^2 +\frac{\alpha_2}{2}\|z_{k}-z_{k-1}\|_2^2\\ &=L(x_{k+1},y_{k+1})+\frac{\alpha_1+\alpha_2}{2}(\|x_{k+1}-x_{k}\|_2^2+\|y_{k+1}-y_{k}\|_2^2)\\ & +\frac{\alpha_2}{2}(\|x_{k}-x_{k-1}\|_2^2+\|y_{k}-y_{k-1}\|_2^2), \end{aligned}$

可得 (3.14) 式成立. 进而, 如果序列 $\{z_k\}_{k\in \mathbb{N}}$ 是有界的, 注意到 $\nabla Q$ 在有界子集上 Lipschitz 连续, 则存在 $M>0$ 使得

$\begin{aligned} &\left \|\nabla_{x} Q\left ( x_{k+1},y_{k+1} \right ) - \nabla_{x} Q\left ( x_{k},y_{k} \right ) ) \right \| \le \left \|\nabla Q\left ( x_{k+1},y_{k+1} \right ) - \nabla Q\left ( x_{k},y_{k} \right ) ) \right \|\\ \le &M(\left \| x_{k+1}-x_{k} \right \|^2 +\left \| y_{k+1}-y_{k} \right \| ^2)^{\frac{1}{2}} \le M(\left \| x_{k+1}-x_{k} \right \| +\left \| y_{k+1}-y_{k} \right \| ). \end{aligned}$

因此, 根据序列 $\{w_{k+1}\}_{k\in\mathbb{N}}$ 的定义有 (3.15) 式成立.

引理 3.3$2(\alpha_1+\alpha_2)<\rho $ 且序列 $\{z_k\}_{k\in \mathbb{N}}$ 由算法 1 生成, 则如下结论成立

(1) 序列 $\{z_k\}_{k\in \mathbb{N}}$ 有界, 且集合 $\omega(z_k)$ 非空;

(2) 对任意 $\tilde{z}\in \omega(z_k)$$z_{k_j}\rightarrow \tilde{z}$($j\rightarrow\infty$), 当 $j\rightarrow\infty$ 时, 序列 $H(z_{k_j},z_{k_j-1},z_{k_j-2})\rightarrow H(\tilde{z},\tilde{z},\tilde{z})$$0\in\partial L(\tilde{z})$.

(1) 根据引理 3.1 和 $H(z_0,z_{-1},z_{-2})=L(z_0)$, 当 $k\geq 0$ 时, 有

$L(z_k)\leq H(z_k,z_{k-1},z_{k-2})\leq H(z_0,z_{-1},z_{-2})=L(z_0).$

显然整个序列 $\{z_k\}_{k\in\mathbb{N}}$ 是水平集 $\{z\in \mathbb{R}^l\times \mathbb{R}^m : \inf\limits_{z\in \mathbb{R}^l\times \mathbb{R}^m}L(z)\leq L(z) \leq L(z_0)\}$ 的子集. 由 $L$ 的强制性和 $\inf\limits_{z\in \mathbb{R}^l\times \mathbb{R}^m}L(z)>-\infty$ 可得序列 $\{z_k\}_{k\in\mathbb{N}}$ 有界, 故集合 $\omega(z_k)$ 非空.

(2) 对于任意 $\tilde{z}\in \omega(z_k)$$z_{k_j}\rightarrow \tilde{z}$ ($j\rightarrow\infty$), 下面证明 $L(z_{k_j})\rightarrow L(\tilde{z})$($j\rightarrow\infty$).$\tilde{z}=(\tilde{x},\tilde{y})$, 则 $x_{k_j}\rightarrow \tilde{x}$$y_{k_j}\rightarrow \tilde{y}$ ($j\rightarrow\infty$). 由引理 3.1 (2) 可得

$\begin{equation} \lim\limits_{k\rightarrow\infty}\triangle_k=\lim\limits_{k\rightarrow\infty}\|z_{k}-z_{k-1}\|_2=0, \end{equation}$

所以有 $\lim\limits_{k\rightarrow\infty}\|x_{k}-x_{k-1}\|_2=\lim\limits_{k\rightarrow\infty}\|y_{k}-y_{k-1}\|_2=0$. 根据 $x_{k}$ 的定义, 可得

$\begin{aligned} &f(x_{k})+\langle x _{k},\nabla_xQ(x_k,y_{k-1})\rangle+D_\phi(x_{k},x_{k-1})+\alpha_{1,k-1} \langle x_{k},x_{k-2}-x_{k-1}\rangle\\ &+\alpha_{2,k-1} \langle x_{k},x_{k-3}-x_{k-2}\rangle\\ \leq& f(\tilde{x})+\langle \tilde{x},\nabla_xQ(\tilde{x},y_{k-1})\rangle+D_\phi(\tilde{x},x_{k-1})+\alpha_{1,k-1} \langle \tilde{x},x_{k-2}-x_{k-1}\rangle\\ &+\alpha_{2,k-1} \langle \tilde{x},x_{k-3}-x_{k-2}\rangle, \end{aligned}$

$\begin{aligned} &f(x_{k_j})+\langle x _{k_j},\nabla_xQ(x_{k_j},y_{k_j-1})\rangle+D_\phi(x_{k_j},x_{k_j-1})+\alpha_{1,k_j-1} \langle x_{k_j},x_{k_j-2}-x_{k_j-1}\rangle\\ &+\alpha_{2,k_j-1} \langle x_{k_j},x_{k_j-3}-x_{k_j-2}\rangle\\ \leq& f(\tilde{x})+\langle \tilde{x},\nabla_xQ(\tilde{x},y_{k_j-1})\rangle+D_\phi(\tilde{x},x_{k_j-1})+\alpha_{1,k_j-1} \langle \tilde{x},x_{k_j-2}-x_{k_j-1}\rangle\\ &+\alpha_{2,k_j-1} \langle \tilde{x},x_{k_j-3}-x_{k_j-2}\rangle. \end{aligned}$

$j\overset{}{\rightarrow} \infty $, 可得

$\limsup_{j\rightarrow\infty}f(x_{k_j})\leq f(\tilde{x}).$

根据 $f$ 的下半连续性可知

$f(\tilde{x})\leq \liminf_{j\rightarrow\infty}f(x_{k_j}),$

所以 $\lim\limits_{j\rightarrow\infty}f(x_{k_j})= f(\tilde{x})$. 同理可得$\lim\limits_{j\rightarrow\infty}g(y_{k_j})= g(\tilde{y})$, 因此

$\lim\limits_{j\rightarrow\infty}L(z_{k_j})= L(\tilde{z}).$

根据(3.20) 式和

$H(z_{k_j},z_{k_j-1},z_{k_j-2})=L(z_{k_j})+\frac{\alpha_1+\alpha_2}{2}\|z_{k_j}-z_{k_j-1}\|_2^2+\frac{\alpha_2}{2}\|z_{k_j-1}-z_{k_j-2}\|_2^2,$

$\lim\limits_{j\rightarrow\infty}H(z_{k_j},z_{k_j-1},z_{k_j-2})= L(\tilde{z})=H(\tilde{z},\tilde{z},\tilde{z})$ 成立. 由(3.18) 式和 (3.19) 式可得

$s_{k}\in \partial L(x_{k},y_{k}),$

其中

$\begin{aligned} s_{k}=&(\nabla_xQ(x_{k},y_{k})-\nabla_xQ(x_{k-1},y_{k-1})+\nabla\phi_1(x_{k-1})-\nabla\phi_1(x_{k}),\nabla_y Q(x_{k},y_{k})\\ &-\nabla_y Q(x_{k},y_{k-1}) +\nabla\phi_2(y_{k-1})-\nabla\phi_2(y_{k}))+(\alpha_{1,k-1}(x_{k-1}-x_{k-2})\\ &+\alpha_{2,k-1}(x_{k-2}-x_{k-3}),\beta_{1,k-1}(y_{k-1}-y_{k-2})+\beta_{2,k-1}(y_{k-2}-y_{k-3})). \end{aligned}$

由于 $\nabla Q$ 在有界集上是 Lipschitz 连续的, 并且 $\nabla \phi_i$ ($i=1,2$) 也是 Lipschitz 连续的. 因此, $s_{k}\rightarrow 0$($k\rightarrow\infty$). 根据次微分 $\partial L$ 的闭性, 可得 $0\in \partial L(\tilde{z})$.

现在, 利用引理 2.2, 可以得到算法 1 生成的序列 $\{(x_k,y_k)\}_{k\in\mathbb{N}}$ 具有收敛性.

定理 3.1$2(\alpha_1+\alpha_2)<\rho $$\{(x_k,y_k)\}_{k\in \mathbb{N}}$ 由算法 1 生成, 则由 (3.3) 式定义的函数 $H(u,v,w):\mathbb{R}^{3(l+m)}\rightarrow {(-\infty,+\infty]}$ 对于序列 $\{(z_{k+1}, z_k,z_{k-1})\}_{k\in \mathbb{N}}$ 满足假设2.1 (即满足条件 (H1), (H2) 和 (H3)). 此外, 如果 $H(u,v,w)$ 在序列 $\{(z_{k+1}, z_k,z_{k-1})\}_{k\in \mathbb{N}}$ 的聚点 $(z^\ast,z^\ast,z^\ast)$ 处具有 KŁ 性质, 则序列 $\{z_k\}_{k\in \mathbb{N}}$ 具有有限的长度, 即 $\sum\limits_{k=0}^{\infty}\|z_{k+1}-z_k\|_2<+\infty$. 并且, $z_k\rightarrow z^\ast$($k \rightarrow\infty$), $z^\ast$$L$ 的稳定点, $(z^\ast,z^\ast,z^\ast)$$H$ 的稳定点.

根据引理 2.2, 只需验证函数 $H(u,v,w)$ 对于序列 $\{(z_{k+1}, z_k,z_{k-1})\}_{k\in \mathbb{N}}$ 满足条件 (H1), (H2) 和 (H3). 由引理 3.1 (1) 可得条件 (H1) 成立. 根据引理3.2, 对 $k\in \mathbb{N}$, 有

$w_{k+1}\in \partial H(z_{k+1},z_{k},z_{k-1})=\partial H(x_{k+1},y_{k+1},x_{k},y_{k},x_{k-1},y_{k-1}),$

其中 $w_{k+1}$ 由 (3.13) 式定义. 由引理 3.3(1) 可知, 序列 $\{z_k\}_{k\in\mathbb{N}}$ 是有界的. 令 $c=\max\{L_{\nabla\phi_1},$$L_{\nabla\phi_2}\}$, $d=M+L_2^+$, 不等式

$(\|x_{k+1}-x_k\|_2+\|y_{k+1}-y_k\|_2)^2\leq 2(\|x_{k+1}-x_k\|_2^2+\|y_{k+1}-y_k\|_2^2)=2\|z_{k+1}-z_k\|_2^2$

成立. 根据 (3.15) 式有

$\begin{aligned}\left\|w_{k+1}\right\|_{2} \leq & \left(c+d+2 \alpha_{1}+2 \alpha_{2}\right) \sqrt{2}\left\|z_{k+1}-z_{k}\right\|_{2} \\& +\left(\alpha_{1}+2 \alpha_{2}\right) \sqrt{2}\left\|z_{k}-z_{k-1}\right\|_{2}+\alpha_{2} \sqrt{2}\left\|z_{k-1}-z_{k-2}\right\|_{2},\end{aligned}$

于是取 $b=\sqrt{2}(c+d+\alpha_1+2\alpha_2)$ 时条件 (H2) 成立. 由引理 3.3(1) 知 $\omega(z_k)\neq\emptyset$, 因此存在子序列 $\{z_{k_j}\}_{j\in\mathbb{N}}\subseteq \{z_k\}_{k\in\mathbb{N}}$$\tilde{z}$, 使得当 $j\rightarrow\infty$ 时, $z_{k_j}\rightarrow \tilde{z}$. 根据引理 3.1(2), 当 $j\rightarrow\infty$ 时, $\triangle_{k_j}=\|z_{k_j}-z_{k_j-1}\|_2\rightarrow 0$.$u_{k_j}=(z_{k_j}, z_{k_j-1},z_{k_j-2})$, $\tilde{u}=(\tilde{z},\tilde{z},\tilde{z})$, 则当 $j\rightarrow\infty$ 时, $u_{k_j}\rightarrow \tilde{u}$. 由引理 3.3(2) 可知

$\lim\limits_{j\rightarrow\infty}H(z_{k_j},z_{k_j-1},z_{k_j-2})=H(\tilde{z},\tilde{z},\tilde{z})$

$0\in\partial L(\tilde{z})$. 所以条件 (H3) 成立.

4 数值算例

例 4.1 稀疏非负矩阵分解问题. 给定一个矩阵 $A$, 非负矩阵分解 (NMF)[36-38] 的目标是将数据库 $A$ 分解成若干个稀疏基, 这样每个数据库都可以通过使用少量部分来近似. 即寻找一个分解 $A \approx XY$, 其中 $X \in \mathbb{R} ^{ n\times r}$, $Y \in \mathbb{R} ^{r\times d}$ 是非负的且 $X$ 是稀疏的. 为了刻画稀疏性, 此处使用 $l_0$ 稀疏约束[39]. 因此, 稀疏非负矩阵分解问题可以表示为如下模型

$\begin{aligned} \underset{X,Y}{\min} \left \{ \left \| A-XY \right \| _{F}^{2} : \ X,Y\ge 0,\ \left \| X_i \right \| _0\le s,\ i=1,2,\cdots,r\right \}, \end{aligned}$

其中 $X_i$ 表示 $X$ 的第 $i$ 列. 在 (4.1) 式中, $X$ 的稀疏性使用非凸的 $l_ 0$ 约束, 且将 $75\%$ 的元素限制为 0. 模型 (4.1)可以转换为非凸非光滑优化问题 (1.1), 其中 $Q(X,Y)=\frac{\lambda}{2}\left \| A-XY \right \| _{F}^{2}$, $f(X)=\iota_{X\ge0}(X)+\iota_{\left \| X_1\right \| _0\le sn}(X)+\cdots +\iota_{\left \| X_r \right \| _0\le sn}(X)$, $g(Y)=\iota_{Y\ge0}(Y)$, $\iota_C$$C$ 上的指示函数, $s$ 为稀疏度.

在数值实验中, 使用由人脸图像组成的标准人脸识别基准1: Yale-B 数据集和 ORL 数据集, 其中 Yale-B 数据集包含 2414 张大小为 $32 \times 32$ 的人脸裁剪图像, ORL 数据集包含 400 张大小为 $64 \times 64$ 的人脸图像, 见图1. 针对 Yale-B 数据集, 提取了 49 张稀疏基图像. 针对 ORL 数据集, 提取了 25 张稀疏基图像.

图1

图1   ORL 人脸数据库, 其中包括在稀疏非负矩阵分解问题中使用的 400 张标准化裁剪的正面人脸


取实验参数 $\lambda=0.5$. 在算法1 中, 令 $\phi_1(X)=\frac{\mu_1 }{2} \left \| X\right \|_{2}^{2}$, $\phi_2(Y)=\frac{\mu_2 }{2} \left \|Y \right \|_{2}^{2}$, 其中 $\mu_1$$\mu_2$ 分别通过计算 $\lambda YY^T$$\lambda X^TX$ 在第 $k$ 次迭代时的最大特征值来得到. 在数值实验中, 比较邻近交替线性极小化算法 (PALM)(1.4), 一步惯性邻近交替线性极小化算法 (iPALM) (1.5), Gauss-Seidel 型邻近交替线性极小化算法 (GiPALM) (1.6) 和算法 1 求解问题(4.1) 的收敛速度. 令稀疏度 $s=0.25$. 下面给出惯性参数的选取方式

(1) PALM: $\alpha_{1k}=\beta _{1k}=\alpha_{2k}=\beta _{2k}=0$.

(2) iPALM、GiPALM: 固定惯性参数 $\alpha_{1k}=\beta _{1k}=\alpha_{2k}=\beta _{2k}=0.5$; FISTA 惯性参数 $\alpha_{1k}=\beta _{1k}=\alpha_{2k}=\beta _{2k}=\frac{k-1}{k+2}$.

(3) 算法 1 (TiBPALM): 固定惯性参数 $\alpha_{1k}=\beta _{1k}=0.2$, $\alpha_{2k}=\beta _{2k}=0.3$; FISTA 惯性参数 $\alpha_{1k}=\alpha_{2k}=\beta _{1k}=\beta _{2k}=\frac{k-1}{k+2}$.

结果分析: 当选取固定惯性参数时, 图2图4分别给出了使用不同算法得到的目标函数值在 Yale-B 数据集和 ORL 数据集下数值结果. 当选取 FISTA 惯性参数时, 图3图5 分别给出了使用不同算法得到的目标函数值在 Yale-B 数据集和 ORL 数据集下数值结果. 从这些图中可以看出, 在几乎相同的计算时间内, 所提出的算法 1 可以得到比其他三种算法略低的值.

图2

图2   稀疏非负矩阵分解问题基于 Yale 数据集的目标函数值与迭代步数及时间的比较 (固定的惯性参数)


图3

图3   稀疏非负矩阵分解问题基于 Yale 数据集的目标函数值与迭代步数及时间的比较 ( Fista 惯性参数)


图4

图4   稀疏非负矩阵分解问题基于 ORL 数据集的目标函数值与迭代步数及时间的比较 (固定的惯性参数)


图5

图5   稀疏非负矩阵分解问题基于 ORL 数据集的目标函数值与迭代步数及时间的比较 ( Fista 惯性参数)


将算法1 与 PALM、iPALM 和 GiPALM 在不同稀疏度设置 ($s$ 值) 下进行比较, 此时惯性参数采用 FISTA 选取方式. 稀疏基图像的结果如图6所示. 从图6 可以看出, $s$ 值越小, 四种算法得到的人脸图像显示的更明显, 有助于提高图像显现的泛化能力.

图6

图6   四种算法在不同稀疏度下的 25 张人脸结果图像. 从左到右分别是 PALM、iPALM、GiPALM 和算法1, 从上到下分别为 $s=25\%$, $s=33\%$$s=50\%$


例 4.2 稀疏信号恢复问题. 假设 $x$$\mathbb{R }^{m} $ 中的未知向量 (一个信号), 给定测量矩阵 $A\in \mathbb{R }^{m\times n } $, 以及观测数据 $b\in \mathbb{R }^{m} $, 计划从观测数据 $b$ 中恢复稀疏信号 $x$ (即 $x$ 具有最少的非零元素), 使用 $l_0$ 稀疏约束. 因此, 稀疏信号恢复问题可以表示为如下的模型$\min_{x} {\rm } \left \| x \right \| _{0},$$ {\rm s.t.} \ Ax=b,$其中 $\left \| x \right \| _{0}$ 表示 $x$ 中非零元素的个数, 即 $l_0$ 范数. 实际计算中, 常将上式中的 $l_0$ 范数松弛到 $l_{1/2}$ 范数, 从而转化为如下非凸优化问题

$\begin{equation} \min_{x}\\ {\rm }\ \ \frac{1}{2} \left \| Ax-b \right \| _{2}^{2} +\eta \left \| x \right \| _{1/2}^{1/2}, \end{equation}$

其中参数 $\eta >0$, $\left \| x \right \| _{1/2} $$\mathbb{R }^{m}$$l_{1/2}$ 范数, 定义为 $\left \| x \right \| _{1/2} =( {\textstyle \sum\limits_{i=1}^{m}}\left | x_{i} \right | ^{1/2} )^{2} $. 下面将此问题转化为问题 (1.1).

通过引入辅助变量 $y\in \mathbb{R }^{m}$, 问题 (4.2) 可重新表述为

$\min_{x,y}\\ {\rm }\ \ \frac{1}{2} \left \| Ax-b \right \| _{2}^{2} +\eta \left \| y \right \| _{1/2}^{1/2}, {\rm s.t.} \ x=y,$

进一步转化为

$\begin{equation} \min_{x,y}\ \ {\rm }\ \ \frac{1}{2} \left \| Ax-b \right \| _{2}^{2} +\eta \left \| y \right \| _{1/2}^{1/2}+\frac{\gamma}{2}\left \| x-y \right \| _{2}^{2}, \end{equation}$

其中 $\gamma$ 为惩罚参数. 令 $f(x)=\frac{1}{2} \left \| Ax-b \right \| _{2}^{2}$, $Q(x,y)=\frac{\gamma}{2}\left \| x-y \right \| _{2}^{2}$, $g(y)=\eta \left \| y \right \| _{1/2}^{1/2}$, 则问题 (4.3) 转化为非凸非光滑不可分优化问题 (1.1). 下面选择适当的 Bregman 距离, 利用算法 1 求解本例. 令 $\phi_1(x)= \langle x,Mx\rangle$, $\phi_2(y)=\frac{\lambda }{2} \left \| y\right \|_{2}^{2}$, 取 $M=\mu I- A^{T}A$ 时, $x$ 子问题为

$\begin{aligned} x_{k+1}\hskip-.3cm &&\in\arg\min_{ x\in \mathbb{R}^l}&\left \{\frac{1}{2} \left \| Ax-b \right \| _{2}^{2}+\langle x,\gamma(x_k-y_k)\rangle+\frac{1}{2}\left \| x-x_{k} \right \| _{M}^{2} +\alpha_{1k} \langle x,x_{k-1}-x_k\rangle\right.\\ &&&\left.+\alpha_{2k} \langle x,x_{k-2}-x_{k-1}\rangle\right \}\\ &&=\arg\min_{ x\in \mathbb{R}^l}&\left \{\frac{1 }{2} \left \| Ax \right \| _{2}^{2}-\left \langle Ax,b \right \rangle +\langle x,\gamma(x_k-y_k)\rangle+\frac{1}{2}\left \langle x-x_{k},(\mu I- A^{T}A)(x-x_{k}) \right \rangle \right.\\ &&&\left.+\alpha_{1k} \langle x,x_{k-1}-x_k\rangle+\alpha_{2k} \langle x,x_{k-2}-x_{k-1}\rangle\right \}\\ &&=\arg\min_{ x\in \mathbb{R}^l}&\left \{\frac{\mu }{2} \left \| x \right \| _{2}^{2}-\langle x,\mu x_{k}- A^{T}Ax_{k}\rangle-\left \langle x,A^{T}b \right \rangle +\langle x,\gamma(x_k-y_k)\rangle\right.\\ &&&\left.+\alpha_{1k} \langle x,x_{k-1}-x_k\rangle+\alpha_{2k} \langle x,x_{k-2}-x_{k-1}\rangle\right \},\\ \end{aligned}$

由上式可知, $x$ 子问题有显式的表达式

$\begin{aligned} x_{k+1} =&\frac{1}{\mu } \left [\mu x_{k} - A^{T}Ax_{k}+ A^{T}b-\gamma(x_k-y_k)+\alpha_{1k}(x_{k}-x_{k-1})+\alpha_{2k}(x_{k-1}-x_{k-2}) \right ]. \end{aligned}$

$y$ 子问题为

$\begin{aligned} y_{k+1} &\in \arg\min_{y\in \mathbb{R}^m}\left \{\eta \left \| y \right \| _{1/2}^{1/2}+\langle y,\gamma(y_{k}-x_{k+1})\rangle+\frac{\lambda }{2} \left \| y-y_{k} \right \| _{2}^{2}+\beta_{1k} \langle y,y_{k-1}-y_k\rangle\right.\\ &\left. +\beta_{2k} \langle y,y_{k-2}-y_{k-1}\rangle\right \}\\ &= \arg\min_{y\in \mathbb{R}^m} \left \{ \eta \left \| y \right \| _{1/2}^{1/2}+\frac{\lambda }{2}\left \| y-\frac{1}\lambda \left [ \lambda y_{k }+\gamma(x_{k+1}-y_{k})+\beta_{1k} (y_{k}-y_{k-1} )\right.\right.\right.\\ &\left.\left.\left. +\beta_{2k} (y_{k-1}-y_{k-2} ) \right ] {} \right \| ^{2}\right \} \\ &= \mathcal{H}\left (y_{k}+\frac{1}\lambda \left [\gamma(x_{k+1}-y_{k})+\beta_{1k} (y_{k}-y_{k-1} )+\beta_{2k} (y_{k-1}-y_{k-2} ) \right ],\frac{\eta }{\lambda } \right ). \end{aligned}$

对于任何 $\kappa >0$, $\mathcal{H}(\cdot,\kappa )$ 称为半收缩算子[40], 定义如下

${\mathcal{H}\rm}(a;\kappa )=\left \{ h_{\kappa } (a_{1} ),h_{\kappa } (a_{2} ),\cdots,h_{\kappa } (a_{n} )\right \} ^{T}, $

其中

$h_{\kappa } (a_{i{\tiny } } )=\left\{\begin{matrix} \frac{2a_{i} }{3} (1+\cos(\frac{2\pi}{3} -\frac{2}{3}\varphi (a_{i})) ), & \text{若} \left | a_{i} \right | >\frac{3}{4} \kappa ^{2/3}, \\ 0, &{\rm \text{否则}}, \end{matrix}\right.$

并且 $\varphi (a_{i} )= $ arccos $ \big( \frac{\kappa }{8} \big ( \frac{\left | a_{i} \right | }{3} \big )^{-3/2} \big )$.

参数选取: 设 $A$ 服从标准正态分布, 并对 $A$ 进行列单位化, 则 $\left \| A\right \|\le1$. 随机生成稀疏向量 $x$, 噪声向量 $\omega \sim N\left ( 0,10^{-3}I \right )$, 向量 $b=Ax+\omega $. 取正则化参数 $\eta=0.001\left \| A^{T}b \right \|_{\infty }$, 惩罚参数 $\gamma =0.2$. 根据引理 3.1, 取 $\alpha_1>0$, $\alpha_2>0$ 使得 $2(\alpha_1+\alpha_2)<\rho $, 其中 $\rho =\min\{\mu - \left \| A \right \| ^{2} -\gamma, \lambda -\gamma\}$, $\mu =2$, $\lambda =1.5$. 在算法 1 和两步惯性 Bregman 交替极小化算法 (TiBAM) 中, 惯性参数 $\alpha_{1k}=\alpha_{2k}=\beta _{1k}=\beta _{2k}=0.99\rho/4$; 在一步惯性 Bregman 邻近交替线性极小化算法 (iBPALM) 中, 惯性参数 $\alpha_{1k}=\beta _{1k}=0.99\rho/2$; Bregman 邻近交替线性极小化算法 (BPALM) 是算法 1 没有惯性外推的的特殊情况, 即 $\alpha_{1k}=\alpha_{2k}=\beta _{1k}=\beta _{2k}=0$. 将原点作为所有算法的初始点并设 $E_k=\|x_{k+1}-x_k\|+\|y_{k+1}-y_k\|<10^{-4}$为停止准则. 下面分别针对不同维度的矩阵 $A$, 如 $(n,m)=(40,200)$$(n,m)=(100,500)$, 将算法 1 与 TiBAM、iBPALM 和 BPALMA 进行比较.

结果分析: 表1表2 分别显示了维数 $(n,m)=(40,200)$$(n,m)=(100,500)$ 时的迭代次数、CPU 时间和 $x_{k}-y_k$ 的 2 范数. 显然, 算法 1 在解决上述问题时的迭代次数和时间方面都优于 TiBAM、iBPALM 和 BPALM 算法. 在图7图8 中, 针对不同的维数 $(n,m)=(40,200)$$(n,m)=(100,500)$, 左边的图片显示了无噪声 ($b = Ax$) 的误差函数的下降趋势, 右边的图片显示了有噪声 $(b=Ax+\omega)$ 的误差函数的下降趋势. 其数值结果显示了算法 1 的有效性.

表1   维数为 $n = 40, m=200$ 时, 迭代次数、时间和 $\left \|x_k-y_k \right \|$ 在无噪声、有噪声下的数值结果

新窗口打开| 下载CSV


表2   维数为 $n =100, m=500$ 时, 迭代次数、时间和 $\left \|x_k-y_k \right \| $ 在无噪声、有噪声下的数值结果

新窗口打开| 下载CSV


图7

图7   维数为 $n = 40, m=200$ 时, 误差 $\|x_{k+1}-x_k\|+\|y_{k+1}-y_k\|$ 与迭代次数在无噪声、有噪声下的数值结果


图8

图8   维数为 $n =100, m=500$ 时, 误差 $\|x_{k+1}-x_k\|+\|y_{k+1}-y_k\|$ 与迭代次数在无噪声、有噪声下的数值结果


为了给出算法 1 在不同 Bregman 距离下的数值结果, 下面介绍三种不同的 Bregman 距离

(1) 定义函数 $\varphi_1(x)=\mu\sum\limits_{i=1}^m x_i\ln x_i$, 其定义域为

$\text{dom}\varphi_1=\{x=(x_1, x_2,\cdots, x_m)^T\in \mathbb{R}^m: x_i > 0, i =1, 2,\cdots, m\},$

值域为 $(-\infty,+\infty)$.

$\nabla \varphi_1(x)=\mu(1+\ln(x_1), 1+\ln(x_2), \cdots, 1+\ln(x_m))^T$

$\varphi_1$ 生成的 Bregman 距离 (Kullback-Leibler 距离) 是

$D_{\varphi_1}(x, y) = \mu\sum\limits_{i=1}^m\big(x_i\ln\big(\frac{x_i}{y_i}\big)+ y_i-x_i\big),\ \ \forall x,y\in \mathbb{R}_{++}^m.$

(2) 定义函数 $\varphi_2(x)=-\mu\sum\limits_{i=1}^m \ln x_i$, 其定义域为

$\text{dom}\varphi_2=\{x=(x_1, x_2,\cdots, x_m)^T\in \mathbb{R}^m: x_i > 0, i =1, 2,\cdots, m\},$

值域为 $(-\infty,+\infty)$.

$\nabla \varphi_2(x)=\mu(-\frac{1}{x_1}, -\frac{1}{x_2}, \cdots, -\frac{1}{x_m})^T$

$\varphi_2 $ 生成的 Bregman 距离 (Itakura-Saito 距离) 是

$D_{\varphi_2}(x, y) = \mu\sum\limits_{i=1}^m\big(\frac{x_i}{y_i}-\ln\big(\frac{x_i}{y_i}\big)-1\big),\ \ \forall x,y\in \mathbb{R}_{++}^m.$

(3) 定义函数 $\varphi_3(x)=\frac{\mu}{2}\|x\|^2$, 其定义域为 $\text{dom}\varphi_3=\mathbb{R}^m,$ 值域为 $[0,+\infty)$.$\nabla \varphi_3(x)=x$$\varphi_3$ 生成的 Bregman 距离 (2 范数平方距离) 是

$D_{\varphi_3}(x, y) = \frac{\mu}{2}\|x-y\|^2,\ \ \forall x,y\in \mathbb{R}^m.$

显然, $\varphi_i$ ($i=1,2,3$) 是 1-强凸的.

例 4.3 非凸二次分式规划问题

$\min_{x\in C}\\ f(x):=\frac{x^{T}Mx+a^{T}x+c}{b^{T}x+d}, $

其中 $C=\left \{ x\in \mathbb{R}^m :1\le x_{i}\le 3,i=1,2,\cdots,m \right \} $, $M:\mathbb{R}^m\to \mathbb{R}^m$ 是有界线性算子, $a\in \mathbb{R}^m$, $b\in \mathbb{R}^m$, $c=-2$$d=20$. 由文献 [8] 知 $f$ 在开集 $E=\left \{ x\in \mathbb R^{m} :b^{T}x+d >0 \right \}$ 上是伪凸的. 如果 $C\subseteq E$, 那么 $f$ 是非凸的.

上述二次分式规划问题可以转化为非凸非光滑不可分优化问题 (1.1)

$\begin{equation*} \min\{f(x)+\frac{\gamma}{2}\|x-y\|^2_2+\iota_C(y):x,\ y\in\mathbb{R}^{m}\}, \end{equation*}$

其中 $\iota_C$$C$ 上的指示函数. 由算法 1 可知 $x$ 子问题和 $y$ 子问题的迭代格式如下

$\begin{aligned} x_{k+1}\in \arg\min_{ x\in \mathbb{R}^m}\{&f(x)+\langle x,\gamma(x_{k}-y_{k})\rangle+D_{\phi_1}(x,x_k)+\alpha_{1k} \langle x,x_{k-1}-x_k\rangle\\ &+\alpha_{2k} \langle x,x_{k-2}-x_{k-1}\rangle\},\\ y_{k+1}\in \arg\min_{ y\in \mathbb{R}^m}\{&\iota_C(y)+\langle y,\gamma(y_{k}-x_{k+1})\rangle+D_{\phi_2}(y,y_k)+\beta_{1k} \langle y,y_{k-1}-y_k\rangle\\ &+\beta_{2k} \langle y,y_{k-2}-y_{k-1}\rangle\}. \end{aligned}$

在本例中, 取 $\alpha_{1k}=\beta_{1k}=0.2$, $\alpha_{2k}=\beta_{2k}=0.3$, $\gamma=10$, $\mu=36$. 使用不同的 Bregman 距离对算法 1 进行数值实验并设

$E_k=\|x_{k+1}-x_k\|+\|y_{k+1}-y_k\|<10^{-4}$

为停止准则. 使用“算法 (ij)” 表示算法 1 中 $\phi_1(x)=\varphi_i(x)$$\phi_2(x)=\varphi_j(x)$$(1\leq i\leq 3, 1\leq j\leq 3)$. 对于上述的二次分式规划问题, 给出算法 1 在不同矩阵 $M$ 下的数值结果. 随机选择初始点并随机进行 30 次, 得到平均迭代次数和平均 CPU 时间. 算法1 在不同 Bregman 距离下的数值结果如表3表4 所示.

表3   算法1在不同 Bregman 距离 (Kullback-Leibler 距离、Itakura-Saito 距离、2 范数平方距离)及固定矩阵 $M$ 下的数值结果

新窗口打开| 下载CSV


表4   算法 1 在不同 Bregman 距离 (Kullback-Leibler 距离、Itakura-Saito 距离、2 范数平方距离)及随机矩阵 $M$ 下的数值结果

新窗口打开| 下载CSV


情形 1 取固定矩阵 $M\!=\!\begin{bmatrix} 5& -1& 2& 0& 2\\ -1& 6& -1& 3& 0\\ 2& -1& 3& 0& 1\\ 0& 3& 0& 5& 0\\ 2& 0& 1& 0&4 \end{bmatrix}$, 向量 $a=(1,2,-1,-2,1)^{T}$, $b=(1,0,-1,0,1)^{T}$, 在这种情况下, $C\subseteq E$. 对于不同的 Bregman 距离, 表3 中给出了一步惯性算法和两步惯性算法的数值结果, 其中一步惯性参数 $\alpha_{1k}=\beta_{1k}=0.5$.

结果分析: 可以看出, 在迭代次数和 CPU 时间方面, Kullback-Leibler 距离和 Itakura-Saito 距离比 2 范数平方距离具有计算优势. 对于一步惯性算法, 计算结果表明, 算法 (23) ($\phi_1(x)=\varphi_2(x)$, $\phi_2(x)=\varphi_3(x)$) 求解二次分式规划问题的性能最好, 算法 (33) ($\phi_1(x)=\varphi_3(x)$, $\phi_2(x)=\varphi_3(x)$) 的性能最差. 同样地, 对于两步惯性算法, 计算结果表明, 算法 (23) ($\phi_1(x)=\varphi_2(x)$, $\phi_2(x)=\varphi_3(x)$) 求解二次分式规划问题的性能最好, 算法 (33) ($\phi_1(x)=\varphi_3(x)$, $\phi_2(x)=\varphi_3(x)$) 的性能最差.

情形 2 随机选择矩阵 $M\in \mathbb R^{m\times m} $ 和向量 $a\in \mathbb R^{m}, b\in \mathbb R^{m}$.$m=5,20,50,100$ 时, 表4 给出了算法 1 在不同 Bregman 距离下的数值结果.

结果分析: 表4 中数值结果显示, 当矩阵 $M$ 的维数较低时, 算法(23) ($\phi_1(x)=\varphi_2(x)$,$\phi_2(x)=\varphi_3(x)$) 的数值结果最好. 当矩阵 $M$ 的维数略高时, 算法(12) ($\phi_1(x)=\varphi_1(x)$, $\phi_2(x)=\varphi_2(x)$) 数值结果最好.

5 总结

针对非凸非光滑不可分优化问题, 本文基于邻近交替线性极小化算法, 结合惯性外推技术和 Bregman 距离提出了两步惯性 Bregman 邻近交替线性极小化算法. 在目标函数满足 Kurdyka-Łojasiewicz 不等式且参数满足合理条件的假设下, 构造适当的效益函数, 得到算法生成的序列全局收敛到稳定点. 最后, 对稀疏非负矩阵分解、稀疏信号恢复和二次分式规划问题进行了数值实验, 并选择适当的 Bregman 距离使稀疏信号恢复问题的子问题有显示表达式, 还应用不同的 Bregman 距离来求解二次分式规划问题. 数值结果表明了所提出算法的有效性.

参考文献

简金宝, 林惠, 马国栋.

大规模非凸不可分优化问题的分裂序列二次规划算法

数学物理学报, 2023, 43A(4): 1284-1296

[本文引用: 1]

Jian J b, Lin H, Ma G D.

A Splitting sequence quadratic programming algorithm for the Large-Scale nonconvex nonseparable optimization problems

Acta Math sci, 2023, 43A(4): 1284-1296

[本文引用: 1]

刘富勤, 彭建文, 罗洪林.

具有线性化技术的三块非凸不可分优化问题 Bregman ADMM 收敛性分析

数学物理学报, 2023, 43A(1): 291-304

[本文引用: 1]

Liu F Q, Peng J W, Luo H L.

Convergence analysis of Bregman ADMM for three-block nonconvex indivisible optimization problems with linearization technique

Acta Math Sci, 2023, 43A(1): 291-304

[本文引用: 1]

陈建华, 彭建文.

非凸多块优化的 Bregman ADMM 的收敛率研究

数学物理学报, 2024, 44A(1): 195-208

[本文引用: 1]

Chen J H, Peng J W.

Research on the convergence rate of Bregman ADMM for nonconvex multiblock optimization

Acta Math Sci, 2024, 44A(1): 195-208

[本文引用: 1]

Nikolova M, Ng M K, Zhang S Q, Ching W K.

Efficient reconstruction of piecewise constant images using nonsmooth nonconvex minimization

SIAM J Imaging Sci, 2008, 1(1): 2-25

[本文引用: 1]

Gu S H, Zhang L, Zuo W M, Feng X C.

Weighted nuclear norm minimization with application to image denoising

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014: 2862-2869

[本文引用: 1]

Bian W, Chen X J.

Linearly constrained non-Lipschitz optimization for image restoration

SIAM J Imaging Sci, 2015, 8(4): 2294-2322

[本文引用: 1]

Bolte J, Sabach S, Teboulle M.

Proximal alternating linearized minimization for nonconvex and nonsmooth problems

Math Program, 2014, 146(1): 459-494

[本文引用: 3]

Bot R I, Csetnek E R, Vuong P T.

The forward-backward-forward method from continuous and discrete perspective for pseudo-monotone variational inequalities in Hilbert spaces

Eur J Oper Res, 2020, 287(1): 49-60

[本文引用: 2]

Attouch H, Bolte J, Svaiter B F.

Convergence of descent methods for semi-algebraic and tame problems: proximal algorithms, forward-backward splitting, and regularized Guass-Seidel methods

Math Program, 2013, 137(1): 91-129

[本文引用: 1]

Donoho D L.

Compressed sensing

IEEE Trans Inform Theory, 2006, 52(4): 1289-1306

[本文引用: 1]

Boyd S, Parikh N, Chu E, et al.

Distributed optimization and statistical learning via the alternating direction method of multipliers

Foundations and Trends in Machine Learning, 2011, 3(1): 1-122

[本文引用: 1]

Bertsekas D P, Tsitsiklis J N.

Parallel and Distributed Computation: Numerical Methods

Englewood Cliffs, NJ: Prentice Hall, 1989

[本文引用: 2]

Bertsekas D P.

Nonlinear programming

J Oper Res Soc, 1977, 48(3): 334-334

[本文引用: 2]

Beck A, Tetruashvili L.

On the convergence of block coordinate descent type methods

SIAM J Optim, 2013, 23(4): 2037-2060

[本文引用: 2]

Auslender A.

Asymptotic properties of the Fenchel dual functional and applications to decomposition problems

J Optim Theory Appl, 1992, 73(3): 427-449

[本文引用: 1]

Attouch H, Bolte J, Redont P, Soubeyran A.

Proximal alternating minimization and projection methods for nonconvex problems: an approach based on the Kurdyka-Łojasiewicz inequality

Math Oper Res, 2010, 35(2): 438-457

[本文引用: 2]

Nikolova M, Tan P.

Alternating structure-adapted proximal gradient descent for nonconvex block-regularised problems

SIAM J Optim, 2019, 29(3): 2053-2078

[本文引用: 1]

Ochs P, Chen Y, Brox T, Pock T.

iPiano: Inertial proximal algorithm for nonconvex optimization

SIAM J Imaging Sci, 2014, 7(2): 1388-1419

[本文引用: 1]

Bot R I, Csetnek E R.

An inertial Tseng's type proximal algorithm for nonsmooth and nonconvex optimization problems

J Optim Theory Appl, 2016, 171(2): 600-616

[本文引用: 1]

Polyak B T.

Some methods of speeding up the convergence of iteration methods

USSR Comput Math Math Phys, 1964, 4(5): 1-17

[本文引用: 2]

Le T K H, Nicolas G, Panagiotis P.

Inertial block proximal methods for non-convex non-smooth optimization

Proceedings of the 37th International Conference on Machine Learning, PMLR, 2020, 119: 5671-5681

[本文引用: 1]

Feng J K, Zhang H B, Zhang K L, Zhao P F.

An inertial Douglas-Rachford splitting algorithm for nonconvex and nonsmooth problems

Concurrency and Computation Practice and Experience, 2023, 35(17): e6343

[本文引用: 1]

Zhang Y X, He S N.

Inertial proximal alternating minimization for nonconvex and nonsmooth problems

J Inequal Appl, 2017, 2017: 1-13

[本文引用: 1]

Pock T, Sabach S.

Inertial proximal alternating linearized minimization (iPALM) for nonconvex and nonsmooth problems

SIAM J Imaging Sci, 2017, 9(4): 1756-1787

[本文引用: 1]

Gao X, Cai X J, Han D R.

A Gauss-Seidel type inertial proximal alternating linearized minimization for a class of nonconvex optimization problems

J Glob Optim, 2020, 76: 863-887

[本文引用: 1]

Wang Q X, Han D R.

A generalized inertial proximal alternating linearized minimization method for nonconvex nonsmooth problems

Appl Numer Math, 2023, 189: 66-87

[本文引用: 1]

Yang X, Xu L L.

Some accelerated alternating proximal gradient algorithms for a class of nonconvex nonsmooth problems

J Glob Optim, 2023, 87(2): 939-964

[本文引用: 1]

Zhao J, Dong Q L, Michael Th R, Wang F H.

Two-step inertial Bregman alternating minimization algorithm for nonconvex and nonsmooth problems

J Glob Optim, 2022, 84(4): 941-966

[本文引用: 3]

Chao M T, Nong F F, Zhao M Y.

An inertial alternating minimization with Bregman distance for a class of nonconvex and nonsmooth problems

J Appl Math Comput, 2023, 69(2): 1559-1581

[本文引用: 1]

Mordukhovich B.

Variational Analysis and Generalized Differentiation. I: Basic Theory

Berlin: Springer-Verlag, 2006

[本文引用: 1]

Bolte J, Daniilidis A, Lewis A.

The Łojasiewicz inequality for nonsmooth subanalytic functions with applications to subgradient dynamical systems

SIAM J Optim, 2006, 17(4): 1205-1223

[本文引用: 1]

Rockafellar R T, Wets R. Variational Analysis. Berlin: Springer, 1998

[本文引用: 2]

Wang F H, Cao W F, Xu Z B.

Convergence of multi-block Bregman ADMM for nonconvex composite problems

Sci China Inf Sci, 2018, 61: 122101

[本文引用: 1]

Xu Y, Yin W.

A block coordinate descent method for regularized multiconvex optimization with applications to nonnegative tensor factorization and completion

SIAM J Imaging Sci, 2013, 6(3): 1758-1789

[本文引用: 1]

Hsieh Y P, Kao Y C, Mahabadi R K, et al.

A non-Euclidean gradient descent framework for nonconvex matrix factorization

IEEE Trans Signal Process, 2018, 66(22): 5917-5926

[本文引用: 1]

Lee D D, Seung H S.

Learning the parts of objects by non-negative matrix factorization

Nature, 1999, 401(6755): 788-791

[本文引用: 1]

Pan J, Gillis N.

Generalized separable nonnegative matrix factorization

IEEE Trans Pattern Anal Mach Intell, 2021, 43(5): 1546-1561

[本文引用: 1]

Rousset F, Peyrin F, Ducros N.

A semi nonnegative matrix factorization technique for pattern generalization in single-pixel imaging

IEEE Trans Comput Imaging, 2018, 4(2): 284-294

[本文引用: 1]

Peharz R, Pernkopf F.

Sparse nonnegative matrix factorization with $l_0$-constraints

Neurocomputing, 2012, 80: 38-46

PMID:22505792      [本文引用: 1]

Although nonnegative matrix factorization (NMF) favors a sparse and part-based representation of nonnegative data, there is no guarantee for this behavior. Several authors proposed NMF methods which enforce sparseness by constraining or penalizing the [Formula: see text] of the factor matrices. On the other hand, little work has been done using a more natural sparseness measure, the [Formula: see text]. In this paper, we propose a framework for approximate NMF which constrains the [Formula: see text] of the basis matrix, or the coefficient matrix, respectively. For this purpose, techniques for unconstrained NMF can be easily incorporated, such as multiplicative update rules, or the alternating nonnegative least-squares scheme. In experiments we demonstrate the benefits of our methods, which compare to, or outperform existing approaches.

Xu Z B, Chang X Y, Xu F M, Zhang H.

$L_{1/2}$ regularization: a thresholding representation theory and a fast solver

IEEE Trans Neural Netw Learning Syst, 2012, 23(7): 1013-1027

[本文引用: 1]

/