1 引言
由于非凸函数比凸函数通常能够更好地近似原问题, 所以大量问题需对非凸目标函数或非凸约束条件进行优化决策. 近年来, 非凸非光滑优化问题受到众多学者的广泛关注与研究[1 ⇓ -3 ] , 并提出了一些有效和稳定的算法. 在本文中, 我们考虑解决如下非凸非光滑不可分优化问题
(1.1) $\begin{equation} \min_{x\in \mathbb R^{l},y\in\mathbb R^{m}} L(x,y)=f(x)+Q(x,y)+g(y), \end{equation}$
其中 $f:\mathbb{R}^l\rightarrow {(-\infty,+\infty]}$ , $g:\mathbb{R}^m\rightarrow {(-\infty,+\infty]}$ 是正常下半连续函数, $Q(x,y):\mathbb{R}^l\times \mathbb{R}^m \rightarrow \mathbb{R}$ 连续可微且 $\nabla Q$ 在有界集上 Lipschitz 连续. 注意到目标函数都没有凸性的假设. 许多应用问题可以被建模为问题 (1.1), 例如, 信号与图像处理[4 ⇓ -6 ] 、矩阵分解[7 ] 、二次分式规划[8 ] 、 压缩感知[9 ,10 ] 、应用统计和机器学习[11 ] 等.
为了求解问题 (1.1), 自然考虑利用两分块结构, 采取交替极小化算法. 也就是, 给定一个初始点 $\left ( x_{0},y_{0} \right ) \in \mathbb{R}^l \times \mathbb{R}^m $ , 通过以下算法生成迭代序列 $\left \{ \left ( x_{k},y_{k} \right ) \right \} $
(1.2) $\begin{equation} \begin{cases} x_{k+1}\in \arg\min_{ x\in \mathbb{R}^l}\{L(x,y_k)\},\\ y_{k+1}\in \arg\min_{y\in \mathbb{R}^m}\{L(x_{k+1},y)\}.\\ \end{cases} \end{equation}$
在一些文献中, 交替极小化算法也被称为 Gauss-Seidel 法或块坐标下降法. 在文献 [12 ⇓ -14 ] 中, 针对目标函数具有凸性的情况下研究交替极小化算法. 当 $L(x, y)$ 为连续可微凸函数, 且 $L$ 关于变量 $x$ 或 $y$ 严格凸时, 由该算法产生的序列 $\left \{ \left ( x_{k},y_{k} \right ) \right \} $ 的每一个极限点都是 $L$ 的极小值点[12 ⇓ -14 ] . 为了提高算法的收敛速度、减弱算法的收敛条件, 文献 [15 ] 通过引入邻近项来去掉严格凸性的假设, 提出了如下邻近交替极小化算法 (PAM)
(1.3) $\begin{equation} \begin{cases} x_{k+1}\in \arg\min_{ x\in \mathbb{R}^l}\{L(x,y_k)+\frac{1}{2\lambda_k}\|x-x_k\|^2_2\},\\[3mm] y_{k+1}\in \arg\min_{y\in \mathbb{R}^m}\{L(x_{k+1},y)+\frac{1}{2\mu_k}\|y-y_k\|^2_2\},\\ \end{cases} \end{equation}$
其中 $\lambda_k>0$ , $\mu_k>0$ . Attouch 等在文献 [16 ] 中应用 (1.3) 式求解非凸非光滑不可分优化问题 (1.1), 并证明了由 PAM (1.3) 生成的序列收敛到稳定点.
因为邻近交替极小化算法在每次迭代时都需要得到精确解, 所以 (1.3) 式中的子问题可能很难解决. 线性化技术是克服子问题没有解析解的有效方法之一. Bolte 等[7 ] 受邻近向前向后分裂算法的启发, 在耦合项 $Q(x, y)$ 连续可微的条件下对 (1.3) 式中的每个子问题进行线性化, 提出了邻近交替线性极小化算法 (PALM) 求解问题 (1.1). 具体来说, 对于 $x$ 子问题, 在 $x_k$ 处线性化函数 $Q(x,y_{k})$ , 对于 $y$ 子问题, 在 $y_k$ 处线性化函数 $Q(x_{k+1},y)$ , 提出了如下的 PALM
(1.4) $\begin{equation} \begin{cases} x_{k+1}\in \arg\min_{ x\in \mathbb{R}^l}\{f(x)+\langle x,\nabla_xQ(x_k,y_k)\rangle+\frac{1}{2\lambda_k}\|x-x_k\|^2_2\},\\[3mm] y_{k+1}\in \arg\min_{y\in \mathbb{R}^m}\{g(y)+\langle y,\nabla_yQ(x_{k+1},y_k)\rangle+\frac{1}{2\mu_k}\|y-y_k\|^2_2\}.\\ \end{cases} \end{equation}$
如果 $f$ 或 $g$ 的邻近算子有封闭的形式, 则 (1.4)式的子问题易于求解. 文献 [7 ] 证明了由 PALM 生成的每个有界序列全局收敛到稳定点. 当 $f$ 和 $g$ 连续可微时, 一个自然的想法是线性化 $f$ 和 $g$ . Nikolova 等在文献 [17 ] 中提出了相应的算法, 称为交替结构自适应的邻近梯度下降 (ASAP) 法. 利用 Kurdyka-Łojasiewicz 性质, 他们建立了由所提算法生成的整个序列的收敛性.
惯性外推源于二阶动力系统的重力球方法[18 ] , 此技术在每次迭代的计算量基本不变, 在计算下一步时用到前两步或多步的信息. 惯性外推技术能有效地改进算法的数值表现 (特别是一阶算法), 所以这种方法被广泛应用于加速凸优化和非凸优化的迭代算法[19 ,20 ] .
近年来, 很多学者关注并提出多种惯性算法, 如 Le 等在文献 [21 ] 中提出了求解非凸非光滑优化问题的块坐标下降惯性算法. Feng 等在文献 [22 ] 中针对非凸非光滑优化问题提出了惯性 Douglas-Rachford 分裂算法, 并将惯性外推技术纳入了 Douglas-Rachford 分裂算法的框架中. 特别地, 为了解决问题 (1.1), Zhang 和 He[23 ] 提出了惯性邻近交替极小化方法, Pock 和 Sabach[24 ] 结合线性化技术提出了如下惯性邻近交替线性极小化 (iPALM) 算法
(1.5) $\left\{\begin{array}{l}u_{1 k}=x_{k}+\alpha_{1 k}\left(x_{k}-x_{k-1}\right), v_{1 k}=x_{k}+\beta_{1 k}\left(x_{k}-x_{k-1}\right), \\x_{k+1} \in \arg \min _{x \in \mathbb{R}^{l}}\left\{f(x)+\left\langle x, \nabla_{x} Q\left(v_{1 k}, y_{k}\right)\right\rangle+\frac{1}{2 \lambda_{k}}\left\|x-u_{1 k}\right\|_{2}^{2}\right\},\\u_{2 k}=y_{k}+\alpha_{2 k}\left(y_{k}-y_{k-1}\right), v_{2 k}=y_{k}+\beta_{2 k}\left(y_{k}-y_{k-1}\right), \\y_{k+1} \in \arg \min _{y \in \mathbb{R}^{m}}\left\{g(y)+\left\langle y, \nabla_{y} Q\left(x_{k+1}, v_{2 k}\right)\right\rangle+\frac{1}{2 \mu_{k}}\left\|y-u_{2 k}\right\|_{2}^{2}\right\},\end{array}\right.$
其中 $\alpha _{1k},\alpha _{2k},\beta _{1k},\beta _{2k}\in \left [ 0,1 \right ] $ . 当目标函数满足 Kurdyka-Łojasiewicz 性质时, 他们证明由该算法生成的序列全局收敛到稳定点. 当 $\alpha _{1k}=\alpha _{2k}=\beta _{1k}=\beta _{2k}=0$ 时, 惯性邻近交替线性极小化算法 (iPALM) 为 PALM. Cai 等[25 ] 提出如下的 Gauss-Seidel 型惯性邻近交替线性极小化算法 (GiPALM)
(1.6) $\begin{equation} \begin{cases} x_{k+1}\in \arg\min_{ x\in \mathbb{R}^l}\{f(x)+\langle x,\nabla_xQ(\tilde{x}_{k},\tilde{y}_k)\rangle+\frac{1}{2\lambda_k}\|x-\tilde{x}_{k}\|^2_2\},\\ \tilde{x}_{k+1}=x_{k+1}+\alpha (x_{k+1}-\tilde{x}_{k}), \alpha \in [0,1),\\ y_{k+1}\in \arg\min_{y\in \mathbb{R}^m}\{g(y)+\langle y,\nabla_yQ(\tilde{x}_{k+1},\tilde{y}_{k})\rangle+\frac{1}{2\mu_k}\|y-\tilde{y}_{k}\|^2_2\},\\ \tilde{y}_{k+1}=y_{k+1}+\beta(y_{k+1}-\tilde{y}_{k}), \beta \in [0,1). \end{cases} \end{equation}$
为了尽可能地利用现有的信息, Wang 等[26 ] 提出了另一种惯性邻近交替线性极小化 (NiPALM) 算法, 该算法结合了 iPALM 和 GiPALM. 当 $f$ , $g$ 连续可微时, Yang 等[27 ] 基于交替结构自适应的邻近梯度下降法 (ASAP), 利用惯性外推技术提出了加速交替结构自适应的邻近梯度下降算法 (aASAP).
Bregman 距离作为 2 范数平方距离的推广, 在使用时具有更大的灵活性, 生成函数不局限于 2 范数平方. 虽然 Bregman 距离不是真正的距离, 但采用 Bregman 距离正则化使得算法的适用性更广. 有时选择适当的 Bregman 距离可以得到子问题的显示解, 提高算法的收敛速度, 因此很多算法采用 Bregman 距离正则化来提高数值效果. 在文献 [28 ] 中, 针对问题 (1.1), 作者利用前三步迭代信息提出了如下两步惯性 Bregman 交替极小化算法 (TiBAM)
(1.7) $\begin{equation} \begin{cases} x_{k+1}\in \arg\min_{ x\in \mathbb{R}^l}\{L(x,y_k)+D_{\phi_1}(x,x_k)+\alpha_{1k} \langle x,x_{k-1}-x_k\rangle+\alpha_{2k} \langle x,x_{k-2}-x_{k-1}\rangle\},\\ y_{k+1}\in \arg\min_{y\in \mathbb{R}^m}\{L(x_{k+1},y)+D_{\phi_2}(y,y_k)+\beta_{1k} \langle y,y_{k-1}-y_k\rangle+\beta_{2k} \langle y,y_{k-2}-y_{k-1}\}, \end{cases} \end{equation}$
其中 $D_{\phi_i}(i=1,2)$ 是函数 $\phi_i(i=1,2)$ 生成的 Bregman 距离. 在效益函数满足 Kurdyka-Łojasiewicz 性质的条件下, 证明了算法的全局收敛性. 基于交替极小化算法, Chao 等[29 ] 提出了如下惯性 Bregman 交替极小化算法 (BIAM) 求解问题(1.1)
(1.8) $\begin{equation} \begin{cases} x_{k+1}\in \arg\min_{ x\in \mathbb{R}^l}\{f(x)+Q(x,\hat{y} _k)+\lambda _{k} D_{\phi_1}(x,\hat{x} _k)\},\\ \hat{x}_{k+1}=x_{k+1}+\alpha(x_{k+1}-\hat x_{k}), \alpha \in [0,1),\\ y_{k+1}\in \arg\min_{ y\in \mathbb{R}^m}\{g(y)+Q(\hat{x}_{k+1},y)+\mu _{k} D_{\phi_2}(y,\hat{y} _k)\},\\ \hat{y}_{k+1}=y_{k+1}+\beta(y_{k+1}-\hat y_{k}), \beta \in [0,1). \end{cases} \end{equation}$
在效益函数满足 Kurdyka-Łojasiewicz 性质且合理选择参数的条件下, 给出了算法的全局收敛性分析.
本文基于邻近交替极小化算法, 结合惯性外推技术、线性化技术和 Bregman 距离, 利用前三次迭代的信息, 构造了两步惯性 Bregman 邻近交替线性极小化算法, 并在效益函数满足 Kurdyka-Łojasiewicz 性质的假设下, 给出了所提出算法的全局收敛性分析.
本文内容组织如下: 在第二部分, 我们回顾了一些概念和重要引理, 这些概念和引理将用于证明主要的收敛结果. 在第三部分, 我们提出了两步惯性 Bregman 邻近交替线性极小化算法, 并给出收敛性分析. 最后, 在第四部分, 应用提出的算法求解稀疏非负矩阵分解、信号恢复和二次分式规划问题, 通过数值结果显示所提出算法的有效性.
2 预备知识
维数为 $d\geq 1$ 的欧几里得向量空间记为 $\mathbb{R}^d$ , 本文用 $\langle\cdot,\cdot\rangle$ 表示标准内积, 用 $\|\cdot\|_2$ 表示范数. 使用 $\omega(x_k)=\{x:\exists x_{k_j} \rightarrow x\}$ 来表示 $\{x_k\}_{k\in \mathbb{N}}$ 的极限集.
给定一个函数 $f: \mathbb{R}^d \rightarrow(-\infty,+\infty]$ , $f$ 的有效域和上方图分别定义为 dom$f:=\{x\in \mathbb{R}^d: f(x)<+\infty\}$ 和 epi$f:=\{(x,\alpha )\in \mathbb{R}^d\times \mathbb{R}: f(x)\le \alpha \}$ . 如果 dom$f\neq \emptyset$ , 则称 $f$ 是正常的; 如果 epi$f$ 是闭的, 则 $f$ 在 $x$ 处下半连续. 下面给出本文所需要的一些基本概念和基本性质[30 ,31 ] .
2.1 非凸非光滑函数的次微分
定义 2.1 设 $f: \mathbb{R}^d \rightarrow(-\infty,+\infty]$ 是正常下半连续函数.
(1) 若 $x\in$ dom $f$ , 定义如下集合
$\left\{v\in \mathbb{R}^d:\liminf_{y\rightarrow x}\frac{1}{\|x-y\|_2}[f(y)-f(x)-\langle v,y-x\rangle]\geq 0\right\}$
为函数 $f$ 在 $x\in$ dom $f$ 处的 Fréchet 次微分, 记作 $\hat{\partial}f(x)$ . 若 $x\not\in$ dom$f$ , 定义 $\hat{\partial}f(x)=\emptyset$ . 称集合
$\{v\in \mathbb{R}^d: \exists x_k\rightarrow x, f(x_k)\rightarrow f(x), v_k\in \hat{\partial}f(x_k), v_k\rightarrow v\}$
为 $f$ 在 $x\in$ dom $f$ 处的极限次微分[32 ] , 记作 $\partial f(x)$ .
(a) 对于 $\forall x\in \mathbb{R}^d$ , 有 $\hat{\partial}f(x)\subseteq \partial f(x)$ , 其中 $\hat{\partial}f(x)$ 是闭凸的, $\partial f(x)$ 仅是闭集[32 ] .
(b) ($\partial f$ 的闭性) 设 $\{x_k\}_{k\in \mathbb{N}}$ 和 $\{v_k\}_{k\in \mathbb{N}}$ 为 $\mathbb{R}^d$ 中的序列, 并且对 $\forall k\in \mathbb{N}$ , $v_k \in \partial f(x_k)$ . 如果当 $k\rightarrow \infty$ 时, $(x_k,v_k)\rightarrow (x,v)$ , $f(x_k)\rightarrow f(x)$ , 那么 $v \in \partial f(x)$ .
(c) $x\in \mathbb{R}^d$ 是 $f$ 极小值的一个必要 (但不充分) 条件是
(2.1) $0\in \partial f(x).$
(d) 如果 $f: \mathbb{R}^d \rightarrow(-\infty,+\infty]$ 是正常下半连续函数, $h : \mathbb{R}^d \rightarrow \mathbb{R}$ 是连续可微函数, 那么对 $\forall x \in \mathbb{R}^d$ , 都有 $\partial(f+h)(x) = \partial f(x)+\nabla h(x)$ .
2.2 Kurdyka-Łojasiewicz 性质
Kurdyka-Łojasiewicz 性质对算法的收敛结果起着至关重要的作用. 现在我们给出 Kurdyka-Łojasiewicz 性质的定义.
设 $f: \mathbb R^d \rightarrow(-\infty,+\infty]$ 是正常下半连续函数, $\eta_1$ , $\eta_2$ 满足 $-\infty <\eta_1<\eta_2 \leq +\infty$ , 记
$[\eta_1<f<\eta_2]=\{x\in \mathbb R^d:\eta_1<f(x)<\eta_2\}.$
定义 2.2 (Kurdyka-Łojasiewicz 性质) 函数 $f: \mathbb R^d \rightarrow(-\infty,+\infty]$ 是正常下半连续函数, $x^\ast\in$ dom$f$ , 若存在 $\eta\in (0,+\infty]$ , $x^\ast$ 的邻域 $U$ 及连续凹函数 $\varphi:[0,\eta)\rightarrow \mathbb R_{+}$ , 使得 $\varphi(0)=0$ , $\varphi$ 在 $(0,\eta)$ 上连续可微, $\forall s\in(0,\eta)$ 有 $\varphi'(s)>0$ , 且 $\forall x\in U\cap[f(x^\ast)<f<f(x^\ast)+\eta]$ , Kurdyka-Łojasiewicz 不等式
$\varphi'(f(x)-f(x^\ast)){\rm dist}(0,\partial f(x))\geq 1$
都成立, 则称函数 $f$ 在 $x^\ast\in$ dom $f$ 具有 Kurdyka-Łojasiewicz (KŁ) 性质. 若函数 $f$ 在 dom $f$ 中的每一点都满足 KŁ 性质, 则函数 $f$ 称为 KŁ 函数.
在应用中很多目标函数具有 KŁ 性质, 典型的函数包括强凸函数、实解析函数、半代数函数[16 ] 、 次解析函数[33 ] 和对数--指数函数. 我们注意到当 $0 < q< 1$ 时, $L_q$ 上的拟范数 $\|x\|_q:= (\Sigma_i|x_i|^q)^{1/q}$ , 无穷范数 $\|x\|_\infty:= \max_i|x_i|$ , 以及关于 $x$ 的函数 $\|Ax-b\|_q^q$ 和 $\|Ax-b\|_\infty$ 都是半代数函数, 所以它们都满足 Kurdyka-Łojasiewicz 性质.
已知实解析函数和半代数函数都是次解析的. 一般来说, 两个次解析函数的和不一定是次解析的. 然而, 对于两个次解析函数, 如果至少有一个函数将有界集映射到有界集, 那么它们的和也是次解析的, 见文献 [34 ]. 特别地, 次解析函数与解析函数的和函数是次解析的. 典型的次解析函数包括 $\|Ax-b\|^2_2+\lambda\|y\|_q^q$ , $\|Ax-b\|_2^2+\lambda\Sigma_i(y_i^2 +\varepsilon)^{q/2}$ 等.
2.3 Bregman 距离
定义 2.3 设 $f: \mathbb R^d \rightarrow(-\infty,+\infty]$ , 如果有效域 dom$f$ 是凸集, 且对任意的 $x$ , $y\in$ dom$f$ , $\alpha\in[0,1]$ , 有
$f(\alpha x+(1-\alpha)y)\leq \alpha f(x)+(1-\alpha)f(y)$
成立, 则称函数 $f$ 是凸的. 如果存在 $\theta>0$ 使得 $f-\frac{\theta}{2}\|\cdot\|^2$ 是凸的, 则称 $f$ 为 $\theta$ - 强凸的, 即对任意的 $x$ , $y\in$ dom$f$ , $\alpha\in[0,1]$ , 有
$f(\alpha x+(1-\alpha)y)\leq \alpha f(x)+(1-\alpha)f(y)-\frac{1}{2}\theta\alpha(1-\alpha)\|x-y\|^2$
假设函数 $f$ 是可微的, 那么 $f$ 是凸的当且仅当 dom$f$ 是凸集并且对任意的 $x$ , $y\in$ dom$f$ , 有
$f(x)\ge f(y)+\langle \nabla f(y),x-y\rangle$
成立. 再者, $f$ 为 $\theta$ - 强凸的当且仅当对任意的 $x$ , $y\in$ dom$f$ , 有
$f(x)\ge f(y)+\langle \nabla f(y),x-y\rangle+\frac{\theta}{2}\|x-y\|^2$
作为 2 范数平方距离的推广, Bregman 距离具有许多与 2 范数平方距离相似的良好性质. 然而, Bregman 距离并不是真正的距离, 因为它不满足三角不等式或对称性, 但使用 Bregman 距离使得算法的应用更加广泛.
定义 2.4 设 $\phi:\mathbb{R}^d \rightarrow(-\infty,+\infty]$ 是凸可微函数. 定义
$D_\phi(x,y)=\phi(x)-\phi(y)-\langle \nabla\phi(y),x-y\rangle$
为 $\phi$ 生成的 Bregman 距离, 其中 $D_\phi :$ dom$\phi\,\,\times$ intdom$\phi \rightarrow [0,+\infty)$ .
若 $\phi(x)=\frac{1}{2}\|x\|^2$ , 则 $D_\phi(x,y)=\frac{1}{2}\|x-y\|^2$ . 此外, 对于 $d$ 阶正定矩阵 $M$ , 令 $\|x\|_M:=\sqrt{\langle x,Mx\rangle}$ , 并取 $\phi(x)=\|x\|_M^2$ , 则 $D_\phi(x,y)=\|x-y\|_M^2$ , 见文献 [35 ]. 特别地, 如果 $M$ 是单位矩阵, 那么 $D_\phi(x,y)$ 为欧几里得平方距离.
由 Bregman 距离定义可知, 如果 $\phi$ 是 $\theta$ - 强凸的, 则
(2.1) $\begin{equation} D_\phi(x,y)\geq\frac{\theta}{2}\|x-y\|^2. \end{equation}$
2.4 基本引理
引理 2.1 (下降引理)[20 ] 设 $f: \mathbb{R}^{d}\rightarrow \mathbb{R}$ 是一个连续可微函数, 假设梯度 $\nabla f$ 为 $L_{f}$ - Lipschitz 连续的. 那么
(2.2) $\begin{equation} f\left ( u \right ) \le f\left ( v \right ) + \left \langle u-v,\nabla f\left ( v \right ) \right \rangle+\frac{L_{f} }2{\left \| u-v \right \| ^{2}_2,\ \forall u,v\in \mathbb R^{d}. } \end{equation}$
假设 2.1 设 $\{u_k\}_{k\in \mathbb{N}}:=\{(z_k, z_{k-1}, z_{k-2})\}_{k\in \mathbb{N}}$ 是 $\mathbb{R}^{3p}$ 中的序列, 其中 $z_k, z_{k-1}, z_{k-2}\in \mathbb{R}^p$ . 为了方便起见, 使用缩写 $\triangle_k := \|z_k-z_{k-1}\|_2$ , 其中 $k\in \mathbb{N}$ . 令 $F : \mathbb{R}^{3p}\rightarrow {(-\infty,+\infty]}$ 是正常下半连续函数且存在 $a>0$ , $b>0$ , 使得序列 $\{u_k\}_{k\in \mathbb{N}}$ 满足如下条件
(H1) (充分下降性). 任意 $k\in \mathbb{N}$ , 都有
$F(u_{k+1})+ a\triangle_{k+1}^2\leq F(u_k),$
其中 $u_k=(z_k,z_{k-1},z_{k-2})$ , 即 $F(z_{k+1}, z_{k}, z_{k-1})+ a\|z_{k+1}-z_k\|_2^2\leq F(z_k, z_{k-1}, z_{k-2})$ (此时称函数 $F$ 满足充分下降性);
(H2) (相对误差性). 任意 $k\in \mathbb{N}$ , 存在 $w_{k+1}\in \partial F(u_{k+1})$ 使得
$\|w_{k+1}\|_2\leq b(\triangle_{k+1}+\triangle_k+\triangle_{k-1})$
成立, 即 ${\|w_{k+1}\|_2\leq b(\|z_{k+1}-z_k\|_2+\|z_k-z_{k-1}\|_2+ \|z_{k-1}-z_{k-2}\|_2)}$ (此时称函数 $F$ 满足相对误差性);
(H3) (连续性条件). {存在子序列 $\{u_{k_j}\}_{j\in \mathbb{N}}$ 和 $\tilde{u}$ } 使得当 $j\rightarrow\infty$ 时, 有
$u_{k_j}\rightarrow \tilde{u},\ \ F(u_{k_j})\rightarrow F(\tilde{u})$
下面给出一个框架性收敛结果[28 ] , 可应用于分析本文提出算法的收敛性.
引理 2.2 [28 ] 设 $F: \mathbb{R}^{3p}\rightarrow {(-\infty,+\infty]}$ 是正常下半连续函数, 并且序列 $\{u_k\}_{k\in \mathbb{N}}= \{(z_k, z_{k-1},z_{k-2})\}_{k\in \mathbb{N}}$ 满足假设 2.1, 也就是条件 (H1), (H2) 和 (H3). 假设 $F$ 在 (H3) 中的聚点 $\widetilde{u} $ 处有 KŁ 性质, 则序列 $\{z_k\}_{k\in \mathbb{N}}$ 具有有限的长度, 即 $\sum\limits_{k=0}^{\infty}\|z_{k+1}-z_k\|_2<+\infty$ . 而且, 当 $k \rightarrow\infty$ 时, 序列 $\{z_k\}_{k\in \mathbb{N}}$ 收敛于 $\widetilde{z}$ , 其中 $\widetilde{u}=(\widetilde{z}, \widetilde{z}, \widetilde{z})$ 是 $F$ 的稳定点.
3 两步惯性 Bregman 邻近交替线性极小化算法
下面给出两步惯性 Brgeman 邻近交替线性极小化算法 (TiBPALM) 来求解问题 (1.1). 假设 $\phi_i$ 是 $\theta_i$ - 强凸可微函数, 且 $\nabla\phi_i$ 是 $L_{\nabla\phi_i}$ - Lipschitz 连续的 $(1\le i\le 2)$ . 令 $\theta=\min\{\theta_1,\theta_2\}$ .
算法 3.1 选取 $(x_0,y_0)\in{\rm dom}L$ , 并令 $(x_{-i},y_{-i})=(x_0,y_0)$ , $i=1, 2$ . 取序列 $\{\alpha_{1k}\}$ , $\{\beta_{1k}\}\subseteq[\alpha_1]$ 和 $\{\alpha_{2k}\}$ , $\{\beta_{2k}\}\subseteq[\alpha_2]$ , 其中 $\alpha_1\geq0$ 和 $\alpha_2\geq0$ . 对于 $k\geq 0$ , 迭代步骤如下
(3.1) $\left\{\begin{array}{l}x_{k+1} \in \arg \min _{x \in \mathbb{R}^{l}}\left\{f(x)+\left\langle x, \nabla_{x} Q\left(x_{k}, y_{k}\right)\right\rangle+D_{\phi_{1}}\left(x, x_{k}\right)+\alpha_{1 k}\left\langle x, x_{k-1}-x_{k}\right\rangle\right. \\\left.+\alpha_{2 k}\left\langle x, x_{k-2}-x_{k-1}\right\rangle\right\}, \\y_{k+1} \in \arg \min _{y \in \mathbb{R}^{m}}\left\{g(y)+\left\langle y, \nabla_{y} Q\left(x_{k+1}, y_{k}\right)\right\rangle+D_{\phi_{2}}\left(y, y_{k}\right)+\beta_{1 k}\left\langle y, y_{k-1}-y_{k}\right\rangle\right. \\\left.+\beta_{2 k}\left\langle y, y_{k-2}-y_{k-1}\right\rangle\right\},\end{array}\right.$
其中 $D_{\phi_1}$ 和 $D_{\phi_2}$ 分别是函数 $\phi_1$ 和 $\phi_2$ 生成的 Bregman 距离.
由于 $f$ 和 $g$ 是正常下半连续函数, 且 $\phi_i$ ($i=1,2$ ) 是强凸的, 因此上面定义的迭代序列是有意义的, 即对每个 $k\geq 0$ , 都可以保证 $(x_{k+1},y_{k+1})$ 存在.
(1) 设 $\lambda$ 和 $\mu$ 为正常数. 取 $\phi_1(x)=\frac{1}{2\lambda}\|x\|^2_2$ 和 $\phi_2(y)=\frac{1}{2\mu}\|y\|^2_2$ , 其中 $x\in \mathbb{R}^l$ 和 $y\in \mathbb{R}^m$ , 那么算法1 为
(3.2) $\left\{\begin{array}{l}x_{k+1} \in \arg \min _{x \in \mathbb{R}^{l}}\left\{f(x)+\left\langle x, \nabla_{x} Q\left(x_{k}, y_{k}\right)\right\rangle+\frac{1}{2 \lambda}\left\|x-x_{k}\right\|_{2}^{2}+\alpha_{1 k}\left\langle x, x_{k-1}-x_{k}\right\rangle\right. \\\left.+\alpha_{2 k}\left\langle x, x_{k-2}-x_{k-1}\right\rangle\right\}, \\y_{k+1} \in \arg \min _{y \in \mathbb{R}^{m}}\left\{g(y)+\left\langle y, \nabla_{y} Q\left(x_{k+1}, y_{k}\right)\right\rangle+\frac{1}{2 \mu}\left\|y-y_{k}\right\|_{2}^{2}+\beta_{1 k}\left\langle y, y_{k-1}-y_{k}\right\rangle\right. \\\left.+\beta_{2 k}\left\langle y, y_{k-2}-y_{k-1}\right\rangle\right\}.\end{array}\right.$
在这种情况下, 令 $\alpha_{2k}\equiv\beta_{2k}\equiv 0$ , 算法1就是如下的一步惯性算法
$\left\{\begin{array}{l}x_{k+1} \in \arg \min _{x \in \mathbb{R}^{l}}\left\{f(x)+\left\langle x, \nabla_{x} Q\left(x_{k}, y_{k}\right)\right\rangle+\frac{1}{2 \lambda}\left\|x-x_{k}\right\|_{2}^{2}+\alpha_{1 k}\left\langle x, x_{k-1}-x_{k}\right\rangle\right\}, \\y_{k+1} \in \arg \min _{y \in \mathbb{R}^{m}}\left\{g(y)+\left\langle y, \nabla_{y} Q\left(x_{k+1}, y_{k}\right)\right\rangle+\frac{1}{2 \mu}\left\|y-y_{k}\right\|_{2}^{2}+\beta_{1 k}\left\langle y, y_{k-1}-y_{k}\right\rangle\right\}.\end{array}\right.$
令 $\alpha_{2k}\equiv\beta_{2k}=\alpha_{1k}\equiv\beta_{1k}\equiv 0$ , 算法 1 就是邻近交替线性极小化算法 (PALM) PALM, 其中 $\lambda_k\equiv\lambda$ 和 $\mu_k\equiv\mu$ .
(2) 令 $\alpha_{2k}\equiv\beta_{2k}\equiv 0$ , 算法1为如下一步惯性 Bregman 邻近交替线性极小化算法 (iBPALM)
$\left\{\begin{array}{l}x_{k+1} \in \arg \min _{x \in \mathbb{R}^{l}}\left\{f(x)+\left\langle x, \nabla_{x} Q\left(x_{k}, y_{k}\right)\right\rangle+D_{\phi_{1}}\left(x, x_{k}\right)+\alpha_{1 k}\left\langle x, x_{k-1}-x_{k}\right\rangle\right\}, \\y_{k+1} \in \arg \min _{y \in \mathbb{R}^{m}}\left\{g(y)+\left\langle y, \nabla_{y} Q\left(x_{k+1}, y_{k}\right)\right\rangle+D_{\phi_{2}}\left(y, y_{k}\right)+\beta_{1 k}\left\langle y, y_{k-1}-y_{k}\right\rangle\right\}.\end{array}\right.$
(3) 令 $\alpha_{2k}\equiv\beta_{2k}=\alpha_{1k}\equiv\beta_{1k}\equiv 0$ , 算法 1 为如下 Bregman 邻近交替线性极小化算法 (BPALM)
$\left\{\begin{array}{l}x_{k+1} \in \arg \min _{x \in \mathbb{R}^{i}}\left\{f(x)+\left\langle x, \nabla_{x} Q\left(x_{k}, y_{k}\right)\right\rangle+D_{\phi_{1}}\left(x, x_{k}\right)\right\}, \\y_{k+1} \in \arg \min _{y \in \mathbb{R}^{m}}\left\{g(y)+\left\langle y, \nabla_{y} Q\left(x_{k+1}, y_{k}\right)\right\rangle+D_{\phi_{2}}\left(y, y_{k}\right)\right\}.\end{array}\right.$
为了得到算法 1 的收敛性分析, 我们作如下必要的假设.
假设 3.1 (1) $f(x)$ , $g(y)$ 都是正常下半连续函数, $Q(x, y)$ 连续可微且梯度在有界集上 Lipschitz 连续, $L(x, y)$ 下方有界且强制.
(2) 对于任意固定的 $y$ , 偏梯度 $\nabla_{x} Q$ 是全局 $L_1{\left ( y \right )}$ - Lipschitz 连续的, 即
$\left \|\nabla_{x} Q\left ( x_{1},y \right ) - \nabla_{x} Q\left ( x_{2},y \right ) \right \|\le L_1{\left ( y \right )}\left \| x_{1}-x_{2} \right \|, \ \forall x_{1},x_{2} \in \mathbb R^{l}. $
同样地, 对于任意固定的 $x$ , 偏梯度 $\nabla_{y} Q$ 是全局 $L_2{\left (x \right )}$ - Lipschitz 连续的, 即
$\left \|\nabla_{y} Q\left ( x,y_{1} \right ) - \nabla_{y} Q\left ( x,y_{2} \right ) \right \|\le L_2{\left ( x \right )}\left \| y_{1}-y_{2} \right \|, \ \forall y_{1},y_{2} \in \mathbb R^{m}. $
(3) 对于 $i=1,2$ , 存在 $0<L _{i}^{+}<\theta _{i}$ , 使得
$\sup\left \{ L_{1}\left ( y_{k} \right ):k\in \mathbb N \right \} \le L _{1}^{+}, \ \sup\left \{ L_{2}\left ( x_{k} \right ):k\in \mathbb N \right \} \le L _{2}^{+}. $
记 $\rho =\min\{\theta _{1} -L_{1}^{+}\, \theta _{2} -L_{2}^{+}\}$ . 本文设 $\{(x_k,y_k)\}_{k\in \mathbb{N}}$ 是由算法 1 生成的序列且假设 3.1 成立. $\forall k\in \mathbb{N}$ , 记 $z_k=(x_k,y_k)$ , $\triangle_k=\|z_k-z_{k-1}\|_2$ . 引入效益函数
(3.3) $\begin{equation} H(u,v,w):= L(u)+\frac{\alpha_1+\alpha_2}{2}\|u-v\|_2^2+\frac{\alpha_2}{2}\|v-w\|_2^2. \end{equation}$
值得注意的是, 当 $u=v=w$ 时, $H(u,v,w)= L(u)$ .
引理 3.1 设 $2(\alpha_1+\alpha_2)<\rho $ , 则如下结论成立
(1) 序列 $\{H(z_{k},z_{k-1},z_{k-2})\}_{k\in \mathbb{N}}$ 是单调递减且收敛的, 且
(3.4) $H\left(z_{k+1}, z_{k}, z_{k-1}\right)+a \triangle_{k+1}^{2} \leq H\left(z_{k}, z_{k-1}, z_{k-2}\right), k \geq 0,$
其中 $a=\frac{\rho-2(\alpha_1+\alpha_2)}{2}>0$ ;
(2) $\sum\limits_{k=0}^\infty\triangle_{k}^2<+\infty$ , 因此 $\lim\limits_{k\rightarrow\infty}\triangle_{k}=0$ ;
(3) 序列 $\{L(x_k,y_k)\}_{k\in \mathbb{N}}$ 是收敛的.
(3.5) $\begin{aligned} &f(x_{k+1} ) +\langle x _{k+1},\nabla_xQ(x_k,y_k)\rangle+D_{\phi_1}(x_{k+1},x_k)+\alpha_{1k} \langle x_{k+1},x_{k-1}-x_k\rangle \\ &+\alpha_{2k} \langle x_{k+1},x_{k-2}-x_{k-1}\rangle \\ \leq &f(x_{k} )+\langle x _{k},\nabla_xQ(x_k,y_k)\rangle+D_{\phi_1}(x_{k},x_k)+\alpha_{1k} \langle x_{k},x_{k-1}-x_k\rangle \\ &+\alpha_{2k} \langle x_{k},x_{k-2}-x_{k-1}\rangle \\ =&f(x_{k} )+\langle x _{k},\nabla_xQ(x_k,y_k)\rangle+\alpha_{1k} \langle x_{k},x_{k-1}-x_k\rangle+\alpha_{2k} \langle x_{k},x_{k-2}-x_{k-1}\rangle. \end{aligned}$
(3.6) $\begin{equation} Q\left ( x_{k+1},y_{k} \right ) \le Q\left (x_{k},y_{k} \right ) + \left \langle x_{k+1}-x_{k},\nabla_x Q\left ( x_{k},y_{k} \right ) \right \rangle+\frac{L_{1}(y_{k} ) }2{\left \| x_{k+1}-x_{k} \right \| ^{2}_2 }. \end{equation}$
(3.7) $\begin{aligned} &f(x_{k+1} ) +Q(x_{k+1},y_k)+D_{\phi_1}(x_{k+1},x_k)+\alpha_{1k} \langle x_{k+1},x_{k-1}-x_k\rangle+\alpha_{2k} \langle x_{k+1},x_{k-2}-x_{k-1}\rangle\\ \le& f(x_{k} ) +Q\left (x_{k},y_{k} \right ) + \frac{L_{1}(y_{k} ) }2{\left \| x_{k+1}-x_{k} \right \| ^{2}_2 }+\alpha_{1k} \langle x_{k},x_{k-1}-x_k\rangle+\alpha_{2k} \langle x_{k},x_{k-2}-x_{k-1}\rangle, \end{aligned}$
(3.8) $\begin{aligned} &L(x_{k+1},y_k)+D_{\phi_1}(x_{k+1},x_k)- \frac{L_{1}(y_{k} ) }2{\left \| x_{k+1}-x_{k} \right \| ^{2}_2 } \\ \le& L(x_{k},y_k)+\alpha_{1k} \langle x_{k+1}-x_{k},x_k-x_{k-1}\rangle+\alpha_{2k} \langle x_{k+1}-x_{k},x_{k-1}-x_{k-2}\rangle. \end{aligned}$
根据 (2.1) 式和假设 3.1 (3), 再结合 (3.8) 式可得
(3.9) $\begin{aligned} &L(x_{k+1},y_k)+\frac{1}{2}\left ( \theta _{1} -L_{1}^{+} \right ) \|x_{k+1}-x_k\|_2^2 \\ \leq& L(x_{k},y_k)+\alpha_{1k} \langle x_{k+1}-x_k,x_k-x_{k-1}\rangle+\alpha_{2k} \langle x_{k+1}-x_k,x_{k-1}-x_{k-2}\rangle. \end{aligned}$
(3.10) $\begin{aligned} &L(x_{k+1},y_{k+1})+\frac{1}{2}\left ( \theta _{2} -L_{2}^{+} \right )\|y_{k+1}-y_k\|_2^2 \\ \leq& L(x_{k+1},y_k)+\beta_{1k} \langle y_{k+1}-y_k,y_k-y_{k-1}\rangle+\beta_{2k} \langle y_{k+1}-y_k,y_{k-1}-y_{k-2}\rangle. \end{aligned}$
将 (3.9) 式和 (3.10) 式相加, 可得
(3.11) $\begin{aligned} &L(x_{k+1},y_{k+1})+\frac{1}{2}\left ( \theta _{1} -L_{1}^{+} \right )\|x_{k+1}-x_k\|_2^2+\frac{1}{2}\left ( \theta _{2} -L_{2}^{+} \right )\|y_{k+1}-y_k\|_2^2 \\ \leq&L(x_{k},y_k)+\alpha_{1k} \langle x_{k+1}-x_k,x_k-x_{k-1}\rangle+\alpha_{2k} \langle x_{k+1}-x_k,x_{k-1}-x_{k-2}\rangle \\ &+\beta_{1k} \langle y_{k+1}-y_k,y_k-y_{k-1}\rangle+\beta_{2k} \langle y_{k+1}-y_k,y_{k-1}-y_{k-2}\rangle \\ \leq&L(x_{k},y_k)+\frac{\alpha_{1k}}{2} (\|x_{k+1}-x_k\|_2^2+\|x_k-x_{k-1}\|_2^2) +\frac{\alpha_{2k}}{2}(\|x_{k+1}-x_k\|_2^2+\|x_{k-1}-x_{k-2}\|_2^2) \\ &+\frac{\beta_{1k}}{2}(\|y_{k+1}-y_k\|_2^2+\|y_k-y_{k-1}\|_2^2) +\frac{\beta_{2k}}{2}(\|y_{k+1}-y_k\|_2^2+\|y_{k-1}-y_{k-2}\|_2^2) \\ \leq& L(x_{k},y_k)+(\frac{\alpha_{1k}+\alpha_{2k}}{2} \|x_{k+1}-x_k\|_2^2+\frac{\beta_{1k}+\beta _{2k}}{2} \|y_{k+1}-y_k\|_2^2)+(\frac{\alpha_{1k}}{2} \|x_k-x_{k-1}\|_2^2 \\ &+\frac{\beta_{1k}}{2} \|y_k-y_{k-1}\|_2^2)+(\frac{\alpha_{2k}}{2} \|x_{k-1}-x_{k-2}\|_2^2+\frac{\beta_{2k}}{2} \|y_{k-1}-y_{k-2}\|_2^2). \end{aligned}$
由于 $\rho =\min\{\theta _{1} -L_{1}^{+}\, \theta _{2} -L_{2}^{+}\}>0$ , $\{\alpha_{1k}\}$ , $\{\beta_{1k}\}\subseteq[\alpha_1]$ 且 $\{\alpha_{2k}\}$ , $\{\beta_{2k}\}\subseteq[\alpha_2]$ , 故
$\begin{aligned} &L(z_{k+1})+\frac{\rho }{2}\|z_{k+1}-z_k\|_2^2\\ \leq& L(z_{k})+\frac{\alpha_1+\alpha_2}{2}\|z_{k+1}-z_k\|_2^2+\frac{\alpha_1}{2}\|z_{k}-z_{k-1}\|_2^2 +\frac{\alpha_2}{2}\|z_{k-1}-z_{k-2}\|_2^2, \end{aligned}$
$\begin{equation*} L(z_{k+1})+\frac{\alpha_1+\alpha_2}{2}\triangle_{k+1}^2+\frac{\alpha_2}{2}\triangle_{k}^2 +\frac{\rho -2(\alpha_1+\alpha_2)}{2}\triangle_{k+1}^2 \leq L(z_{k})+\frac{\alpha_1+\alpha_2}{2}\triangle_{k}^2+\frac{\alpha_2}{2}\triangle_{k-1}^2. \end{equation*}$
因此, (3.4) 式成立, 并且序列 $\{H(z_k,z_{k-1},z_{k-2})\}_{k\in \mathbb{N}}$ 是单调递减的. 根据假设 3.1 (1), $L$ 下方有界, 因此序列 $\{H(z_k,z_{k-1},z_{k-2})\}_{k\in \mathbb{N}}$ 收敛.
(3.12) $\begin{equation} a\triangle_{k+1}^2\leq H(z_{k},z_{k-1},z_{k-2})-H(z_{k+1},z_{k},z_{k-1}) \end{equation}$
成立. 任取正整数 $K$ , 将 (3.12) 式从 $k= 0,\cdots,K$ 相加 (注意到 $H(z_0, z_{-1},z_{-2})=L(z_0) $ ) , 有
$\sum\limits_{k=0}^K a \triangle_{k+1}^2\leq L(z_0)-H(z_{K+1},z_{K},z_{K-1})\leq L(z_0)-\inf\limits_{\mathbb{R}^l\times \mathbb{R}^m}L<+\infty.$
令 $K\rightarrow +\infty$ , 由 $a>0$ , 可得结论成立.
$L(x_k,y_k)=L(z_k)=H(z_{k},z_{k-1},z_{k-2})-\frac{\alpha_1+\alpha_2}{2}\triangle_{k}^2-\frac{\alpha_2}{2}\triangle_{k-1}^2,$
根据结论 (1) 和 (2), 可得序列 $\{L(x_k,y_k)\}_{k\in \mathbb{N}}$ 收敛并且
$\lim\limits_{k\rightarrow\infty}L(x_k,y_k)=\lim\limits_{k\rightarrow\infty}H(z_{k},z_{k-1},z_{k-2}).$
引理 3.2 设 $\{z_k\}_{k\in \mathbb{N}}$ 是由算法 1 生成的序列. 当 $k\geq 0$ 时, 定义
(3.13) $\begin{aligned} w_{k+1} =&(\nabla_xQ(x_{k+1},y_{k+1})-\nabla_xQ(x_{k},y_{k}) +\nabla\phi_1(x_k)-\nabla\phi_1(x_{k+1}),\nabla_yQ(x_{k+1},y_{k+1}) \\ &-\nabla_yQ(x_{k+1},y_{k})+\nabla\phi_2(y_k)-\nabla\phi_2(y_{k+1}),0,0,0,0)+(\alpha_{1k}(x_k-x_{k-1}) \\ &+\alpha_{2k}(x_{k-1}-x_{k-2}),\beta_{1k}(y_k-y_{k-1})+\beta_{2k}(y_{k-1}-y_{k-2}),0,0,0,0) \\ &+((\alpha_{1}+\alpha_2)(x_{k+1}-x_{k}),(\alpha_{1}+\alpha_2)(y_{k+1}-y_{k}),0,0,0,0) \\ &+(0,0,(\alpha_{1}+\alpha_{2})(x_{k}-x_{k+1})+\alpha_2(x_{k}-x_{k-1}), (\alpha_{1}+\alpha_{2})(y_{k}-y_{k+1}) \\ &+\alpha_2(y_{k}-y_{k-1}),0,0)+(0,0,0,0,\alpha_{2}(x_{k-1}-x_{k}),\alpha_{2}(y_{k-1}-y_{k})). \end{aligned}$
(3.14) $\begin{equation} w_{k+1}\in \partial H(z_{k+1},z_{k},z_{k-1})={\partial}H(x_{k+1},y_{k+1},x_{k},y_{k},x_{k-1},y_{k-1}). \end{equation}$
进而, 如果序列 $\{z_k\}_{k\in \mathbb{N}}$ 是有界的, 则存在 $M>0$ , 使得
(3.15) $\begin{aligned} \|w_{k+1}\|_2 \leq&(M+L_{\nabla\phi_1}+2\alpha_1+2\alpha_2)\|x_{k+1}-x_k\|_2 \\ &+(M+L_2{\left ( x _{k+1} \right )}+L_{\nabla\phi_2}+2\alpha_1+2\alpha_2)\|y_{k+1}-y_k\|_2 \\ &+(\alpha_1+2\alpha_2)(\|x_{k}-x_{k-1}\|_2+\|y_{k}-y_{k-1}\|_2) \\ &+\alpha_{2}(\|x_{k-1}-x_{k-2}\|_2+\|y_{k-1}-y_{k-2}\|_2). \end{aligned}$
证 根据 $x_{k+1}$ 的定义, $0$ 一定属于如下函数在 $x_{k+1}$ 点处的次微分
$x\longmapsto f(x)+\langle x,\nabla_xQ(x_k,y_k)\rangle+D_{\phi_1}(x,x_k)+\alpha_{1k} \langle x,x_{k-1}-x_k\rangle+\alpha_{2k} \langle x,x_{k-2}-x_{k-1}\rangle.$
$0\in \partial f(x_{k+1})+\nabla_x Q(x_{k},y_k)+\nabla\phi_1(x_{k+1})- \nabla\phi_1(x_k)+\alpha_{1k}(x_{k-1}-x_k)+\alpha_{2k}(x_{k-2}-x_{k-1}),$
(3.16) $\begin{equation} -\nabla_x Q(x_{k},y_k)+\nabla\phi_1(x_k)-\nabla\phi_1(x_{k+1}) +\alpha_{1k}(x_k-x_{k-1}) +\alpha_{2k}(x_{k-1}-x_{k-2})\in \partial f(x_{k+1}). \end{equation}$
$0\in \partial g(y_{k+1})+\nabla_y Q(x_{k+1},y_{k})+\nabla\phi_2(y_{k+1})- \nabla\phi_2(y_k)+\beta_{1k}(y_{k-1}-y_k)+\beta_{2k}(y_{k-2}-y_{k-1}),$
(3.17) $\begin{equation} -\nabla_y Q(x_{k+1},y_{k})+\nabla\phi_2(y_k)-\nabla\phi_2(y_{k+1}) +\beta_{1k}(y_k-y_{k-1})+\beta_{2k}(y_{k-1}-y_{k-2})\in \partial g(y_{k+1}). \end{equation}$
根据函数 $L$ 的结构, 有 $\partial_xL(x_{k+1},y_{k+1})=\partial f(x_{k+1})+\nabla_x Q(x_{k+1},y_{k+1})$ 和 $\partial_yL(x_{k+1},y_{k+1})=\nabla_y Q(x_{k+1},y_{k+1})+\partial g(y_{k+1})$ . 因此, 由 (3.16) 式和 (3.17) 式可得
(3.18) $\begin{aligned} &\nabla_x Q(x_{k+1},y_{k+1})-\nabla_x Q(x_{k},y_k)+\nabla\phi_1(x_k)-\nabla\phi_1(x_{k+1}) \\ &+\alpha_{1k}(x_k-x_{k-1})+\alpha_{2k}(x_{k-1}-x_{k-2}) \in\partial_xL(x_{k+1},y_{k+1}) \end{aligned}$
(3.19) $\begin{aligned} &\nabla_y Q(x_{k+1},y_{k+1})-\nabla_y Q(x_{k+1},y_k)+\nabla\phi_2(y_k)-\nabla\phi_2(y_{k+1}) \\ &+\beta_{1k}(y_k-y_{k-1})+\beta_{2k}(y_{k-1}-y_{k-2}) \in\partial_yL(x_{k+1},y_{k+1}). \end{aligned}$
$\begin{aligned} H(z_{k+1},z_{k},z_{k-1}) &=L(z_{k+1})+\frac{\alpha_1+\alpha_2}{2}\|z_{k+1}-z_{k}\|_2^2 +\frac{\alpha_2}{2}\|z_{k}-z_{k-1}\|_2^2\\ &=L(x_{k+1},y_{k+1})+\frac{\alpha_1+\alpha_2}{2}(\|x_{k+1}-x_{k}\|_2^2+\|y_{k+1}-y_{k}\|_2^2)\\ & +\frac{\alpha_2}{2}(\|x_{k}-x_{k-1}\|_2^2+\|y_{k}-y_{k-1}\|_2^2), \end{aligned}$
可得 (3.14) 式成立. 进而, 如果序列 $\{z_k\}_{k\in \mathbb{N}}$ 是有界的, 注意到 $\nabla Q$ 在有界子集上 Lipschitz 连续, 则存在 $M>0$ 使得
$\begin{aligned} &\left \|\nabla_{x} Q\left ( x_{k+1},y_{k+1} \right ) - \nabla_{x} Q\left ( x_{k},y_{k} \right ) ) \right \| \le \left \|\nabla Q\left ( x_{k+1},y_{k+1} \right ) - \nabla Q\left ( x_{k},y_{k} \right ) ) \right \|\\ \le &M(\left \| x_{k+1}-x_{k} \right \|^2 +\left \| y_{k+1}-y_{k} \right \| ^2)^{\frac{1}{2}} \le M(\left \| x_{k+1}-x_{k} \right \| +\left \| y_{k+1}-y_{k} \right \| ). \end{aligned}$
因此, 根据序列 $\{w_{k+1}\}_{k\in\mathbb{N}}$ 的定义有 (3.15) 式成立.
引理 3.3 设 $2(\alpha_1+\alpha_2)<\rho $ 且序列 $\{z_k\}_{k\in \mathbb{N}}$ 由算法 1 生成, 则如下结论成立
(1) 序列 $\{z_k\}_{k\in \mathbb{N}}$ 有界, 且集合 $\omega(z_k)$ 非空;
(2) 对任意 $\tilde{z}\in \omega(z_k)$ 及 $z_{k_j}\rightarrow \tilde{z}$ ( $j\rightarrow\infty$ ) , 当 $j\rightarrow\infty$ 时, 序列 $H(z_{k_j},z_{k_j-1},z_{k_j-2})\rightarrow H(\tilde{z},\tilde{z},\tilde{z})$ 且 $0\in\partial L(\tilde{z})$ .
证 (1) 根据引理 3.1 和 $H(z_0,z_{-1},z_{-2})=L(z_0)$ , 当 $k\geq 0$ 时, 有
$L(z_k)\leq H(z_k,z_{k-1},z_{k-2})\leq H(z_0,z_{-1},z_{-2})=L(z_0).$
显然整个序列 $\{z_k\}_{k\in\mathbb{N}}$ 是水平集 $\{z\in \mathbb{R}^l\times \mathbb{R}^m : \inf\limits_{z\in \mathbb{R}^l\times \mathbb{R}^m}L(z)\leq L(z) \leq L(z_0)\}$ 的子集. 由 $L$ 的强制性和 $\inf\limits_{z\in \mathbb{R}^l\times \mathbb{R}^m}L(z)>-\infty$ 可得序列 $\{z_k\}_{k\in\mathbb{N}}$ 有界, 故集合 $\omega(z_k)$ 非空.
(2) 对于任意 $\tilde{z}\in \omega(z_k)$ 和 $z_{k_j}\rightarrow \tilde{z}$ ($j\rightarrow\infty$ ) , 下面证明 $L(z_{k_j})\rightarrow L(\tilde{z})$ ( $j\rightarrow\infty$ ). 令 $\tilde{z}=(\tilde{x},\tilde{y})$ , 则 $x_{k_j}\rightarrow \tilde{x}$ 且 $y_{k_j}\rightarrow \tilde{y}$ ($j\rightarrow\infty$ ). 由引理 3.1 (2) 可得
(3.20) $\begin{equation} \lim\limits_{k\rightarrow\infty}\triangle_k=\lim\limits_{k\rightarrow\infty}\|z_{k}-z_{k-1}\|_2=0, \end{equation}$
所以有 $\lim\limits_{k\rightarrow\infty}\|x_{k}-x_{k-1}\|_2=\lim\limits_{k\rightarrow\infty}\|y_{k}-y_{k-1}\|_2=0$ . 根据 $x_{k}$ 的定义, 可得
$\begin{aligned} &f(x_{k})+\langle x _{k},\nabla_xQ(x_k,y_{k-1})\rangle+D_\phi(x_{k},x_{k-1})+\alpha_{1,k-1} \langle x_{k},x_{k-2}-x_{k-1}\rangle\\ &+\alpha_{2,k-1} \langle x_{k},x_{k-3}-x_{k-2}\rangle\\ \leq& f(\tilde{x})+\langle \tilde{x},\nabla_xQ(\tilde{x},y_{k-1})\rangle+D_\phi(\tilde{x},x_{k-1})+\alpha_{1,k-1} \langle \tilde{x},x_{k-2}-x_{k-1}\rangle\\ &+\alpha_{2,k-1} \langle \tilde{x},x_{k-3}-x_{k-2}\rangle, \end{aligned}$
$\begin{aligned} &f(x_{k_j})+\langle x _{k_j},\nabla_xQ(x_{k_j},y_{k_j-1})\rangle+D_\phi(x_{k_j},x_{k_j-1})+\alpha_{1,k_j-1} \langle x_{k_j},x_{k_j-2}-x_{k_j-1}\rangle\\ &+\alpha_{2,k_j-1} \langle x_{k_j},x_{k_j-3}-x_{k_j-2}\rangle\\ \leq& f(\tilde{x})+\langle \tilde{x},\nabla_xQ(\tilde{x},y_{k_j-1})\rangle+D_\phi(\tilde{x},x_{k_j-1})+\alpha_{1,k_j-1} \langle \tilde{x},x_{k_j-2}-x_{k_j-1}\rangle\\ &+\alpha_{2,k_j-1} \langle \tilde{x},x_{k_j-3}-x_{k_j-2}\rangle. \end{aligned}$
令 $j\overset{}{\rightarrow} \infty $ , 可得
$\limsup_{j\rightarrow\infty}f(x_{k_j})\leq f(\tilde{x}).$
$f(\tilde{x})\leq \liminf_{j\rightarrow\infty}f(x_{k_j}),$
所以 $\lim\limits_{j\rightarrow\infty}f(x_{k_j})= f(\tilde{x})$ . 同理可得$\lim\limits_{j\rightarrow\infty}g(y_{k_j})= g(\tilde{y})$ , 因此
$\lim\limits_{j\rightarrow\infty}L(z_{k_j})= L(\tilde{z}).$
$H(z_{k_j},z_{k_j-1},z_{k_j-2})=L(z_{k_j})+\frac{\alpha_1+\alpha_2}{2}\|z_{k_j}-z_{k_j-1}\|_2^2+\frac{\alpha_2}{2}\|z_{k_j-1}-z_{k_j-2}\|_2^2,$
有 $\lim\limits_{j\rightarrow\infty}H(z_{k_j},z_{k_j-1},z_{k_j-2})= L(\tilde{z})=H(\tilde{z},\tilde{z},\tilde{z})$ 成立. 由(3.18) 式和 (3.19) 式可得
$s_{k}\in \partial L(x_{k},y_{k}),$
$\begin{aligned} s_{k}=&(\nabla_xQ(x_{k},y_{k})-\nabla_xQ(x_{k-1},y_{k-1})+\nabla\phi_1(x_{k-1})-\nabla\phi_1(x_{k}),\nabla_y Q(x_{k},y_{k})\\ &-\nabla_y Q(x_{k},y_{k-1}) +\nabla\phi_2(y_{k-1})-\nabla\phi_2(y_{k}))+(\alpha_{1,k-1}(x_{k-1}-x_{k-2})\\ &+\alpha_{2,k-1}(x_{k-2}-x_{k-3}),\beta_{1,k-1}(y_{k-1}-y_{k-2})+\beta_{2,k-1}(y_{k-2}-y_{k-3})). \end{aligned}$
由于 $\nabla Q$ 在有界集上是 Lipschitz 连续的, 并且 $\nabla \phi_i$ ($i=1,2$ ) 也是 Lipschitz 连续的. 因此, $s_{k}\rightarrow 0$ ( $k\rightarrow\infty$ ). 根据次微分 $\partial L$ 的闭性, 可得 $0\in \partial L(\tilde{z})$ .
现在, 利用引理 2.2, 可以得到算法 1 生成的序列 $\{(x_k,y_k)\}_{k\in\mathbb{N}}$ 具有收敛性.
定理 3.1 设 $2(\alpha_1+\alpha_2)<\rho $ 且 $\{(x_k,y_k)\}_{k\in \mathbb{N}}$ 由算法 1 生成, 则由 (3.3) 式定义的函数 $H(u,v,w):\mathbb{R}^{3(l+m)}\rightarrow {(-\infty,+\infty]}$ 对于序列 $\{(z_{k+1}, z_k,z_{k-1})\}_{k\in \mathbb{N}}$ 满足假设2.1 (即满足条件 (H1), (H2) 和 (H3)). 此外, 如果 $H(u,v,w)$ 在序列 $\{(z_{k+1}, z_k,z_{k-1})\}_{k\in \mathbb{N}}$ 的聚点 $(z^\ast,z^\ast,z^\ast)$ 处具有 KŁ 性质, 则序列 $\{z_k\}_{k\in \mathbb{N}}$ 具有有限的长度, 即 $\sum\limits_{k=0}^{\infty}\|z_{k+1}-z_k\|_2<+\infty$ . 并且, $z_k\rightarrow z^\ast$ ( $k \rightarrow\infty$ ) , $z^\ast$ 是 $L$ 的稳定点, $(z^\ast,z^\ast,z^\ast)$ 是 $H$ 的稳定点.
证 根据引理 2.2, 只需验证函数 $H(u,v,w)$ 对于序列 $\{(z_{k+1}, z_k,z_{k-1})\}_{k\in \mathbb{N}}$ 满足条件 (H1), (H2) 和 (H3). 由引理 3.1 (1) 可得条件 (H1) 成立. 根据引理3.2, 对 $k\in \mathbb{N}$ , 有
$w_{k+1}\in \partial H(z_{k+1},z_{k},z_{k-1})=\partial H(x_{k+1},y_{k+1},x_{k},y_{k},x_{k-1},y_{k-1}),$
其中 $w_{k+1}$ 由 (3.13) 式定义. 由引理 3.3(1) 可知, 序列 $\{z_k\}_{k\in\mathbb{N}}$ 是有界的. 令 $c=\max\{L_{\nabla\phi_1},$ $L_{\nabla\phi_2}\}$ , $d=M+L_2^+$ , 不等式
$(\|x_{k+1}-x_k\|_2+\|y_{k+1}-y_k\|_2)^2\leq 2(\|x_{k+1}-x_k\|_2^2+\|y_{k+1}-y_k\|_2^2)=2\|z_{k+1}-z_k\|_2^2$
$\begin{aligned}\left\|w_{k+1}\right\|_{2} \leq & \left(c+d+2 \alpha_{1}+2 \alpha_{2}\right) \sqrt{2}\left\|z_{k+1}-z_{k}\right\|_{2} \\& +\left(\alpha_{1}+2 \alpha_{2}\right) \sqrt{2}\left\|z_{k}-z_{k-1}\right\|_{2}+\alpha_{2} \sqrt{2}\left\|z_{k-1}-z_{k-2}\right\|_{2},\end{aligned}$
于是取 $b=\sqrt{2}(c+d+\alpha_1+2\alpha_2)$ 时条件 (H2) 成立. 由引理 3.3(1) 知 $\omega(z_k)\neq\emptyset$ , 因此存在子序列 $\{z_{k_j}\}_{j\in\mathbb{N}}\subseteq \{z_k\}_{k\in\mathbb{N}}$ 及 $\tilde{z}$ , 使得当 $j\rightarrow\infty$ 时, $z_{k_j}\rightarrow \tilde{z}$ . 根据引理 3.1(2), 当 $j\rightarrow\infty$ 时, $\triangle_{k_j}=\|z_{k_j}-z_{k_j-1}\|_2\rightarrow 0$ . 令 $u_{k_j}=(z_{k_j}, z_{k_j-1},z_{k_j-2})$ , $\tilde{u}=(\tilde{z},\tilde{z},\tilde{z})$ , 则当 $j\rightarrow\infty$ 时, $u_{k_j}\rightarrow \tilde{u}$ . 由引理 3.3(2) 可知
$\lim\limits_{j\rightarrow\infty}H(z_{k_j},z_{k_j-1},z_{k_j-2})=H(\tilde{z},\tilde{z},\tilde{z})$
且 $0\in\partial L(\tilde{z})$ . 所以条件 (H3) 成立.
4 数值算例
例 4.1 稀疏非负矩阵分解问题. 给定一个矩阵 $A$ , 非负矩阵分解 (NMF)[36 ⇓ -38 ] 的目标是将数据库 $A$ 分解成若干个稀疏基, 这样每个数据库都可以通过使用少量部分来近似. 即寻找一个分解 $A \approx XY$ , 其中 $X \in \mathbb{R} ^{ n\times r}$ , $Y \in \mathbb{R} ^{r\times d}$ 是非负的且 $X$ 是稀疏的. 为了刻画稀疏性, 此处使用 $l_0$ 稀疏约束[39 ] . 因此, 稀疏非负矩阵分解问题可以表示为如下模型
(4.1) $\begin{aligned} \underset{X,Y}{\min} \left \{ \left \| A-XY \right \| _{F}^{2} : \ X,Y\ge 0,\ \left \| X_i \right \| _0\le s,\ i=1,2,\cdots,r\right \}, \end{aligned}$
其中 $X_i$ 表示 $X$ 的第 $i$ 列. 在 (4.1) 式中, $X$ 的稀疏性使用非凸的 $l_ 0$ 约束, 且将 $75\%$ 的元素限制为 0. 模型 (4.1)可以转换为非凸非光滑优化问题 (1.1), 其中 $Q(X,Y)=\frac{\lambda}{2}\left \| A-XY \right \| _{F}^{2}$ , $f(X)=\iota_{X\ge0}(X)+\iota_{\left \| X_1\right \| _0\le sn}(X)+\cdots +\iota_{\left \| X_r \right \| _0\le sn}(X)$ , $g(Y)=\iota_{Y\ge0}(Y)$ , $\iota_C$ 是 $C$ 上的指示函数, $s$ 为稀疏度.
在数值实验中, 使用由人脸图像组成的标准人脸识别基准1: Yale-B 数据集和 ORL 数据集, 其中 Yale-B 数据集包含 2414 张大小为 $32 \times 32$ 的人脸裁剪图像, ORL 数据集包含 400 张大小为 $64 \times 64$ 的人脸图像, 见图1 . 针对 Yale-B 数据集, 提取了 49 张稀疏基图像. 针对 ORL 数据集, 提取了 25 张稀疏基图像.
图1
图1
ORL 人脸数据库, 其中包括在稀疏非负矩阵分解问题中使用的 400 张标准化裁剪的正面人脸
取实验参数 $\lambda=0.5$ . 在算法1 中, 令 $\phi_1(X)=\frac{\mu_1 }{2} \left \| X\right \|_{2}^{2}$ , $\phi_2(Y)=\frac{\mu_2 }{2} \left \|Y \right \|_{2}^{2}$ , 其中 $\mu_1$ 和 $\mu_2$ 分别通过计算 $\lambda YY^T$ 和 $\lambda X^TX$ 在第 $k$ 次迭代时的最大特征值来得到. 在数值实验中, 比较邻近交替线性极小化算法 (PALM)(1.4), 一步惯性邻近交替线性极小化算法 (iPALM) (1.5), Gauss-Seidel 型邻近交替线性极小化算法 (GiPALM) (1.6) 和算法 1 求解问题(4.1) 的收敛速度. 令稀疏度 $s=0.25$ . 下面给出惯性参数的选取方式
(1) PALM: $\alpha_{1k}=\beta _{1k}=\alpha_{2k}=\beta _{2k}=0$ .
(2) iPALM、GiPALM: 固定惯性参数 $\alpha_{1k}=\beta _{1k}=\alpha_{2k}=\beta _{2k}=0.5$ ; FISTA 惯性参数 $\alpha_{1k}=\beta _{1k}=\alpha_{2k}=\beta _{2k}=\frac{k-1}{k+2}$ .
(3) 算法 1 (TiBPALM): 固定惯性参数 $\alpha_{1k}=\beta _{1k}=0.2$ , $\alpha_{2k}=\beta _{2k}=0.3$ ; FISTA 惯性参数 $\alpha_{1k}=\alpha_{2k}=\beta _{1k}=\beta _{2k}=\frac{k-1}{k+2}$ .
结果分析: 当选取固定惯性参数时, 图2 和图4 分别给出了使用不同算法得到的目标函数值在 Yale-B 数据集和 ORL 数据集下数值结果. 当选取 FISTA 惯性参数时, 图3 和图5 分别给出了使用不同算法得到的目标函数值在 Yale-B 数据集和 ORL 数据集下数值结果. 从这些图中可以看出, 在几乎相同的计算时间内, 所提出的算法 1 可以得到比其他三种算法略低的值.
图2
图2
稀疏非负矩阵分解问题基于 Yale 数据集的目标函数值与迭代步数及时间的比较 (固定的惯性参数)
图3
图3
稀疏非负矩阵分解问题基于 Yale 数据集的目标函数值与迭代步数及时间的比较 ( Fista 惯性参数)
图4
图4
稀疏非负矩阵分解问题基于 ORL 数据集的目标函数值与迭代步数及时间的比较 (固定的惯性参数)
图5
图5
稀疏非负矩阵分解问题基于 ORL 数据集的目标函数值与迭代步数及时间的比较 ( Fista 惯性参数)
将算法1 与 PALM、iPALM 和 GiPALM 在不同稀疏度设置 ($s$ 值) 下进行比较, 此时惯性参数采用 FISTA 选取方式. 稀疏基图像的结果如图6 所示. 从图6 可以看出, $s$ 值越小, 四种算法得到的人脸图像显示的更明显, 有助于提高图像显现的泛化能力.
图6
图6
四种算法在不同稀疏度下的 25 张人脸结果图像. 从左到右分别是 PALM、iPALM、GiPALM 和算法1, 从上到下分别为 $s=25\%$ , $s=33\%$ 和 $s=50\%$
例 4.2 稀疏信号恢复问题. 假设 $x$ 是 $\mathbb{R }^{m} $ 中的未知向量 (一个信号), 给定测量矩阵 $A\in \mathbb{R }^{m\times n } $ , 以及观测数据 $b\in \mathbb{R }^{m} $ , 计划从观测数据 $b$ 中恢复稀疏信号 $x$ (即 $x$ 具有最少的非零元素), 使用 $l_0$ 稀疏约束. 因此, 稀疏信号恢复问题可以表示为如下的模型$\min_{x} {\rm } \left \| x \right \| _{0},$ $ {\rm s.t.} \ Ax=b,$ 其中 $\left \| x \right \| _{0}$ 表示 $x$ 中非零元素的个数, 即 $l_0$ 范数. 实际计算中, 常将上式中的 $l_0$ 范数松弛到 $l_{1/2}$ 范数, 从而转化为如下非凸优化问题
(4.2) $\begin{equation} \min_{x}\\ {\rm }\ \ \frac{1}{2} \left \| Ax-b \right \| _{2}^{2} +\eta \left \| x \right \| _{1/2}^{1/2}, \end{equation}$
其中参数 $\eta >0$ , $\left \| x \right \| _{1/2} $ 是 $\mathbb{R }^{m}$ 的 $l_{1/2}$ 范数, 定义为 $\left \| x \right \| _{1/2} =( {\textstyle \sum\limits_{i=1}^{m}}\left | x_{i} \right | ^{1/2} )^{2} $ . 下面将此问题转化为问题 (1.1).
通过引入辅助变量 $y\in \mathbb{R }^{m}$ , 问题 (4.2) 可重新表述为
$\min_{x,y}\\ {\rm }\ \ \frac{1}{2} \left \| Ax-b \right \| _{2}^{2} +\eta \left \| y \right \| _{1/2}^{1/2}, {\rm s.t.} \ x=y,$
(4.3) $\begin{equation} \min_{x,y}\ \ {\rm }\ \ \frac{1}{2} \left \| Ax-b \right \| _{2}^{2} +\eta \left \| y \right \| _{1/2}^{1/2}+\frac{\gamma}{2}\left \| x-y \right \| _{2}^{2}, \end{equation}$
其中 $\gamma$ 为惩罚参数. 令 $f(x)=\frac{1}{2} \left \| Ax-b \right \| _{2}^{2}$ , $Q(x,y)=\frac{\gamma}{2}\left \| x-y \right \| _{2}^{2}$ , $g(y)=\eta \left \| y \right \| _{1/2}^{1/2}$ , 则问题 (4.3) 转化为非凸非光滑不可分优化问题 (1.1). 下面选择适当的 Bregman 距离, 利用算法 1 求解本例. 令 $\phi_1(x)= \langle x,Mx\rangle$ , $\phi_2(y)=\frac{\lambda }{2} \left \| y\right \|_{2}^{2}$ , 取 $M=\mu I- A^{T}A$ 时, $x$ 子问题为
$\begin{aligned} x_{k+1}\hskip-.3cm &&\in\arg\min_{ x\in \mathbb{R}^l}&\left \{\frac{1}{2} \left \| Ax-b \right \| _{2}^{2}+\langle x,\gamma(x_k-y_k)\rangle+\frac{1}{2}\left \| x-x_{k} \right \| _{M}^{2} +\alpha_{1k} \langle x,x_{k-1}-x_k\rangle\right.\\ &&&\left.+\alpha_{2k} \langle x,x_{k-2}-x_{k-1}\rangle\right \}\\ &&=\arg\min_{ x\in \mathbb{R}^l}&\left \{\frac{1 }{2} \left \| Ax \right \| _{2}^{2}-\left \langle Ax,b \right \rangle +\langle x,\gamma(x_k-y_k)\rangle+\frac{1}{2}\left \langle x-x_{k},(\mu I- A^{T}A)(x-x_{k}) \right \rangle \right.\\ &&&\left.+\alpha_{1k} \langle x,x_{k-1}-x_k\rangle+\alpha_{2k} \langle x,x_{k-2}-x_{k-1}\rangle\right \}\\ &&=\arg\min_{ x\in \mathbb{R}^l}&\left \{\frac{\mu }{2} \left \| x \right \| _{2}^{2}-\langle x,\mu x_{k}- A^{T}Ax_{k}\rangle-\left \langle x,A^{T}b \right \rangle +\langle x,\gamma(x_k-y_k)\rangle\right.\\ &&&\left.+\alpha_{1k} \langle x,x_{k-1}-x_k\rangle+\alpha_{2k} \langle x,x_{k-2}-x_{k-1}\rangle\right \},\\ \end{aligned}$
$\begin{aligned} x_{k+1} =&\frac{1}{\mu } \left [\mu x_{k} - A^{T}Ax_{k}+ A^{T}b-\gamma(x_k-y_k)+\alpha_{1k}(x_{k}-x_{k-1})+\alpha_{2k}(x_{k-1}-x_{k-2}) \right ]. \end{aligned}$
$\begin{aligned} y_{k+1} &\in \arg\min_{y\in \mathbb{R}^m}\left \{\eta \left \| y \right \| _{1/2}^{1/2}+\langle y,\gamma(y_{k}-x_{k+1})\rangle+\frac{\lambda }{2} \left \| y-y_{k} \right \| _{2}^{2}+\beta_{1k} \langle y,y_{k-1}-y_k\rangle\right.\\ &\left. +\beta_{2k} \langle y,y_{k-2}-y_{k-1}\rangle\right \}\\ &= \arg\min_{y\in \mathbb{R}^m} \left \{ \eta \left \| y \right \| _{1/2}^{1/2}+\frac{\lambda }{2}\left \| y-\frac{1}\lambda \left [ \lambda y_{k }+\gamma(x_{k+1}-y_{k})+\beta_{1k} (y_{k}-y_{k-1} )\right.\right.\right.\\ &\left.\left.\left. +\beta_{2k} (y_{k-1}-y_{k-2} ) \right ] {} \right \| ^{2}\right \} \\ &= \mathcal{H}\left (y_{k}+\frac{1}\lambda \left [\gamma(x_{k+1}-y_{k})+\beta_{1k} (y_{k}-y_{k-1} )+\beta_{2k} (y_{k-1}-y_{k-2} ) \right ],\frac{\eta }{\lambda } \right ). \end{aligned}$
对于任何 $\kappa >0$ , $\mathcal{H}(\cdot,\kappa )$ 称为半收缩算子[40 ] , 定义如下
${\mathcal{H}\rm}(a;\kappa )=\left \{ h_{\kappa } (a_{1} ),h_{\kappa } (a_{2} ),\cdots,h_{\kappa } (a_{n} )\right \} ^{T}, $
$h_{\kappa } (a_{i{\tiny } } )=\left\{\begin{matrix} \frac{2a_{i} }{3} (1+\cos(\frac{2\pi}{3} -\frac{2}{3}\varphi (a_{i})) ), & \text{若} \left | a_{i} \right | >\frac{3}{4} \kappa ^{2/3}, \\ 0, &{\rm \text{否则}}, \end{matrix}\right.$
并且 $\varphi (a_{i} )= $ arccos $ \big( \frac{\kappa }{8} \big ( \frac{\left | a_{i} \right | }{3} \big )^{-3/2} \big )$ .
参数选取: 设 $A$ 服从标准正态分布, 并对 $A$ 进行列单位化, 则 $\left \| A\right \|\le1$ . 随机生成稀疏向量 $x$ , 噪声向量 $\omega \sim N\left ( 0,10^{-3}I \right )$ , 向量 $b=Ax+\omega $ . 取正则化参数 $\eta=0.001\left \| A^{T}b \right \|_{\infty }$ , 惩罚参数 $\gamma =0.2$ . 根据引理 3.1, 取 $\alpha_1>0$ , $\alpha_2>0$ 使得 $2(\alpha_1+\alpha_2)<\rho $ , 其中 $\rho =\min\{\mu - \left \| A \right \| ^{2} -\gamma, \lambda -\gamma\}$ , $\mu =2$ , $\lambda =1.5$ . 在算法 1 和两步惯性 Bregman 交替极小化算法 (TiBAM) 中, 惯性参数 $\alpha_{1k}=\alpha_{2k}=\beta _{1k}=\beta _{2k}=0.99\rho/4$ ; 在一步惯性 Bregman 邻近交替线性极小化算法 (iBPALM) 中, 惯性参数 $\alpha_{1k}=\beta _{1k}=0.99\rho/2$ ; Bregman 邻近交替线性极小化算法 (BPALM) 是算法 1 没有惯性外推的的特殊情况, 即 $\alpha_{1k}=\alpha_{2k}=\beta _{1k}=\beta _{2k}=0$ . 将原点作为所有算法的初始点并设 $E_k=\|x_{k+1}-x_k\|+\|y_{k+1}-y_k\|<10^{-4}$ 为停止准则. 下面分别针对不同维度的矩阵 $A$ , 如 $(n,m)=(40,200)$ 和 $(n,m)=(100,500)$ , 将算法 1 与 TiBAM、iBPALM 和 BPALMA 进行比较.
结果分析: 表1 和表2 分别显示了维数 $(n,m)=(40,200)$ 和 $(n,m)=(100,500)$ 时的迭代次数、CPU 时间和 $x_{k}-y_k$ 的 2 范数. 显然, 算法 1 在解决上述问题时的迭代次数和时间方面都优于 TiBAM、iBPALM 和 BPALM 算法. 在图7 和图8 中, 针对不同的维数 $(n,m)=(40,200)$ 和 $(n,m)=(100,500)$ , 左边的图片显示了无噪声 ($b = Ax$ ) 的误差函数的下降趋势, 右边的图片显示了有噪声 $(b=Ax+\omega)$ 的误差函数的下降趋势. 其数值结果显示了算法 1 的有效性.
图7
图7
维数为 $n = 40, m=200$ 时, 误差 $\|x_{k+1}-x_k\|+\|y_{k+1}-y_k\|$ 与迭代次数在无噪声、有噪声下的数值结果
图8
图8
维数为 $n =100, m=500$ 时, 误差 $\|x_{k+1}-x_k\|+\|y_{k+1}-y_k\|$ 与迭代次数在无噪声、有噪声下的数值结果
为了给出算法 1 在不同 Bregman 距离下的数值结果, 下面介绍三种不同的 Bregman 距离
(1) 定义函数 $\varphi_1(x)=\mu\sum\limits_{i=1}^m x_i\ln x_i$ , 其定义域为
$\text{dom}\varphi_1=\{x=(x_1, x_2,\cdots, x_m)^T\in \mathbb{R}^m: x_i > 0, i =1, 2,\cdots, m\},$
值域为 $(-\infty,+\infty)$ . 故
$\nabla \varphi_1(x)=\mu(1+\ln(x_1), 1+\ln(x_2), \cdots, 1+\ln(x_m))^T$
及 $\varphi_1$ 生成的 Bregman 距离 (Kullback-Leibler 距离) 是
$D_{\varphi_1}(x, y) = \mu\sum\limits_{i=1}^m\big(x_i\ln\big(\frac{x_i}{y_i}\big)+ y_i-x_i\big),\ \ \forall x,y\in \mathbb{R}_{++}^m.$
(2) 定义函数 $\varphi_2(x)=-\mu\sum\limits_{i=1}^m \ln x_i$ , 其定义域为
$\text{dom}\varphi_2=\{x=(x_1, x_2,\cdots, x_m)^T\in \mathbb{R}^m: x_i > 0, i =1, 2,\cdots, m\},$
值域为 $(-\infty,+\infty)$ . 故
$\nabla \varphi_2(x)=\mu(-\frac{1}{x_1}, -\frac{1}{x_2}, \cdots, -\frac{1}{x_m})^T$
及 $\varphi_2 $ 生成的 Bregman 距离 (Itakura-Saito 距离) 是
$D_{\varphi_2}(x, y) = \mu\sum\limits_{i=1}^m\big(\frac{x_i}{y_i}-\ln\big(\frac{x_i}{y_i}\big)-1\big),\ \ \forall x,y\in \mathbb{R}_{++}^m.$
(3) 定义函数 $\varphi_3(x)=\frac{\mu}{2}\|x\|^2$ , 其定义域为 $\text{dom}\varphi_3=\mathbb{R}^m,$ 值域为 $[0,+\infty)$ . 故 $\nabla \varphi_3(x)=x$ 及 $\varphi_3$ 生成的 Bregman 距离 (2 范数平方距离) 是
$D_{\varphi_3}(x, y) = \frac{\mu}{2}\|x-y\|^2,\ \ \forall x,y\in \mathbb{R}^m.$
显然, $\varphi_i$ ($i=1,2,3$ ) 是 1-强凸的.
$\min_{x\in C}\\ f(x):=\frac{x^{T}Mx+a^{T}x+c}{b^{T}x+d}, $
其中 $C=\left \{ x\in \mathbb{R}^m :1\le x_{i}\le 3,i=1,2,\cdots,m \right \} $ , $M:\mathbb{R}^m\to \mathbb{R}^m$ 是有界线性算子, $a\in \mathbb{R}^m$ , $b\in \mathbb{R}^m$ , $c=-2$ 且 $d=20$ . 由文献 [8 ] 知 $f$ 在开集 $E=\left \{ x\in \mathbb R^{m} :b^{T}x+d >0 \right \}$ 上是伪凸的. 如果 $C\subseteq E$ , 那么 $f$ 是非凸的.
上述二次分式规划问题可以转化为非凸非光滑不可分优化问题 (1.1)
$\begin{equation*} \min\{f(x)+\frac{\gamma}{2}\|x-y\|^2_2+\iota_C(y):x,\ y\in\mathbb{R}^{m}\}, \end{equation*}$
其中 $\iota_C$ 是 $C$ 上的指示函数. 由算法 1 可知 $x$ 子问题和 $y$ 子问题的迭代格式如下
$\begin{aligned} x_{k+1}\in \arg\min_{ x\in \mathbb{R}^m}\{&f(x)+\langle x,\gamma(x_{k}-y_{k})\rangle+D_{\phi_1}(x,x_k)+\alpha_{1k} \langle x,x_{k-1}-x_k\rangle\\ &+\alpha_{2k} \langle x,x_{k-2}-x_{k-1}\rangle\},\\ y_{k+1}\in \arg\min_{ y\in \mathbb{R}^m}\{&\iota_C(y)+\langle y,\gamma(y_{k}-x_{k+1})\rangle+D_{\phi_2}(y,y_k)+\beta_{1k} \langle y,y_{k-1}-y_k\rangle\\ &+\beta_{2k} \langle y,y_{k-2}-y_{k-1}\rangle\}. \end{aligned}$
在本例中, 取 $\alpha_{1k}=\beta_{1k}=0.2$ , $\alpha_{2k}=\beta_{2k}=0.3$ , $\gamma=10$ , $\mu=36$ . 使用不同的 Bregman 距离对算法 1 进行数值实验并设
$E_k=\|x_{k+1}-x_k\|+\|y_{k+1}-y_k\|<10^{-4}$
为停止准则. 使用“算法 (ij)” 表示算法 1 中 $\phi_1(x)=\varphi_i(x)$ 和 $\phi_2(x)=\varphi_j(x)$ $(1\leq i\leq 3, 1\leq j\leq 3)$ . 对于上述的二次分式规划问题, 给出算法 1 在不同矩阵 $M$ 下的数值结果. 随机选择初始点并随机进行 30 次, 得到平均迭代次数和平均 CPU 时间. 算法1 在不同 Bregman 距离下的数值结果如表3 和表4 所示.
情形 1 取固定矩阵 $M\!=\!\begin{bmatrix} 5& -1& 2& 0& 2\\ -1& 6& -1& 3& 0\\ 2& -1& 3& 0& 1\\ 0& 3& 0& 5& 0\\ 2& 0& 1& 0&4 \end{bmatrix}$ , 向量 $a=(1,2,-1,-2,1)^{T}$ , $b=(1,0,-1,0,1)^{T}$ , 在这种情况下, $C\subseteq E$ . 对于不同的 Bregman 距离, 表3 中给出了一步惯性算法和两步惯性算法的数值结果, 其中一步惯性参数 $\alpha_{1k}=\beta_{1k}=0.5$ .
结果分析: 可以看出, 在迭代次数和 CPU 时间方面, Kullback-Leibler 距离和 Itakura-Saito 距离比 2 范数平方距离具有计算优势. 对于一步惯性算法, 计算结果表明, 算法 (23) ($\phi_1(x)=\varphi_2(x)$ , $\phi_2(x)=\varphi_3(x)$ ) 求解二次分式规划问题的性能最好, 算法 (33) ($\phi_1(x)=\varphi_3(x)$ , $\phi_2(x)=\varphi_3(x)$ ) 的性能最差. 同样地, 对于两步惯性算法, 计算结果表明, 算法 (23) ($\phi_1(x)=\varphi_2(x)$ , $\phi_2(x)=\varphi_3(x)$ ) 求解二次分式规划问题的性能最好, 算法 (33) ($\phi_1(x)=\varphi_3(x)$ , $\phi_2(x)=\varphi_3(x)$ ) 的性能最差.
情形 2 随机选择矩阵 $M\in \mathbb R^{m\times m} $ 和向量 $a\in \mathbb R^{m}, b\in \mathbb R^{m}$ . 当 $m=5,20,50,100$ 时, 表4 给出了算法 1 在不同 Bregman 距离下的数值结果.
结果分析: 表4 中数值结果显示, 当矩阵 $M$ 的维数较低时, 算法(23) ($\phi_1(x)=\varphi_2(x)$ ,$\phi_2(x)=\varphi_3(x)$ ) 的数值结果最好. 当矩阵 $M$ 的维数略高时, 算法(12) ($\phi_1(x)=\varphi_1(x)$ , $\phi_2(x)=\varphi_2(x)$ ) 数值结果最好.
5 总结
针对非凸非光滑不可分优化问题, 本文基于邻近交替线性极小化算法, 结合惯性外推技术和 Bregman 距离提出了两步惯性 Bregman 邻近交替线性极小化算法. 在目标函数满足 Kurdyka-Łojasiewicz 不等式且参数满足合理条件的假设下, 构造适当的效益函数, 得到算法生成的序列全局收敛到稳定点. 最后, 对稀疏非负矩阵分解、稀疏信号恢复和二次分式规划问题进行了数值实验, 并选择适当的 Bregman 距离使稀疏信号恢复问题的子问题有显示表达式, 还应用不同的 Bregman 距离来求解二次分式规划问题. 数值结果表明了所提出算法的有效性.
参考文献
View Option
[1]
简金宝 , 林惠 , 马国栋 . 大规模非凸不可分优化问题的分裂序列二次规划算法
数学物理学报 , 2023 , 43A (4 ): 1284 -1296
[本文引用: 1]
Jian J b , Lin H , Ma G D . A Splitting sequence quadratic programming algorithm for the Large-Scale nonconvex nonseparable optimization problems
Acta Math sci , 2023 , 43A (4 ): 1284 -1296
[本文引用: 1]
[2]
刘富勤 , 彭建文 , 罗洪林 . 具有线性化技术的三块非凸不可分优化问题 Bregman ADMM 收敛性分析
数学物理学报 , 2023 , 43A (1 ): 291 -304
[本文引用: 1]
Liu F Q , Peng J W , Luo H L . Convergence analysis of Bregman ADMM for three-block nonconvex indivisible optimization problems with linearization technique
Acta Math Sci , 2023 , 43A (1 ): 291 -304
[本文引用: 1]
[3]
陈建华 , 彭建文 . 非凸多块优化的 Bregman ADMM 的收敛率研究
数学物理学报 , 2024 , 44A (1 ): 195 -208
[本文引用: 1]
Chen J H , Peng J W . Research on the convergence rate of Bregman ADMM for nonconvex multiblock optimization
Acta Math Sci , 2024 , 44A (1 ): 195 -208
[本文引用: 1]
[4]
Nikolova M , Ng M K , Zhang S Q , Ching W K . Efficient reconstruction of piecewise constant images using nonsmooth nonconvex minimization
SIAM J Imaging Sci , 2008 , 1 (1 ): 2 -25
[本文引用: 1]
[5]
Gu S H , Zhang L , Zuo W M , Feng X C . Weighted nuclear norm minimization with application to image denoising
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) , 2014 : 2862 -2869
[本文引用: 1]
[6]
Bian W , Chen X J . Linearly constrained non-Lipschitz optimization for image restoration
SIAM J Imaging Sci , 2015 , 8 (4 ): 2294 -2322
[本文引用: 1]
[7]
Bolte J , Sabach S , Teboulle M . Proximal alternating linearized minimization for nonconvex and nonsmooth problems
Math Program , 2014 , 146 (1 ): 459 -494
[本文引用: 3]
[8]
Bot R I , Csetnek E R , Vuong P T . The forward-backward-forward method from continuous and discrete perspective for pseudo-monotone variational inequalities in Hilbert spaces
Eur J Oper Res , 2020 , 287 (1 ): 49 -60
[本文引用: 2]
[9]
Attouch H , Bolte J , Svaiter B F . Convergence of descent methods for semi-algebraic and tame problems: proximal algorithms, forward-backward splitting, and regularized Guass-Seidel methods
Math Program , 2013 , 137 (1 ): 91 -129
[本文引用: 1]
[10]
Donoho D L . Compressed sensing
IEEE Trans Inform Theory , 2006 , 52 (4 ): 1289 -1306
[本文引用: 1]
[11]
Boyd S , Parikh N , Chu E , et al . Distributed optimization and statistical learning via the alternating direction method of multipliers
Foundations and Trends in Machine Learning , 2011 , 3 (1 ): 1 -122
[本文引用: 1]
[12]
Bertsekas D P , Tsitsiklis J N . Parallel and Distributed Computation: Numerical Methods
Englewood Cliffs, NJ: Prentice Hall , 1989
[本文引用: 2]
[13]
Bertsekas D P . Nonlinear programming
J Oper Res Soc , 1977 , 48 (3 ): 334 -334
[本文引用: 2]
[14]
Beck A , Tetruashvili L . On the convergence of block coordinate descent type methods
SIAM J Optim , 2013 , 23 (4 ): 2037 -2060
[本文引用: 2]
[15]
Auslender A . Asymptotic properties of the Fenchel dual functional and applications to decomposition problems
J Optim Theory Appl , 1992 , 73 (3 ): 427 -449
[本文引用: 1]
[16]
Attouch H , Bolte J , Redont P , Soubeyran A . Proximal alternating minimization and projection methods for nonconvex problems: an approach based on the Kurdyka-Łojasiewicz inequality
Math Oper Res , 2010 , 35 (2 ): 438 -457
[本文引用: 2]
[17]
Nikolova M , Tan P . Alternating structure-adapted proximal gradient descent for nonconvex block-regularised problems
SIAM J Optim , 2019 , 29 (3 ): 2053 -2078
[本文引用: 1]
[18]
Ochs P , Chen Y , Brox T , Pock T . iPiano: Inertial proximal algorithm for nonconvex optimization
SIAM J Imaging Sci , 2014 , 7 (2 ): 1388 -1419
[本文引用: 1]
[19]
Bot R I , Csetnek E R . An inertial Tseng's type proximal algorithm for nonsmooth and nonconvex optimization problems
J Optim Theory Appl , 2016 , 171 (2 ): 600 -616
[本文引用: 1]
[20]
Polyak B T . Some methods of speeding up the convergence of iteration methods
USSR Comput Math Math Phys , 1964 , 4 (5 ): 1 -17
[本文引用: 2]
[21]
Le T K H , Nicolas G , Panagiotis P . Inertial block proximal methods for non-convex non-smooth optimization
Proceedings of the 37th International Conference on Machine Learning, PMLR , 2020 , 119 : 5671 -5681
[本文引用: 1]
[22]
Feng J K , Zhang H B , Zhang K L , Zhao P F . An inertial Douglas-Rachford splitting algorithm for nonconvex and nonsmooth problems
Concurrency and Computation Practice and Experience , 2023 , 35 (17 ): e6343
[本文引用: 1]
[23]
Zhang Y X , He S N . Inertial proximal alternating minimization for nonconvex and nonsmooth problems
J Inequal Appl , 2017 , 2017 : 1 -13
[本文引用: 1]
[24]
Pock T , Sabach S . Inertial proximal alternating linearized minimization (iPALM) for nonconvex and nonsmooth problems
SIAM J Imaging Sci , 2017 , 9 (4 ): 1756 -1787
[本文引用: 1]
[25]
Gao X , Cai X J , Han D R . A Gauss-Seidel type inertial proximal alternating linearized minimization for a class of nonconvex optimization problems
J Glob Optim , 2020 , 76 : 863 -887
[本文引用: 1]
[26]
Wang Q X , Han D R . A generalized inertial proximal alternating linearized minimization method for nonconvex nonsmooth problems
Appl Numer Math , 2023 , 189 : 66 -87
[本文引用: 1]
[27]
Yang X , Xu L L . Some accelerated alternating proximal gradient algorithms for a class of nonconvex nonsmooth problems
J Glob Optim , 2023 , 87 (2 ): 939 -964
[本文引用: 1]
[28]
Zhao J , Dong Q L , Michael Th R , Wang F H . Two-step inertial Bregman alternating minimization algorithm for nonconvex and nonsmooth problems
J Glob Optim , 2022 , 84 (4 ): 941 -966
[本文引用: 3]
[29]
Chao M T , Nong F F , Zhao M Y . An inertial alternating minimization with Bregman distance for a class of nonconvex and nonsmooth problems
J Appl Math Comput , 2023 , 69 (2 ): 1559 -1581
[本文引用: 1]
[30]
Mordukhovich B . Variational Analysis and Generalized Differentiation. I: Basic Theory
Berlin: Springer-Verlag , 2006
[本文引用: 1]
[31]
Bolte J , Daniilidis A , Lewis A . The Łojasiewicz inequality for nonsmooth subanalytic functions with applications to subgradient dynamical systems
SIAM J Optim , 2006 , 17 (4 ): 1205 -1223
[本文引用: 1]
[32]
Rockafellar R T , Wets R . Variational Analysis . Berlin : Springer, 1998
[本文引用: 2]
[33]
Wang F H , Cao W F , Xu Z B . Convergence of multi-block Bregman ADMM for nonconvex composite problems
Sci China Inf Sci , 2018 , 61 : 122101
[本文引用: 1]
[34]
Xu Y , Yin W . A block coordinate descent method for regularized multiconvex optimization with applications to nonnegative tensor factorization and completion
SIAM J Imaging Sci , 2013 , 6 (3 ): 1758 -1789
[本文引用: 1]
[35]
Hsieh Y P , Kao Y C , Mahabadi R K , et al . A non-Euclidean gradient descent framework for nonconvex matrix factorization
IEEE Trans Signal Process , 2018 , 66 (22 ): 5917 -5926
[本文引用: 1]
[36]
Lee D D , Seung H S . Learning the parts of objects by non-negative matrix factorization
Nature , 1999 , 401 (6755 ): 788 -791
[本文引用: 1]
[37]
Pan J , Gillis N . Generalized separable nonnegative matrix factorization
IEEE Trans Pattern Anal Mach Intell , 2021 , 43 (5 ): 1546 -1561
[本文引用: 1]
[38]
Rousset F , Peyrin F , Ducros N . A semi nonnegative matrix factorization technique for pattern generalization in single-pixel imaging
IEEE Trans Comput Imaging , 2018 , 4 (2 ): 284 -294
[本文引用: 1]
[39]
Peharz R , Pernkopf F . Sparse nonnegative matrix factorization with $l_0$ - constraints
Neurocomputing , 2012 , 80 : 38 -46
PMID:22505792
[本文引用: 1]
Although nonnegative matrix factorization (NMF) favors a sparse and part-based representation of nonnegative data, there is no guarantee for this behavior. Several authors proposed NMF methods which enforce sparseness by constraining or penalizing the [Formula: see text] of the factor matrices. On the other hand, little work has been done using a more natural sparseness measure, the [Formula: see text]. In this paper, we propose a framework for approximate NMF which constrains the [Formula: see text] of the basis matrix, or the coefficient matrix, respectively. For this purpose, techniques for unconstrained NMF can be easily incorporated, such as multiplicative update rules, or the alternating nonnegative least-squares scheme. In experiments we demonstrate the benefits of our methods, which compare to, or outperform existing approaches.
[40]
Xu Z B , Chang X Y , Xu F M , Zhang H . $L_{1/2}$ regularization: a thresholding representation theory and a fast solver
IEEE Trans Neural Netw Learning Syst , 2012 , 23 (7 ): 1013 -1027
[本文引用: 1]
大规模非凸不可分优化问题的分裂序列二次规划算法
1
2023
... 由于非凸函数比凸函数通常能够更好地近似原问题, 所以大量问题需对非凸目标函数或非凸约束条件进行优化决策. 近年来, 非凸非光滑优化问题受到众多学者的广泛关注与研究[1 ⇓ -3 ] , 并提出了一些有效和稳定的算法. 在本文中, 我们考虑解决如下非凸非光滑不可分优化问题 ...
大规模非凸不可分优化问题的分裂序列二次规划算法
1
2023
... 由于非凸函数比凸函数通常能够更好地近似原问题, 所以大量问题需对非凸目标函数或非凸约束条件进行优化决策. 近年来, 非凸非光滑优化问题受到众多学者的广泛关注与研究[1 ⇓ -3 ] , 并提出了一些有效和稳定的算法. 在本文中, 我们考虑解决如下非凸非光滑不可分优化问题 ...
具有线性化技术的三块非凸不可分优化问题 Bregman ADMM 收敛性分析
1
2023
... 由于非凸函数比凸函数通常能够更好地近似原问题, 所以大量问题需对非凸目标函数或非凸约束条件进行优化决策. 近年来, 非凸非光滑优化问题受到众多学者的广泛关注与研究[1 ⇓ -3 ] , 并提出了一些有效和稳定的算法. 在本文中, 我们考虑解决如下非凸非光滑不可分优化问题 ...
具有线性化技术的三块非凸不可分优化问题 Bregman ADMM 收敛性分析
1
2023
... 由于非凸函数比凸函数通常能够更好地近似原问题, 所以大量问题需对非凸目标函数或非凸约束条件进行优化决策. 近年来, 非凸非光滑优化问题受到众多学者的广泛关注与研究[1 ⇓ -3 ] , 并提出了一些有效和稳定的算法. 在本文中, 我们考虑解决如下非凸非光滑不可分优化问题 ...
非凸多块优化的 Bregman ADMM 的收敛率研究
1
2024
... 由于非凸函数比凸函数通常能够更好地近似原问题, 所以大量问题需对非凸目标函数或非凸约束条件进行优化决策. 近年来, 非凸非光滑优化问题受到众多学者的广泛关注与研究[1 ⇓ -3 ] , 并提出了一些有效和稳定的算法. 在本文中, 我们考虑解决如下非凸非光滑不可分优化问题 ...
非凸多块优化的 Bregman ADMM 的收敛率研究
1
2024
... 由于非凸函数比凸函数通常能够更好地近似原问题, 所以大量问题需对非凸目标函数或非凸约束条件进行优化决策. 近年来, 非凸非光滑优化问题受到众多学者的广泛关注与研究[1 ⇓ -3 ] , 并提出了一些有效和稳定的算法. 在本文中, 我们考虑解决如下非凸非光滑不可分优化问题 ...
Efficient reconstruction of piecewise constant images using nonsmooth nonconvex minimization
1
2008
... 其中 $f:\mathbb{R}^l\rightarrow {(-\infty,+\infty]}$ , $g:\mathbb{R}^m\rightarrow {(-\infty,+\infty]}$ 是正常下半连续函数, $Q(x,y):\mathbb{R}^l\times \mathbb{R}^m \rightarrow \mathbb{R}$ 连续可微且 $\nabla Q$ 在有界集上 Lipschitz 连续. 注意到目标函数都没有凸性的假设. 许多应用问题可以被建模为问题 (1.1), 例如, 信号与图像处理[4 ⇓ -6 ] 、矩阵分解[7 ] 、二次分式规划[8 ] 、 压缩感知[9 ,10 ] 、应用统计和机器学习[11 ] 等. ...
Weighted nuclear norm minimization with application to image denoising
1
2014
... 其中 $f:\mathbb{R}^l\rightarrow {(-\infty,+\infty]}$ , $g:\mathbb{R}^m\rightarrow {(-\infty,+\infty]}$ 是正常下半连续函数, $Q(x,y):\mathbb{R}^l\times \mathbb{R}^m \rightarrow \mathbb{R}$ 连续可微且 $\nabla Q$ 在有界集上 Lipschitz 连续. 注意到目标函数都没有凸性的假设. 许多应用问题可以被建模为问题 (1.1), 例如, 信号与图像处理[4 ⇓ -6 ] 、矩阵分解[7 ] 、二次分式规划[8 ] 、 压缩感知[9 ,10 ] 、应用统计和机器学习[11 ] 等. ...
Linearly constrained non-Lipschitz optimization for image restoration
1
2015
... 其中 $f:\mathbb{R}^l\rightarrow {(-\infty,+\infty]}$ , $g:\mathbb{R}^m\rightarrow {(-\infty,+\infty]}$ 是正常下半连续函数, $Q(x,y):\mathbb{R}^l\times \mathbb{R}^m \rightarrow \mathbb{R}$ 连续可微且 $\nabla Q$ 在有界集上 Lipschitz 连续. 注意到目标函数都没有凸性的假设. 许多应用问题可以被建模为问题 (1.1), 例如, 信号与图像处理[4 ⇓ -6 ] 、矩阵分解[7 ] 、二次分式规划[8 ] 、 压缩感知[9 ,10 ] 、应用统计和机器学习[11 ] 等. ...
Proximal alternating linearized minimization for nonconvex and nonsmooth problems
3
2014
... 其中 $f:\mathbb{R}^l\rightarrow {(-\infty,+\infty]}$ , $g:\mathbb{R}^m\rightarrow {(-\infty,+\infty]}$ 是正常下半连续函数, $Q(x,y):\mathbb{R}^l\times \mathbb{R}^m \rightarrow \mathbb{R}$ 连续可微且 $\nabla Q$ 在有界集上 Lipschitz 连续. 注意到目标函数都没有凸性的假设. 许多应用问题可以被建模为问题 (1.1), 例如, 信号与图像处理[4 ⇓ -6 ] 、矩阵分解[7 ] 、二次分式规划[8 ] 、 压缩感知[9 ,10 ] 、应用统计和机器学习[11 ] 等. ...
... 因为邻近交替极小化算法在每次迭代时都需要得到精确解, 所以 (1.3) 式中的子问题可能很难解决. 线性化技术是克服子问题没有解析解的有效方法之一. Bolte 等[7 ] 受邻近向前向后分裂算法的启发, 在耦合项 $Q(x, y)$ 连续可微的条件下对 (1.3) 式中的每个子问题进行线性化, 提出了邻近交替线性极小化算法 (PALM) 求解问题 (1.1). 具体来说, 对于 $x$ 子问题, 在 $x_k$ 处线性化函数 $Q(x,y_{k})$ , 对于 $y$ 子问题, 在 $y_k$ 处线性化函数 $Q(x_{k+1},y)$ , 提出了如下的 PALM ...
... 如果 $f$ 或 $g$ 的邻近算子有封闭的形式, 则 (1.4)式的子问题易于求解. 文献 [7 ] 证明了由 PALM 生成的每个有界序列全局收敛到稳定点. 当 $f$ 和 $g$ 连续可微时, 一个自然的想法是线性化 $f$ 和 $g$ . Nikolova 等在文献 [17 ] 中提出了相应的算法, 称为交替结构自适应的邻近梯度下降 (ASAP) 法. 利用 Kurdyka-Łojasiewicz 性质, 他们建立了由所提算法生成的整个序列的收敛性. ...
The forward-backward-forward method from continuous and discrete perspective for pseudo-monotone variational inequalities in Hilbert spaces
2
2020
... 其中 $f:\mathbb{R}^l\rightarrow {(-\infty,+\infty]}$ , $g:\mathbb{R}^m\rightarrow {(-\infty,+\infty]}$ 是正常下半连续函数, $Q(x,y):\mathbb{R}^l\times \mathbb{R}^m \rightarrow \mathbb{R}$ 连续可微且 $\nabla Q$ 在有界集上 Lipschitz 连续. 注意到目标函数都没有凸性的假设. 许多应用问题可以被建模为问题 (1.1), 例如, 信号与图像处理[4 ⇓ -6 ] 、矩阵分解[7 ] 、二次分式规划[8 ] 、 压缩感知[9 ,10 ] 、应用统计和机器学习[11 ] 等. ...
... 其中 $C=\left \{ x\in \mathbb{R}^m :1\le x_{i}\le 3,i=1,2,\cdots,m \right \} $ , $M:\mathbb{R}^m\to \mathbb{R}^m$ 是有界线性算子, $a\in \mathbb{R}^m$ , $b\in \mathbb{R}^m$ , $c=-2$ 且 $d=20$ . 由文献 [8 ] 知 $f$ 在开集 $E=\left \{ x\in \mathbb R^{m} :b^{T}x+d >0 \right \}$ 上是伪凸的. 如果 $C\subseteq E$ , 那么 $f$ 是非凸的. ...
Convergence of descent methods for semi-algebraic and tame problems: proximal algorithms, forward-backward splitting, and regularized Guass-Seidel methods
1
2013
... 其中 $f:\mathbb{R}^l\rightarrow {(-\infty,+\infty]}$ , $g:\mathbb{R}^m\rightarrow {(-\infty,+\infty]}$ 是正常下半连续函数, $Q(x,y):\mathbb{R}^l\times \mathbb{R}^m \rightarrow \mathbb{R}$ 连续可微且 $\nabla Q$ 在有界集上 Lipschitz 连续. 注意到目标函数都没有凸性的假设. 许多应用问题可以被建模为问题 (1.1), 例如, 信号与图像处理[4 ⇓ -6 ] 、矩阵分解[7 ] 、二次分式规划[8 ] 、 压缩感知[9 ,10 ] 、应用统计和机器学习[11 ] 等. ...
Compressed sensing
1
2006
... 其中 $f:\mathbb{R}^l\rightarrow {(-\infty,+\infty]}$ , $g:\mathbb{R}^m\rightarrow {(-\infty,+\infty]}$ 是正常下半连续函数, $Q(x,y):\mathbb{R}^l\times \mathbb{R}^m \rightarrow \mathbb{R}$ 连续可微且 $\nabla Q$ 在有界集上 Lipschitz 连续. 注意到目标函数都没有凸性的假设. 许多应用问题可以被建模为问题 (1.1), 例如, 信号与图像处理[4 ⇓ -6 ] 、矩阵分解[7 ] 、二次分式规划[8 ] 、 压缩感知[9 ,10 ] 、应用统计和机器学习[11 ] 等. ...
Distributed optimization and statistical learning via the alternating direction method of multipliers
1
2011
... 其中 $f:\mathbb{R}^l\rightarrow {(-\infty,+\infty]}$ , $g:\mathbb{R}^m\rightarrow {(-\infty,+\infty]}$ 是正常下半连续函数, $Q(x,y):\mathbb{R}^l\times \mathbb{R}^m \rightarrow \mathbb{R}$ 连续可微且 $\nabla Q$ 在有界集上 Lipschitz 连续. 注意到目标函数都没有凸性的假设. 许多应用问题可以被建模为问题 (1.1), 例如, 信号与图像处理[4 ⇓ -6 ] 、矩阵分解[7 ] 、二次分式规划[8 ] 、 压缩感知[9 ,10 ] 、应用统计和机器学习[11 ] 等. ...
Parallel and Distributed Computation: Numerical Methods
2
1989
... 在一些文献中, 交替极小化算法也被称为 Gauss-Seidel 法或块坐标下降法. 在文献 [12 ⇓ -14 ] 中, 针对目标函数具有凸性的情况下研究交替极小化算法. 当 $L(x, y)$ 为连续可微凸函数, 且 $L$ 关于变量 $x$ 或 $y$ 严格凸时, 由该算法产生的序列 $\left \{ \left ( x_{k},y_{k} \right ) \right \} $ 的每一个极限点都是 $L$ 的极小值点[12 ⇓ -14 ] . 为了提高算法的收敛速度、减弱算法的收敛条件, 文献 [15 ] 通过引入邻近项来去掉严格凸性的假设, 提出了如下邻近交替极小化算法 (PAM) ...
... [12 ⇓ -14 ]. 为了提高算法的收敛速度、减弱算法的收敛条件, 文献 [15 ] 通过引入邻近项来去掉严格凸性的假设, 提出了如下邻近交替极小化算法 (PAM) ...
Nonlinear programming
2
1977
... 在一些文献中, 交替极小化算法也被称为 Gauss-Seidel 法或块坐标下降法. 在文献 [12 ⇓ -14 ] 中, 针对目标函数具有凸性的情况下研究交替极小化算法. 当 $L(x, y)$ 为连续可微凸函数, 且 $L$ 关于变量 $x$ 或 $y$ 严格凸时, 由该算法产生的序列 $\left \{ \left ( x_{k},y_{k} \right ) \right \} $ 的每一个极限点都是 $L$ 的极小值点[12 ⇓ -14 ] . 为了提高算法的收敛速度、减弱算法的收敛条件, 文献 [15 ] 通过引入邻近项来去掉严格凸性的假设, 提出了如下邻近交替极小化算法 (PAM) ...
... ⇓ -14 ]. 为了提高算法的收敛速度、减弱算法的收敛条件, 文献 [15 ] 通过引入邻近项来去掉严格凸性的假设, 提出了如下邻近交替极小化算法 (PAM) ...
On the convergence of block coordinate descent type methods
2
2013
... 在一些文献中, 交替极小化算法也被称为 Gauss-Seidel 法或块坐标下降法. 在文献 [12 ⇓ -14 ] 中, 针对目标函数具有凸性的情况下研究交替极小化算法. 当 $L(x, y)$ 为连续可微凸函数, 且 $L$ 关于变量 $x$ 或 $y$ 严格凸时, 由该算法产生的序列 $\left \{ \left ( x_{k},y_{k} \right ) \right \} $ 的每一个极限点都是 $L$ 的极小值点[12 ⇓ -14 ] . 为了提高算法的收敛速度、减弱算法的收敛条件, 文献 [15 ] 通过引入邻近项来去掉严格凸性的假设, 提出了如下邻近交替极小化算法 (PAM) ...
... -14 ]. 为了提高算法的收敛速度、减弱算法的收敛条件, 文献 [15 ] 通过引入邻近项来去掉严格凸性的假设, 提出了如下邻近交替极小化算法 (PAM) ...
Asymptotic properties of the Fenchel dual functional and applications to decomposition problems
1
1992
... 在一些文献中, 交替极小化算法也被称为 Gauss-Seidel 法或块坐标下降法. 在文献 [12 ⇓ -14 ] 中, 针对目标函数具有凸性的情况下研究交替极小化算法. 当 $L(x, y)$ 为连续可微凸函数, 且 $L$ 关于变量 $x$ 或 $y$ 严格凸时, 由该算法产生的序列 $\left \{ \left ( x_{k},y_{k} \right ) \right \} $ 的每一个极限点都是 $L$ 的极小值点[12 ⇓ -14 ] . 为了提高算法的收敛速度、减弱算法的收敛条件, 文献 [15 ] 通过引入邻近项来去掉严格凸性的假设, 提出了如下邻近交替极小化算法 (PAM) ...
Proximal alternating minimization and projection methods for nonconvex problems: an approach based on the Kurdyka-?ojasiewicz inequality
2
2010
... 其中 $\lambda_k>0$ , $\mu_k>0$ . Attouch 等在文献 [16 ] 中应用 (1.3) 式求解非凸非光滑不可分优化问题 (1.1), 并证明了由 PAM (1.3) 生成的序列收敛到稳定点. ...
... 在应用中很多目标函数具有 KŁ 性质, 典型的函数包括强凸函数、实解析函数、半代数函数[16 ] 、 次解析函数[33 ] 和对数--指数函数. 我们注意到当 $0 < q< 1$ 时, $L_q$ 上的拟范数 $\|x\|_q:= (\Sigma_i|x_i|^q)^{1/q}$ , 无穷范数 $\|x\|_\infty:= \max_i|x_i|$ , 以及关于 $x$ 的函数 $\|Ax-b\|_q^q$ 和 $\|Ax-b\|_\infty$ 都是半代数函数, 所以它们都满足 Kurdyka-Łojasiewicz 性质. ...
Alternating structure-adapted proximal gradient descent for nonconvex block-regularised problems
1
2019
... 如果 $f$ 或 $g$ 的邻近算子有封闭的形式, 则 (1.4)式的子问题易于求解. 文献 [7 ] 证明了由 PALM 生成的每个有界序列全局收敛到稳定点. 当 $f$ 和 $g$ 连续可微时, 一个自然的想法是线性化 $f$ 和 $g$ . Nikolova 等在文献 [17 ] 中提出了相应的算法, 称为交替结构自适应的邻近梯度下降 (ASAP) 法. 利用 Kurdyka-Łojasiewicz 性质, 他们建立了由所提算法生成的整个序列的收敛性. ...
iPiano: Inertial proximal algorithm for nonconvex optimization
1
2014
... 惯性外推源于二阶动力系统的重力球方法[18 ] , 此技术在每次迭代的计算量基本不变, 在计算下一步时用到前两步或多步的信息. 惯性外推技术能有效地改进算法的数值表现 (特别是一阶算法), 所以这种方法被广泛应用于加速凸优化和非凸优化的迭代算法[19 ,20 ] . ...
An inertial Tseng's type proximal algorithm for nonsmooth and nonconvex optimization problems
1
2016
... 惯性外推源于二阶动力系统的重力球方法[18 ] , 此技术在每次迭代的计算量基本不变, 在计算下一步时用到前两步或多步的信息. 惯性外推技术能有效地改进算法的数值表现 (特别是一阶算法), 所以这种方法被广泛应用于加速凸优化和非凸优化的迭代算法[19 ,20 ] . ...
Some methods of speeding up the convergence of iteration methods
2
1964
... 惯性外推源于二阶动力系统的重力球方法[18 ] , 此技术在每次迭代的计算量基本不变, 在计算下一步时用到前两步或多步的信息. 惯性外推技术能有效地改进算法的数值表现 (特别是一阶算法), 所以这种方法被广泛应用于加速凸优化和非凸优化的迭代算法[19 ,20 ] . ...
... 引理 2.1 (下降引理)[20 ] 设 $f: \mathbb{R}^{d}\rightarrow \mathbb{R}$ 是一个连续可微函数, 假设梯度 $\nabla f$ 为 $L_{f}$ - Lipschitz 连续的. 那么 ...
Inertial block proximal methods for non-convex non-smooth optimization
1
2020
... 近年来, 很多学者关注并提出多种惯性算法, 如 Le 等在文献 [21 ] 中提出了求解非凸非光滑优化问题的块坐标下降惯性算法. Feng 等在文献 [22 ] 中针对非凸非光滑优化问题提出了惯性 Douglas-Rachford 分裂算法, 并将惯性外推技术纳入了 Douglas-Rachford 分裂算法的框架中. 特别地, 为了解决问题 (1.1), Zhang 和 He[23 ] 提出了惯性邻近交替极小化方法, Pock 和 Sabach[24 ] 结合线性化技术提出了如下惯性邻近交替线性极小化 (iPALM) 算法 ...
An inertial Douglas-Rachford splitting algorithm for nonconvex and nonsmooth problems
1
2023
... 近年来, 很多学者关注并提出多种惯性算法, 如 Le 等在文献 [21 ] 中提出了求解非凸非光滑优化问题的块坐标下降惯性算法. Feng 等在文献 [22 ] 中针对非凸非光滑优化问题提出了惯性 Douglas-Rachford 分裂算法, 并将惯性外推技术纳入了 Douglas-Rachford 分裂算法的框架中. 特别地, 为了解决问题 (1.1), Zhang 和 He[23 ] 提出了惯性邻近交替极小化方法, Pock 和 Sabach[24 ] 结合线性化技术提出了如下惯性邻近交替线性极小化 (iPALM) 算法 ...
Inertial proximal alternating minimization for nonconvex and nonsmooth problems
1
2017
... 近年来, 很多学者关注并提出多种惯性算法, 如 Le 等在文献 [21 ] 中提出了求解非凸非光滑优化问题的块坐标下降惯性算法. Feng 等在文献 [22 ] 中针对非凸非光滑优化问题提出了惯性 Douglas-Rachford 分裂算法, 并将惯性外推技术纳入了 Douglas-Rachford 分裂算法的框架中. 特别地, 为了解决问题 (1.1), Zhang 和 He[23 ] 提出了惯性邻近交替极小化方法, Pock 和 Sabach[24 ] 结合线性化技术提出了如下惯性邻近交替线性极小化 (iPALM) 算法 ...
Inertial proximal alternating linearized minimization (iPALM) for nonconvex and nonsmooth problems
1
2017
... 近年来, 很多学者关注并提出多种惯性算法, 如 Le 等在文献 [21 ] 中提出了求解非凸非光滑优化问题的块坐标下降惯性算法. Feng 等在文献 [22 ] 中针对非凸非光滑优化问题提出了惯性 Douglas-Rachford 分裂算法, 并将惯性外推技术纳入了 Douglas-Rachford 分裂算法的框架中. 特别地, 为了解决问题 (1.1), Zhang 和 He[23 ] 提出了惯性邻近交替极小化方法, Pock 和 Sabach[24 ] 结合线性化技术提出了如下惯性邻近交替线性极小化 (iPALM) 算法 ...
A Gauss-Seidel type inertial proximal alternating linearized minimization for a class of nonconvex optimization problems
1
2020
... 其中 $\alpha _{1k},\alpha _{2k},\beta _{1k},\beta _{2k}\in \left [ 0,1 \right ] $ . 当目标函数满足 Kurdyka-Łojasiewicz 性质时, 他们证明由该算法生成的序列全局收敛到稳定点. 当 $\alpha _{1k}=\alpha _{2k}=\beta _{1k}=\beta _{2k}=0$ 时, 惯性邻近交替线性极小化算法 (iPALM) 为 PALM. Cai 等[25 ] 提出如下的 Gauss-Seidel 型惯性邻近交替线性极小化算法 (GiPALM) ...
A generalized inertial proximal alternating linearized minimization method for nonconvex nonsmooth problems
1
2023
... 为了尽可能地利用现有的信息, Wang 等[26 ] 提出了另一种惯性邻近交替线性极小化 (NiPALM) 算法, 该算法结合了 iPALM 和 GiPALM. 当 $f$ , $g$ 连续可微时, Yang 等[27 ] 基于交替结构自适应的邻近梯度下降法 (ASAP), 利用惯性外推技术提出了加速交替结构自适应的邻近梯度下降算法 (aASAP). ...
Some accelerated alternating proximal gradient algorithms for a class of nonconvex nonsmooth problems
1
2023
... 为了尽可能地利用现有的信息, Wang 等[26 ] 提出了另一种惯性邻近交替线性极小化 (NiPALM) 算法, 该算法结合了 iPALM 和 GiPALM. 当 $f$ , $g$ 连续可微时, Yang 等[27 ] 基于交替结构自适应的邻近梯度下降法 (ASAP), 利用惯性外推技术提出了加速交替结构自适应的邻近梯度下降算法 (aASAP). ...
Two-step inertial Bregman alternating minimization algorithm for nonconvex and nonsmooth problems
3
2022
... Bregman 距离作为 2 范数平方距离的推广, 在使用时具有更大的灵活性, 生成函数不局限于 2 范数平方. 虽然 Bregman 距离不是真正的距离, 但采用 Bregman 距离正则化使得算法的适用性更广. 有时选择适当的 Bregman 距离可以得到子问题的显示解, 提高算法的收敛速度, 因此很多算法采用 Bregman 距离正则化来提高数值效果. 在文献 [28 ] 中, 针对问题 (1.1), 作者利用前三步迭代信息提出了如下两步惯性 Bregman 交替极小化算法 (TiBAM) ...
... 下面给出一个框架性收敛结果[28 ] , 可应用于分析本文提出算法的收敛性. ...
... 引理 2.2 [28 ] 设 $F: \mathbb{R}^{3p}\rightarrow {(-\infty,+\infty]}$ 是正常下半连续函数, 并且序列 $\{u_k\}_{k\in \mathbb{N}}= \{(z_k, z_{k-1},z_{k-2})\}_{k\in \mathbb{N}}$ 满足假设 2.1, 也就是条件 (H1), (H2) 和 (H3). 假设 $F$ 在 (H3) 中的聚点 $\widetilde{u} $ 处有 KŁ 性质, 则序列 $\{z_k\}_{k\in \mathbb{N}}$ 具有有限的长度, 即 $\sum\limits_{k=0}^{\infty}\|z_{k+1}-z_k\|_2<+\infty$ . 而且, 当 $k \rightarrow\infty$ 时, 序列 $\{z_k\}_{k\in \mathbb{N}}$ 收敛于 $\widetilde{z}$ , 其中 $\widetilde{u}=(\widetilde{z}, \widetilde{z}, \widetilde{z})$ 是 $F$ 的稳定点. ...
An inertial alternating minimization with Bregman distance for a class of nonconvex and nonsmooth problems
1
2023
... 其中 $D_{\phi_i}(i=1,2)$ 是函数 $\phi_i(i=1,2)$ 生成的 Bregman 距离. 在效益函数满足 Kurdyka-Łojasiewicz 性质的条件下, 证明了算法的全局收敛性. 基于交替极小化算法, Chao 等[29 ] 提出了如下惯性 Bregman 交替极小化算法 (BIAM) 求解问题(1.1) ...
Variational Analysis and Generalized Differentiation. I: Basic Theory
1
2006
... 给定一个函数 $f: \mathbb{R}^d \rightarrow(-\infty,+\infty]$ , $f$ 的有效域和上方图分别定义为 dom$f:=\{x\in \mathbb{R}^d: f(x)<+\infty\}$ 和 epi$f:=\{(x,\alpha )\in \mathbb{R}^d\times \mathbb{R}: f(x)\le \alpha \}$ . 如果 dom$f\neq \emptyset$ , 则称 $f$ 是正常的; 如果 epi$f$ 是闭的, 则 $f$ 在 $x$ 处下半连续. 下面给出本文所需要的一些基本概念和基本性质[30 ,31 ] . ...
The ?ojasiewicz inequality for nonsmooth subanalytic functions with applications to subgradient dynamical systems
1
2006
... 给定一个函数 $f: \mathbb{R}^d \rightarrow(-\infty,+\infty]$ , $f$ 的有效域和上方图分别定义为 dom$f:=\{x\in \mathbb{R}^d: f(x)<+\infty\}$ 和 epi$f:=\{(x,\alpha )\in \mathbb{R}^d\times \mathbb{R}: f(x)\le \alpha \}$ . 如果 dom$f\neq \emptyset$ , 则称 $f$ 是正常的; 如果 epi$f$ 是闭的, 则 $f$ 在 $x$ 处下半连续. 下面给出本文所需要的一些基本概念和基本性质[30 ,31 ] . ...
2
1998
... 为 $f$ 在 $x\in$ dom $f$ 处的极限次微分[32 ] , 记作 $\partial f(x)$ . ...
... (a) 对于 $\forall x\in \mathbb{R}^d$ , 有 $\hat{\partial}f(x)\subseteq \partial f(x)$ , 其中 $\hat{\partial}f(x)$ 是闭凸的, $\partial f(x)$ 仅是闭集[32 ] . ...
Convergence of multi-block Bregman ADMM for nonconvex composite problems
1
2018
... 在应用中很多目标函数具有 KŁ 性质, 典型的函数包括强凸函数、实解析函数、半代数函数[16 ] 、 次解析函数[33 ] 和对数--指数函数. 我们注意到当 $0 < q< 1$ 时, $L_q$ 上的拟范数 $\|x\|_q:= (\Sigma_i|x_i|^q)^{1/q}$ , 无穷范数 $\|x\|_\infty:= \max_i|x_i|$ , 以及关于 $x$ 的函数 $\|Ax-b\|_q^q$ 和 $\|Ax-b\|_\infty$ 都是半代数函数, 所以它们都满足 Kurdyka-Łojasiewicz 性质. ...
A block coordinate descent method for regularized multiconvex optimization with applications to nonnegative tensor factorization and completion
1
2013
... 已知实解析函数和半代数函数都是次解析的. 一般来说, 两个次解析函数的和不一定是次解析的. 然而, 对于两个次解析函数, 如果至少有一个函数将有界集映射到有界集, 那么它们的和也是次解析的, 见文献 [34 ]. 特别地, 次解析函数与解析函数的和函数是次解析的. 典型的次解析函数包括 $\|Ax-b\|^2_2+\lambda\|y\|_q^q$ , $\|Ax-b\|_2^2+\lambda\Sigma_i(y_i^2 +\varepsilon)^{q/2}$ 等. ...
A non-Euclidean gradient descent framework for nonconvex matrix factorization
1
2018
... 若 $\phi(x)=\frac{1}{2}\|x\|^2$ , 则 $D_\phi(x,y)=\frac{1}{2}\|x-y\|^2$ . 此外, 对于 $d$ 阶正定矩阵 $M$ , 令 $\|x\|_M:=\sqrt{\langle x,Mx\rangle}$ , 并取 $\phi(x)=\|x\|_M^2$ , 则 $D_\phi(x,y)=\|x-y\|_M^2$ , 见文献 [35 ]. 特别地, 如果 $M$ 是单位矩阵, 那么 $D_\phi(x,y)$ 为欧几里得平方距离. ...
Learning the parts of objects by non-negative matrix factorization
1
1999
... 例 4.1 稀疏非负矩阵分解问题. 给定一个矩阵 $A$ , 非负矩阵分解 (NMF)[36 ⇓ -38 ] 的目标是将数据库 $A$ 分解成若干个稀疏基, 这样每个数据库都可以通过使用少量部分来近似. 即寻找一个分解 $A \approx XY$ , 其中 $X \in \mathbb{R} ^{ n\times r}$ , $Y \in \mathbb{R} ^{r\times d}$ 是非负的且 $X$ 是稀疏的. 为了刻画稀疏性, 此处使用 $l_0$ 稀疏约束[39 ] . 因此, 稀疏非负矩阵分解问题可以表示为如下模型 ...
Generalized separable nonnegative matrix factorization
1
2021
... 例 4.1 稀疏非负矩阵分解问题. 给定一个矩阵 $A$ , 非负矩阵分解 (NMF)[36 ⇓ -38 ] 的目标是将数据库 $A$ 分解成若干个稀疏基, 这样每个数据库都可以通过使用少量部分来近似. 即寻找一个分解 $A \approx XY$ , 其中 $X \in \mathbb{R} ^{ n\times r}$ , $Y \in \mathbb{R} ^{r\times d}$ 是非负的且 $X$ 是稀疏的. 为了刻画稀疏性, 此处使用 $l_0$ 稀疏约束[39 ] . 因此, 稀疏非负矩阵分解问题可以表示为如下模型 ...
A semi nonnegative matrix factorization technique for pattern generalization in single-pixel imaging
1
2018
... 例 4.1 稀疏非负矩阵分解问题. 给定一个矩阵 $A$ , 非负矩阵分解 (NMF)[36 ⇓ -38 ] 的目标是将数据库 $A$ 分解成若干个稀疏基, 这样每个数据库都可以通过使用少量部分来近似. 即寻找一个分解 $A \approx XY$ , 其中 $X \in \mathbb{R} ^{ n\times r}$ , $Y \in \mathbb{R} ^{r\times d}$ 是非负的且 $X$ 是稀疏的. 为了刻画稀疏性, 此处使用 $l_0$ 稀疏约束[39 ] . 因此, 稀疏非负矩阵分解问题可以表示为如下模型 ...
Sparse nonnegative matrix factorization with $l_0$ -constraints
1
2012
... 例 4.1 稀疏非负矩阵分解问题. 给定一个矩阵 $A$ , 非负矩阵分解 (NMF)[36 ⇓ -38 ] 的目标是将数据库 $A$ 分解成若干个稀疏基, 这样每个数据库都可以通过使用少量部分来近似. 即寻找一个分解 $A \approx XY$ , 其中 $X \in \mathbb{R} ^{ n\times r}$ , $Y \in \mathbb{R} ^{r\times d}$ 是非负的且 $X$ 是稀疏的. 为了刻画稀疏性, 此处使用 $l_0$ 稀疏约束[39 ] . 因此, 稀疏非负矩阵分解问题可以表示为如下模型 ...
$L_{1/2}$ regularization: a thresholding representation theory and a fast solver
1
2012
... 对于任何 $\kappa >0$ , $\mathcal{H}(\cdot,\kappa )$ 称为半收缩算子[40 ] , 定义如下 ...