非凸非光滑优化问题的两步惯性 Bregman 邻近交替线性极小化算法

图1 ORL 人脸数据库, 其中包括在稀疏非负矩阵分解问题中使用的 400 张标准化裁剪的正面人脸

取实验参数 $\lambda=0.5$ . 在算法1 中, 令 $\phi_1(X)=\frac{\mu_1 }{2} \left \| X\right \|_{2}^{2}$ , $\phi_2(Y)=\frac{\mu_2 }{2} \left \|Y \right \|_{2}^{2}$ , 其中 $\mu_1$ 和 $\mu_2$ 分别通过计算 $\lambda YY^T$ 和 $\lambda X^TX$ 在第 $k$ 次迭代时的最大特征值来得到. 在数值实验中, 比较邻近交替线性极小化算法 (PALM)(1.4), 一步惯性邻近交替线性极小化算法 (iPALM) (1.5), Gauss-Seidel 型邻近交替线性极小化算法 (GiPALM) (1.6) 和算法 1 求解问题(4.1) 的收敛速度. 令稀疏度 $s=0.25$ . 下面给出惯性参数的选取方式

(1) PALM: $\alpha_{1k}=\beta _{1k}=\alpha_{2k}=\beta _{2k}=0$ .

(2) iPALM、GiPALM: 固定惯性参数 $\alpha_{1k}=\beta _{1k}=\alpha_{2k}=\beta _{2k}=0.5$ ; FISTA 惯性参数 $\alpha_{1k}=\beta _{1k}=\alpha_{2k}=\beta _{2k}=\frac{k-1}{k+2}$ .

(3) 算法 1 (TiBPALM): 固定惯性参数 $\alpha_{1k}=\beta _{1k}=0.2$ , $\alpha_{2k}=\beta _{2k}=0.3$ ; FISTA 惯性参数 $\alpha_{1k}=\alpha_{2k}=\beta _{1k}=\beta _{2k}=\frac{k-1}{k+2}$ .

结果分析: 当选取固定惯性参数时, 图2 和图4分别给出了使用不同算法得到的目标函数值在 Yale-B 数据集和 ORL 数据集下数值结果. 当选取 FISTA 惯性参数时, 图3 和图5 分别给出了使用不同算法得到的目标函数值在 Yale-B 数据集和 ORL 数据集下数值结果. 从这些图中可以看出, 在几乎相同的计算时间内, 所提出的算法 1 可以得到比其他三种算法略低的值.

图2

图2 稀疏非负矩阵分解问题基于 Yale 数据集的目标函数值与迭代步数及时间的比较 (固定的惯性参数)

图3

图3 稀疏非负矩阵分解问题基于 Yale 数据集的目标函数值与迭代步数及时间的比较 ( Fista 惯性参数)

图4

图4 稀疏非负矩阵分解问题基于 ORL 数据集的目标函数值与迭代步数及时间的比较 (固定的惯性参数)

图5

图5 稀疏非负矩阵分解问题基于 ORL 数据集的目标函数值与迭代步数及时间的比较 ( Fista 惯性参数)

将算法1 与 PALM、iPALM 和 GiPALM 在不同稀疏度设置 ( $s$ 值) 下进行比较, 此时惯性参数采用 FISTA 选取方式. 稀疏基图像的结果如图6所示. 从图6 可以看出, $s$ 值越小, 四种算法得到的人脸图像显示的更明显, 有助于提高图像显现的泛化能力.

图6

图6 四种算法在不同稀疏度下的 25 张人脸结果图像. 从左到右分别是 PALM、iPALM、GiPALM 和算法1, 从上到下分别为 $s=25\%$ , $s=33\%$ 和 $s=50\%$

例 4.2 稀疏信号恢复问题. 假设 $x$ 是 $\mathbb{R }^{m}$ 中的未知向量 (一个信号), 给定测量矩阵 $A\in \mathbb{R }^{m\times n }$ , 以及观测数据 $b\in \mathbb{R }^{m}$ , 计划从观测数据 $b$ 中恢复稀疏信号 $x$ (即 $x$ 具有最少的非零元素), 使用 $l_0$ 稀疏约束. 因此, 稀疏信号恢复问题可以表示为如下的模型 $\min_{x} {\rm } \left \| x \right \| _{0},$ ${\rm s.t.} \ Ax=b,$ 其中 $\left \| x \right \| _{0}$ 表示 $x$ 中非零元素的个数, 即 $l_0$ 范数. 实际计算中, 常将上式中的 $l_0$ 范数松弛到 $l_{1/2}$ 范数, 从而转化为如下非凸优化问题

$\begin{equation} \min_{x}\\ {\rm }\ \ \frac{1}{2} \left \| Ax-b \right \| _{2}^{2} +\eta \left \| x \right \| _{1/2}^{1/2}, \end{equation}$

(4.2)

其中参数 $\eta >0$ , $\left \| x \right \| _{1/2}$ 是 $\mathbb{R }^{m}$ 的 $l_{1/2}$ 范数, 定义为 $\left \| x \right \| _{1/2} =( {\textstyle \sum\limits_{i=1}^{m}}\left | x_{i} \right | ^{1/2} )^{2}$ . 下面将此问题转化为问题 (1.1).

通过引入辅助变量 $y\in \mathbb{R }^{m}$ , 问题 (4.2) 可重新表述为

$\min_{x,y}\\ {\rm }\ \ \frac{1}{2} \left \| Ax-b \right \| _{2}^{2} +\eta \left \| y \right \| _{1/2}^{1/2}, {\rm s.t.} \ x=y,$

进一步转化为

$\begin{equation} \min_{x,y}\ \ {\rm }\ \ \frac{1}{2} \left \| Ax-b \right \| _{2}^{2} +\eta \left \| y \right \| _{1/2}^{1/2}+\frac{\gamma}{2}\left \| x-y \right \| _{2}^{2}, \end{equation}$

(4.3)

其中 $\gamma$ 为惩罚参数. 令 $f(x)=\frac{1}{2} \left \| Ax-b \right \| _{2}^{2}$ , $Q(x,y)=\frac{\gamma}{2}\left \| x-y \right \| _{2}^{2}$ , $g(y)=\eta \left \| y \right \| _{1/2}^{1/2}$ , 则问题 (4.3) 转化为非凸非光滑不可分优化问题 (1.1). 下面选择适当的 Bregman 距离, 利用算法 1 求解本例. 令 $\phi_1(x)= \langle x,Mx\rangle$ , $\phi_2(y)=\frac{\lambda }{2} \left \| y\right \|_{2}^{2}$ , 取 $M=\mu I- A^{T}A$ 时, $x$ 子问题为

$\begin{aligned} x_{k+1}\hskip-.3cm &&\in\arg\min_{ x\in \mathbb{R}^l}&\left \{\frac{1}{2} \left \| Ax-b \right \| _{2}^{2}+\langle x,\gamma(x_k-y_k)\rangle+\frac{1}{2}\left \| x-x_{k} \right \| _{M}^{2} +\alpha_{1k} \langle x,x_{k-1}-x_k\rangle\right.\\ &&&\left.+\alpha_{2k} \langle x,x_{k-2}-x_{k-1}\rangle\right \}\\ &&=\arg\min_{ x\in \mathbb{R}^l}&\left \{\frac{1 }{2} \left \| Ax \right \| _{2}^{2}-\left \langle Ax,b \right \rangle +\langle x,\gamma(x_k-y_k)\rangle+\frac{1}{2}\left \langle x-x_{k},(\mu I- A^{T}A)(x-x_{k}) \right \rangle \right.\\ &&&\left.+\alpha_{1k} \langle x,x_{k-1}-x_k\rangle+\alpha_{2k} \langle x,x_{k-2}-x_{k-1}\rangle\right \}\\ &&=\arg\min_{ x\in \mathbb{R}^l}&\left \{\frac{\mu }{2} \left \| x \right \| _{2}^{2}-\langle x,\mu x_{k}- A^{T}Ax_{k}\rangle-\left \langle x,A^{T}b \right \rangle +\langle x,\gamma(x_k-y_k)\rangle\right.\\ &&&\left.+\alpha_{1k} \langle x,x_{k-1}-x_k\rangle+\alpha_{2k} \langle x,x_{k-2}-x_{k-1}\rangle\right \},\\ \end{aligned}$

由上式可知, $x$ 子问题有显式的表达式

$\begin{aligned} x_{k+1} =&\frac{1}{\mu } \left [\mu x_{k} - A^{T}Ax_{k}+ A^{T}b-\gamma(x_k-y_k)+\alpha_{1k}(x_{k}-x_{k-1})+\alpha_{2k}(x_{k-1}-x_{k-2}) \right ]. \end{aligned}$

$y$ 子问题为

$\begin{aligned} y_{k+1} &\in \arg\min_{y\in \mathbb{R}^m}\left \{\eta \left \| y \right \| _{1/2}^{1/2}+\langle y,\gamma(y_{k}-x_{k+1})\rangle+\frac{\lambda }{2} \left \| y-y_{k} \right \| _{2}^{2}+\beta_{1k} \langle y,y_{k-1}-y_k\rangle\right.\\ &\left. +\beta_{2k} \langle y,y_{k-2}-y_{k-1}\rangle\right \}\\ &= \arg\min_{y\in \mathbb{R}^m} \left \{ \eta \left \| y \right \| _{1/2}^{1/2}+\frac{\lambda }{2}\left \| y-\frac{1}\lambda \left [ \lambda y_{k }+\gamma(x_{k+1}-y_{k})+\beta_{1k} (y_{k}-y_{k-1} )\right.\right.\right.\\ &\left.\left.\left. +\beta_{2k} (y_{k-1}-y_{k-2} ) \right ] {} \right \| ^{2}\right \} \\ &= \mathcal{H}\left (y_{k}+\frac{1}\lambda \left [\gamma(x_{k+1}-y_{k})+\beta_{1k} (y_{k}-y_{k-1} )+\beta_{2k} (y_{k-1}-y_{k-2} ) \right ],\frac{\eta }{\lambda } \right ). \end{aligned}$

对于任何 $\kappa >0$ , $\mathcal{H}(\cdot,\kappa )$ 称为半收缩算子^[40], 定义如下

${\mathcal{H}\rm}(a;\kappa )=\left \{ h_{\kappa } (a_{1} ),h_{\kappa } (a_{2} ),\cdots,h_{\kappa } (a_{n} )\right \} ^{T},$

其中

$h_{\kappa } (a_{i{\tiny } } )=\left\{\begin{matrix} \frac{2a_{i} }{3} (1+\cos(\frac{2\pi}{3} -\frac{2}{3}\varphi (a_{i})) ), & \text{若} \left | a_{i} \right | >\frac{3}{4} \kappa ^{2/3}, \\ 0, &{\rm \text{否则}}, \end{matrix}\right.$

并且 $\varphi (a_{i} )=$ arccos $\big( \frac{\kappa }{8} \big ( \frac{\left | a_{i} \right | }{3} \big )^{-3/2} \big )$ .

参数选取: 设 $A$ 服从标准正态分布, 并对 $A$ 进行列单位化, 则 $\left \| A\right \|\le1$ . 随机生成稀疏向量 $x$ , 噪声向量 $\omega \sim N\left ( 0,10^{-3}I \right )$ , 向量 $b=Ax+\omega$ . 取正则化参数 $\eta=0.001\left \| A^{T}b \right \|_{\infty }$ , 惩罚参数 $\gamma =0.2$ . 根据引理 3.1, 取 $\alpha_1>0$ , $\alpha_2>0$ 使得 $2(\alpha_1+\alpha_2)<\rho$ , 其中 $\rho =\min\{\mu - \left \| A \right \| ^{2} -\gamma, \lambda -\gamma\}$ , $\mu =2$ , $\lambda =1.5$ . 在算法 1 和两步惯性 Bregman 交替极小化算法 (TiBAM) 中, 惯性参数 $\alpha_{1k}=\alpha_{2k}=\beta _{1k}=\beta _{2k}=0.99\rho/4$ ; 在一步惯性 Bregman 邻近交替线性极小化算法 (iBPALM) 中, 惯性参数 $\alpha_{1k}=\beta _{1k}=0.99\rho/2$ ; Bregman 邻近交替线性极小化算法 (BPALM) 是算法 1 没有惯性外推的的特殊情况, 即 $\alpha_{1k}=\alpha_{2k}=\beta _{1k}=\beta _{2k}=0$ . 将原点作为所有算法的初始点并设 $E_k=\|x_{k+1}-x_k\|+\|y_{k+1}-y_k\|<10^{-4}$ 为停止准则. 下面分别针对不同维度的矩阵 $A$ , 如 $(n,m)=(40,200)$ 和 $(n,m)=(100,500)$ , 将算法 1 与 TiBAM、iBPALM 和 BPALMA 进行比较.

结果分析: 表1 和表2 分别显示了维数 $(n,m)=(40,200)$ 和 $(n,m)=(100,500)$ 时的迭代次数、CPU 时间和 $x_{k}-y_k$ 的 2 范数. 显然, 算法 1 在解决上述问题时的迭代次数和时间方面都优于 TiBAM、iBPALM 和 BPALM 算法. 在图7 和图8 中, 针对不同的维数 $(n,m)=(40,200)$ 和 $(n,m)=(100,500)$ , 左边的图片显示了无噪声 ( $b = Ax$ ) 的误差函数的下降趋势, 右边的图片显示了有噪声 $(b=Ax+\omega)$ 的误差函数的下降趋势. 其数值结果显示了算法 1 的有效性.

表1 维数为 $n = 40, m=200$ 时, 迭代次数、时间和 $\left \|x_k-y_k \right \|$ 在无噪声、有噪声下的数值结果

表2 维数为 $n =100, m=500$ 时, 迭代次数、时间和 $\left \|x_k-y_k \right \|$ 在无噪声、有噪声下的数值结果

图7

图7 维数为 $n = 40, m=200$ 时, 误差 $\|x_{k+1}-x_k\|+\|y_{k+1}-y_k\|$ 与迭代次数在无噪声、有噪声下的数值结果

图8

图8 维数为 $n =100, m=500$ 时, 误差 $\|x_{k+1}-x_k\|+\|y_{k+1}-y_k\|$ 与迭代次数在无噪声、有噪声下的数值结果

为了给出算法 1 在不同 Bregman 距离下的数值结果, 下面介绍三种不同的 Bregman 距离

(1) 定义函数 $\varphi_1(x)=\mu\sum\limits_{i=1}^m x_i\ln x_i$ , 其定义域为

$\text{dom}\varphi_1=\{x=(x_1, x_2,\cdots, x_m)^T\in \mathbb{R}^m: x_i > 0, i =1, 2,\cdots, m\},$

值域为 $(-\infty,+\infty)$ . 故

$\nabla \varphi_1(x)=\mu(1+\ln(x_1), 1+\ln(x_2), \cdots, 1+\ln(x_m))^T$

及 $\varphi_1$ 生成的 Bregman 距离 (Kullback-Leibler 距离) 是

$D_{\varphi_1}(x, y) = \mu\sum\limits_{i=1}^m\big(x_i\ln\big(\frac{x_i}{y_i}\big)+ y_i-x_i\big),\ \ \forall x,y\in \mathbb{R}_{++}^m.$

(2) 定义函数 $\varphi_2(x)=-\mu\sum\limits_{i=1}^m \ln x_i$ , 其定义域为

$\text{dom}\varphi_2=\{x=(x_1, x_2,\cdots, x_m)^T\in \mathbb{R}^m: x_i > 0, i =1, 2,\cdots, m\},$

值域为 $(-\infty,+\infty)$ . 故

$\nabla \varphi_2(x)=\mu(-\frac{1}{x_1}, -\frac{1}{x_2}, \cdots, -\frac{1}{x_m})^T$

及 $\varphi_2$ 生成的 Bregman 距离 (Itakura-Saito 距离) 是

$D_{\varphi_2}(x, y) = \mu\sum\limits_{i=1}^m\big(\frac{x_i}{y_i}-\ln\big(\frac{x_i}{y_i}\big)-1\big),\ \ \forall x,y\in \mathbb{R}_{++}^m.$

(3) 定义函数 $\varphi_3(x)=\frac{\mu}{2}\|x\|^2$ , 其定义域为 $\text{dom}\varphi_3=\mathbb{R}^m,$ 值域为 $[0,+\infty)$ . 故 $\nabla \varphi_3(x)=x$ 及 $\varphi_3$ 生成的 Bregman 距离 (2 范数平方距离) 是

$D_{\varphi_3}(x, y) = \frac{\mu}{2}\|x-y\|^2,\ \ \forall x,y\in \mathbb{R}^m.$

显然, $\varphi_i$ ( $i=1,2,3$ ) 是 1-强凸的.

例 4.3 非凸二次分式规划问题

$\min_{x\in C}\\ f(x):=\frac{x^{T}Mx+a^{T}x+c}{b^{T}x+d},$

其中 $C=\left \{ x\in \mathbb{R}^m :1\le x_{i}\le 3,i=1,2,\cdots,m \right \}$ , $M:\mathbb{R}^m\to \mathbb{R}^m$ 是有界线性算子, $a\in \mathbb{R}^m$ , $b\in \mathbb{R}^m$ , $c=-2$ 且 $d=20$ . 由文献 [8] 知 $f$ 在开集 $E=\left \{ x\in \mathbb R^{m} :b^{T}x+d >0 \right \}$ 上是伪凸的. 如果 $C\subseteq E$ , 那么 $f$ 是非凸的.

上述二次分式规划问题可以转化为非凸非光滑不可分优化问题 (1.1)

$\begin{equation*} \min\{f(x)+\frac{\gamma}{2}\|x-y\|^2_2+\iota_C(y):x,\ y\in\mathbb{R}^{m}\}, \end{equation*}$

其中 $\iota_C$ 是 $C$ 上的指示函数. 由算法 1 可知 $x$ 子问题和 $y$ 子问题的迭代格式如下

$\begin{aligned} x_{k+1}\in \arg\min_{ x\in \mathbb{R}^m}\{&f(x)+\langle x,\gamma(x_{k}-y_{k})\rangle+D_{\phi_1}(x,x_k)+\alpha_{1k} \langle x,x_{k-1}-x_k\rangle\\ &+\alpha_{2k} \langle x,x_{k-2}-x_{k-1}\rangle\},\\ y_{k+1}\in \arg\min_{ y\in \mathbb{R}^m}\{&\iota_C(y)+\langle y,\gamma(y_{k}-x_{k+1})\rangle+D_{\phi_2}(y,y_k)+\beta_{1k} \langle y,y_{k-1}-y_k\rangle\\ &+\beta_{2k} \langle y,y_{k-2}-y_{k-1}\rangle\}. \end{aligned}$

在本例中, 取 $\alpha_{1k}=\beta_{1k}=0.2$ , $\alpha_{2k}=\beta_{2k}=0.3$ , $\gamma=10$ , $\mu=36$ . 使用不同的 Bregman 距离对算法 1 进行数值实验并设

$E_k=\|x_{k+1}-x_k\|+\|y_{k+1}-y_k\|<10^{-4}$

为停止准则. 使用“算法 (ij)” 表示算法 1 中 $\phi_1(x)=\varphi_i(x)$ 和 $\phi_2(x)=\varphi_j(x)$ $(1\leq i\leq 3, 1\leq j\leq 3)$ . 对于上述的二次分式规划问题, 给出算法 1 在不同矩阵 $M$ 下的数值结果. 随机选择初始点并随机进行 30 次, 得到平均迭代次数和平均 CPU 时间. 算法1 在不同 Bregman 距离下的数值结果如表3 和表4 所示.

表3 算法1在不同 Bregman 距离 (Kullback-Leibler 距离、Itakura-Saito 距离、2 范数平方距离)及固定矩阵 $M$ 下的数值结果

表4 算法 1 在不同 Bregman 距离 (Kullback-Leibler 距离、Itakura-Saito 距离、2 范数平方距离)及随机矩阵 $M$ 下的数值结果

情形 1 取固定矩阵 $M\!=\!\begin{bmatrix} 5& -1& 2& 0& 2\\ -1& 6& -1& 3& 0\\ 2& -1& 3& 0& 1\\ 0& 3& 0& 5& 0\\ 2& 0& 1& 0&4 \end{bmatrix}$ , 向量 $a=(1,2,-1,-2,1)^{T}$ , $b=(1,0,-1,0,1)^{T}$ , 在这种情况下, $C\subseteq E$ . 对于不同的 Bregman 距离, 表3 中给出了一步惯性算法和两步惯性算法的数值结果, 其中一步惯性参数 $\alpha_{1k}=\beta_{1k}=0.5$ .

结果分析: 可以看出, 在迭代次数和 CPU 时间方面, Kullback-Leibler 距离和 Itakura-Saito 距离比 2 范数平方距离具有计算优势. 对于一步惯性算法, 计算结果表明, 算法 (23) ( $\phi_1(x)=\varphi_2(x)$ , $\phi_2(x)=\varphi_3(x)$ ) 求解二次分式规划问题的性能最好, 算法 (33) ( $\phi_1(x)=\varphi_3(x)$ , $\phi_2(x)=\varphi_3(x)$ ) 的性能最差. 同样地, 对于两步惯性算法, 计算结果表明, 算法 (23) ( $\phi_1(x)=\varphi_2(x)$ , $\phi_2(x)=\varphi_3(x)$ ) 求解二次分式规划问题的性能最好, 算法 (33) ( $\phi_1(x)=\varphi_3(x)$ , $\phi_2(x)=\varphi_3(x)$ ) 的性能最差.

情形 2 随机选择矩阵 $M\in \mathbb R^{m\times m}$ 和向量 $a\in \mathbb R^{m}, b\in \mathbb R^{m}$ . 当 $m=5,20,50,100$ 时, 表4 给出了算法 1 在不同 Bregman 距离下的数值结果.

结果分析: 表4 中数值结果显示, 当矩阵 $M$ 的维数较低时, 算法(23) ( $\phi_1(x)=\varphi_2(x)$ , $\phi_2(x)=\varphi_3(x)$ ) 的数值结果最好. 当矩阵 $M$ 的维数略高时, 算法(12) ( $\phi_1(x)=\varphi_1(x)$ , $\phi_2(x)=\varphi_2(x)$ ) 数值结果最好.

5 总结

针对非凸非光滑不可分优化问题, 本文基于邻近交替线性极小化算法, 结合惯性外推技术和 Bregman 距离提出了两步惯性 Bregman 邻近交替线性极小化算法. 在目标函数满足 Kurdyka-Łojasiewicz 不等式且参数满足合理条件的假设下, 构造适当的效益函数, 得到算法生成的序列全局收敛到稳定点. 最后, 对稀疏非负矩阵分解、稀疏信号恢复和二次分式规划问题进行了数值实验, 并选择适当的 Bregman 距离使稀疏信号恢复问题的子问题有显示表达式, 还应用不同的 Bregman 距离来求解二次分式规划问题. 数值结果表明了所提出算法的有效性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

简金宝, 林惠, 马国栋.

大规模非凸不可分优化问题的分裂序列二次规划算法

数学物理学报, 2023, 43A(4): 1284-1296

Jian

J b

, Lin

, Ma

G D

A Splitting sequence quadratic programming algorithm for the Large-Scale nonconvex nonseparable optimization problems

Acta Math sci, 2023, 43A(4): 1284-1296

[2]

刘富勤, 彭建文, 罗洪林.

具有线性化技术的三块非凸不可分优化问题 Bregman ADMM 收敛性分析

数学物理学报, 2023, 43A(1): 291-304

Liu

F Q

, Peng

J W

, Luo

H L

Convergence analysis of Bregman ADMM for three-block nonconvex indivisible optimization problems with linearization technique

Acta Math Sci, 2023, 43A(1): 291-304

[3]

陈建华, 彭建文.

非凸多块优化的 Bregman ADMM 的收敛率研究

数学物理学报, 2024, 44A(1): 195-208

Chen

J H

, Peng

J W

Research on the convergence rate of Bregman ADMM for nonconvex multiblock optimization

Acta Math Sci, 2024, 44A(1): 195-208

[4]

Nikolova

, Ng

M K

, Zhang

S Q

, Ching

W K

Efficient reconstruction of piecewise constant images using nonsmooth nonconvex minimization

SIAM J Imaging Sci, 2008, 1(1): 2-25

[5]

S H

, Zhang

, Zuo

W M

, Feng

X C

Weighted nuclear norm minimization with application to image denoising

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014: 2862-2869

[6]

Bian

, Chen

X J

Linearly constrained non-Lipschitz optimization for image restoration

SIAM J Imaging Sci, 2015, 8(4): 2294-2322

[7]

Bolte

, Sabach

, Teboulle

Proximal alternating linearized minimization for nonconvex and nonsmooth problems

Math Program, 2014, 146(1): 459-494

[本文引用: 3]

[8]

Bot

R I

, Csetnek

E R

, Vuong

P T

The forward-backward-forward method from continuous and discrete perspective for pseudo-monotone variational inequalities in Hilbert spaces

Eur J Oper Res, 2020, 287(1): 49-60

[9]

Attouch

, Bolte

, Svaiter

B F

Convergence of descent methods for semi-algebraic and tame problems: proximal algorithms, forward-backward splitting, and regularized Guass-Seidel methods

Math Program, 2013, 137(1): 91-129

[10]

Donoho

D L

Compressed sensing

IEEE Trans Inform Theory, 2006, 52(4): 1289-1306

[11]

Boyd

, Parikh

, Chu

et al.

Distributed optimization and statistical learning via the alternating direction method of multipliers

Foundations and Trends in Machine Learning, 2011, 3(1): 1-122

[12]

Bertsekas

D P

, Tsitsiklis

J N

Parallel and Distributed Computation: Numerical Methods

Englewood Cliffs, NJ: Prentice Hall, 1989

[13]

Bertsekas

D P

Nonlinear programming

J Oper Res Soc, 1977, 48(3): 334-334

[14]

Beck

, Tetruashvili

On the convergence of block coordinate descent type methods

SIAM J Optim, 2013, 23(4): 2037-2060

[15]

Auslender

Asymptotic properties of the Fenchel dual functional and applications to decomposition problems

J Optim Theory Appl, 1992, 73(3): 427-449

[16]

Attouch

, Bolte

, Redont

, Soubeyran

Proximal alternating minimization and projection methods for nonconvex problems: an approach based on the Kurdyka-Łojasiewicz inequality

Math Oper Res, 2010, 35(2): 438-457

[17]

Nikolova

, Tan

Alternating structure-adapted proximal gradient descent for nonconvex block-regularised problems

SIAM J Optim, 2019, 29(3): 2053-2078

[18]

Ochs

, Chen

, Brox

, Pock

iPiano: Inertial proximal algorithm for nonconvex optimization

SIAM J Imaging Sci, 2014, 7(2): 1388-1419

[19]

Bot

R I

, Csetnek

E R

An inertial Tseng's type proximal algorithm for nonsmooth and nonconvex optimization problems

J Optim Theory Appl, 2016, 171(2): 600-616

[20]

Polyak

B T

Some methods of speeding up the convergence of iteration methods

USSR Comput Math Math Phys, 1964, 4(5): 1-17

[21]

T K H

, Nicolas

, Panagiotis

Inertial block proximal methods for non-convex non-smooth optimization

Proceedings of the 37th International Conference on Machine Learning, PMLR, 2020, 119: 5671-5681

[22]

Feng

J K

, Zhang

H B

, Zhang

K L

, Zhao

P F

An inertial Douglas-Rachford splitting algorithm for nonconvex and nonsmooth problems

Concurrency and Computation Practice and Experience, 2023, 35(17): e6343

[23]

Zhang

Y X

, He

S N

Inertial proximal alternating minimization for nonconvex and nonsmooth problems

J Inequal Appl, 2017, 2017: 1-13

[24]

Pock

, Sabach

Inertial proximal alternating linearized minimization (iPALM) for nonconvex and nonsmooth problems

SIAM J Imaging Sci, 2017, 9(4): 1756-1787

[25]

Gao

, Cai

X J

, Han

D R

A Gauss-Seidel type inertial proximal alternating linearized minimization for a class of nonconvex optimization problems

J Glob Optim, 2020, 76: 863-887

[26]

Wang

Q X

, Han

D R

A generalized inertial proximal alternating linearized minimization method for nonconvex nonsmooth problems

Appl Numer Math, 2023, 189: 66-87

[27]

Yang

, Xu

L L

Some accelerated alternating proximal gradient algorithms for a class of nonconvex nonsmooth problems

J Glob Optim, 2023, 87(2): 939-964

[28]

Zhao

, Dong

Q L

, Michael

Th R

, Wang

F H

Two-step inertial Bregman alternating minimization algorithm for nonconvex and nonsmooth problems

J Glob Optim, 2022, 84(4): 941-966

[本文引用: 3]

[29]

Chao

M T

, Nong

F F

, Zhao

M Y

An inertial alternating minimization with Bregman distance for a class of nonconvex and nonsmooth problems

J Appl Math Comput, 2023, 69(2): 1559-1581

[30]

Mordukhovich

Variational Analysis and Generalized Differentiation. I: Basic Theory

Berlin: Springer-Verlag, 2006

[31]

Bolte

, Daniilidis

, Lewis

The Łojasiewicz inequality for nonsmooth subanalytic functions with applications to subgradient dynamical systems

SIAM J Optim, 2006, 17(4): 1205-1223

[32]

Rockafellar

R T

, Wets

. Variational Analysis. Berlin: Springer, 1998

[33]

Wang

F H

, Cao

W F

, Xu

Z B

Convergence of multi-block Bregman ADMM for nonconvex composite problems

Sci China Inf Sci, 2018, 61: 122101

[34]

, Yin

A block coordinate descent method for regularized multiconvex optimization with applications to nonnegative tensor factorization and completion

SIAM J Imaging Sci, 2013, 6(3): 1758-1789

[35]

Hsieh

Y P

, Kao

Y C

, Mahabadi

R K

et al.

A non-Euclidean gradient descent framework for nonconvex matrix factorization

IEEE Trans Signal Process, 2018, 66(22): 5917-5926

[36]

Lee

D D

, Seung

H S

Learning the parts of objects by non-negative matrix factorization

Nature, 1999, 401(6755): 788-791

[37]

Pan

, Gillis

Generalized separable nonnegative matrix factorization

IEEE Trans Pattern Anal Mach Intell, 2021, 43(5): 1546-1561

[38]

Rousset

, Peyrin

, Ducros

A semi nonnegative matrix factorization technique for pattern generalization in single-pixel imaging

IEEE Trans Comput Imaging, 2018, 4(2): 284-294

[39]

Peharz

, Pernkopf

Sparse nonnegative matrix factorization with $l_0$ -constraints

Neurocomputing, 2012, 80: 38-46

PMID:22505792 [本文引用: 1]

Although nonnegative matrix factorization (NMF) favors a sparse and part-based representation of nonnegative data, there is no guarantee for this behavior. Several authors proposed NMF methods which enforce sparseness by constraining or penalizing the [Formula: see text] of the factor matrices. On the other hand, little work has been done using a more natural sparseness measure, the [Formula: see text]. In this paper, we propose a framework for approximate NMF which constrains the [Formula: see text] of the basis matrix, or the coefficient matrix, respectively. For this purpose, techniques for unconstrained NMF can be easily incorporated, such as multiplicative update rules, or the alternating nonnegative least-squares scheme. In experiments we demonstrate the benefits of our methods, which compare to, or outperform existing approaches.

[40]

Z B

, Chang

X Y

, Xu

F M

, Zhang

$L_{1/2}$ regularization: a thresholding representation theory and a fast solver

IEEE Trans Neural Netw Learning Syst, 2012, 23(7): 1013-1027