数学物理学报, 2024, 44(2): 500-512

非负组稀疏约束优化问题的最优性条件

胡珊珊,, 贺素香,*

武汉理工大学理学院数学系 武汉 430070

Optimality Conditions for Non-Negative Group Sparse Constrained Optimization Problems

Hu Shanshan,, He Suxiang,*

Department of Mathematics, School of Science, Wuhan University of Technology, Wuhan 430070

通讯作者: * 贺素香, Email:hesux@whut.edu.cn

收稿日期: 2022-12-26   修回日期: 2023-06-1  

基金资助: 国家自然科学基金(11871153)

Received: 2022-12-26   Revised: 2023-06-1  

Fund supported: NSFC(11871153)

作者简介 About authors

胡珊珊,Email:1515034317@qq.com

摘要

基于 Bouligand 意义下的切锥与法锥和 Clarke 意义下的切锥与法锥, 该文研究了非负组稀疏约束优化问题的最优性理论. 该文定义了非负组稀疏约束集的 Bouligand 切锥与法锥和 Clarke 切锥与法锥, 并给出了它们的等价刻画形式. 在目标函数连续可微的条件下, 借助于非负组稀疏约束集的切锥和法锥, 给出了该优化问题的四类稳定点的定义, 并讨论了它们之间的关系. 最后, 建立了非负组稀疏约束优化问题的一阶和二阶最优性条件.

关键词: 非负组稀疏约束优化问题; 最优性条件; 切锥; 法锥

Abstract

Based on the Bouligand tangent cone, Clarke tangent cone and their corresponding normal cones, the optimality theories of the non-negative group sparse constrained optimization problem are studied. This paper defines the Bouligand tangent cone and its normal cone and the Clarke tangent cone and its normal cone of the non-negative group sparse constraint set, and presents their equivalent characterizations. Under the assumption that the objective function is continuously differentiable, with the help of the tangent cone and the normal cone of the sparse constrained set of the non-negative group, the definitions of four types of stable points for the optimization problem are given and the relationships between these four types of stable points are discussed. Finally, the first-order and second-order optimality conditions for the optimization problem of sparse constraint of non-negative groups are established.

Keywords: Non-negative group sparse constrained optimization; Optimality conditions; Tangent cone; Normal cone

PDF (581KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

胡珊珊, 贺素香. 非负组稀疏约束优化问题的最优性条件[J]. 数学物理学报, 2024, 44(2): 500-512

Hu Shanshan, He Suxiang. Optimality Conditions for Non-Negative Group Sparse Constrained Optimization Problems[J]. Acta Mathematica Scientia, 2024, 44(2): 500-512

1 引言

稀疏优化是指决策变量中的绝大多数元素为零的一类优化问题. 稀疏优化问题源于一些学者提出的压缩感知理论[1],[2],[3], 其中, 信号的稀疏结构是该理论的核心思想之一. 稀疏优化在本世纪发展迅速, 其广泛出现在变量选择[4]、 图像重构[5]、高维统计学习[6]等科学和工程应用中.

在很多实际优化问题中, 许多信号本身具有一些结构特点, 例如: 决策变量的分量之间具有一定的组结构. 与通常的稀疏性不同的是, 组稀疏是把向量进行分组再考察各组是否整体为零. 传统的稀疏优化模型仅考虑单个分量的稀疏性, 忽略了变量之间重要的结构关系, 这会导致很多实际问题求解失败. 为了解决这类问题, 组稀疏问题的研究应运而生. Yuan 和 Lin 在回归分析问题中考虑选择分组变量进行精确预测, 利用变量之间存在的组结构作为先验信息, 提出了组套索模型, 该模型能够实现变量组水平上的稀疏性, 具有变量组选择能力[7]. Huang 和 Zhang 等研究发现, 对具有组稀疏结构的信息, 当信号是强稀疏时, 利用组稀疏优化进行信号恢复的效果更好[8]. Jenatton 和 Audibert 等通过分析神经影像学、人脸识别和生物信息学等实际问题说明了考虑变量的分组以及结构的重要性[9].

本文考虑的非负组稀疏约束优化问题的一般模型可表述如下

$ \begin{aligned}\min_ {{x} \in \mathbb{R}^{n}}& \ f(x) \\\text { s.t. } & \|x\|_{2,0} \leq s, \\&x\ge 0,\end{aligned}$

其中 $f(x): \mathbb{R}^n \rightarrow \mathbb{R}$是连续可微函数或二次连续可微函数; 变量 $x=\left(x_{1}^{\top }, x_{2}^{\top }, \cdots x_{m}^{\top }\right)^{\top } \in \mathbb R^{n}$, 其中 $x_i \in \mathbb{R}^{n_i} $ 是第 $i$ 个组变量, $x_i$ 和 $x_j$ 中没有公共的分量$(i\ne j)$, $\sum\limits_{i=1}^{m} n_{i}=n$, $n_{i} \geq 1$; $\|x\|_{2,0}:=\sum\limits_{i=1}^{m}\left(\left\|x_{i}\right\|_{2}\right)^{0}$ 表示向量 $x$ 的组稀疏度, $\left\|x_{i}\right\|_{2}$ 表示 $x$ 的第 $i$ 组变量 $x_{i}$ 的 $l_{2}$ 范数, $s$ 为正整数且 $s \leq m<n$. 令 $S:=\left\{{x \in \mathbb{R}^{n}}\mid \|x\|_{2,0} \leq s\right\}$, 则问题 (1.1) 的约束条件可表示为 $\left \{ x\mid x\in S\cap \mathbb{R} ^n_+ \right \} $, 其中 $\mathbb{R}^n _+ $ 为 $n$ 维非负实数空间, 此时问题 (1.1) 也可表示为 $\Big \{ \min\limits_ {{x} \in \mathbb{R}^{n}}\ f(x),\text { s.t. } x\in S\cap \mathbb{R}^n_+ \Big \}$. 在问题 (1.1) 中, 如果约束条件中没有非负约束, 且不考虑对决策变量进行分组, 即每组中元素个数为 $1$ 时, 问题 (1.1) 则为单稀疏约束优化问题. 相比于经典非线性规划, 该问题的难点来源于刻画变量稀疏性的的 $l_0$ 范数以及相应的稀疏集. 由于 $l_0$ 范数是非凸非连续函数, 人们借助邻近点算子、次微分、切锥与法锥等数学工具来研究 $l_0$ 范数与稀疏集的变分性质, 这些性质为稀疏优化问题的最优性条件的刻画提供了有力的理论支撑. 例如: 鉴于稀疏集的非正则性, Pan 和 Xiu 等借助于非线性稀疏约束优化问题的可行域的约束规范, 研究了三种法锥的分解性质, 进而建立了该问题的最优性条件[10]; Zhang 和 Pan 等研究了带有 $l_0$ 正则项的局部 Lipschitz 优化问题, 给出了次微分稳定点和邻近稳定点的定义, 并基于这两类稳定点建立了该问题的最优性条件[11].

对于单稀疏约束优化问题, Beck 和 Eldar 提出了该优化问题的三种一阶必要最优性条件: 基本可行性、$L$-稳定性和 CW 最优性, 即具体分析了该问题的最优解与 CW 最优解、基本可行向量和 $L$-稳定点之间的关系[12]. Pan 和 Xiu 等给出了稀疏集 $S$ 的 Bouligand 切锥和 Clarke 切锥及其所对应的法锥的表达式; 基于切锥与法锥, 定义了单稀疏约束优化问题的五类稳定点, 并建立了该问题的一阶最优性条件和二阶最优性条件[13]. 如果问题 (1.1) 不考虑对决策变量分组, 但是有非负约束的限制条件时, 问题 (1.1) 则为单稀疏非负约束优化问题. 该问题有很重要的现实意义, 因为很多实际问题中的参数所表示的量只能取非负值, 例如像素强度、化学浓度和材料数量等. Pan 和 Xiu 等研究了单稀疏非负约束优化问题的最优性条件并在经典迭代硬阈值算法中利用 Armijo 步长准则, 提出了改进的迭代硬阈值算法[14]. 考虑到非负集合是一个简单对称集, Beck 和 Hallak 研究了更一般的对称集上的连续可微函数的极小化问题, 并将单稀疏约束优化问题的三种最优性条件推广到对称集稀疏约束优化问题中[15]. Lu 进一步探讨了对称集稀疏约束优化问题的最优性条件, 提出了一个比 $L$-稳定性更强的最优性条件[16].

在问题 (1.1) 中, 如果约束条件中没有非负约束, 则问题 (1.1) 为组稀疏约束优化问题. Beck 和 Hallak 分析了一种广义的组稀疏模型, 研究了包含组稀疏项的函数的邻近算子, 并将下降引理、$L$-稳定点等概念推广到组稀疏优化模型中, 进而建立了组稀疏约束优化问题的必要最优性条件[17]. Wu 和 Peng 给出了组稀疏约束集的 Bouligand 切锥和 Clarke 切锥及其所对应的法锥的等价表达式, 并定义了组稀疏约束优化问题的 $N$-稳定点和 $T$-稳定点, 进而建立了该问题的一阶和二阶最优性条件[18]. 近来, 很多学者借助于不同的等价松弛模型来研究组稀疏约束优化问题的最优性条件和算法, 例如: Peng 和 Chen 研究了组稀疏正则化问题的松弛问题的二阶 $d$-稳定点, 并进一步建立了二阶最优性条件[19]; Pan 和 Chen 研究了组稀疏图像恢复问题, 用 Capped Folded Concave 的松弛函数来松弛该问题, 并给出了一个光滑惩罚算法[20]; Li 和 Bian 等研究了基于 DC 框架的稀疏组 $l_0$ 正则优化问题, 给出了该问题的等价松弛模型, 并设计了相应的 DC 算法[21].

目前, 利用组稀疏集的投影、切锥和法锥等工具研究问题 (1.1) 的文献尚不多见. 受到 Pan[14] 和 Wu[18] 等工作的启发, 并且考虑到非负约束和组稀疏结构的重要现实意义, 本文将研究非负组稀疏约束优化问题 (1.1) 的最优性条件. 本文的研究框架如下: 第 $2$ 节给出非负组稀疏约束集的 Bouligand 和 Clarke 意义下的切锥和法锥的定义及其等价表达式; 第 $3$ 节利用所定义的切锥与法锥, 结合梯度投影技巧, 定义了非负组稀疏约束集上的 $N^B$-稳定点、$N^C$-稳定点、$T^B$-稳定点和 $T^C$-稳定点, 进一步分析这四类稳定点之间的关系; 基于第 $3$ 节中所定义的四类稳定点及理论分析, 在第 $4$ 节中探讨了问题 (1.1) 的一阶必要最优性条件, 并通过对目标函数和决策变量的稀疏度添加适当的条件, 分析了问题 (1.1) 的一阶充分最优性条件, 进一步建立了 Clarke 意义下问题 (1.1) 的二阶最优性条件; 最后一节给出总结.

本节最后给出后文中所需要的一些数学符号. 对于光滑函数 $f(x)$, 令 $ \nabla\! f({x})\!:=([{\nabla\! f({x})]_{1}^{\top},}$ ${\!\cdots\!,[\nabla\! f({x})]_{m}^{\top}})^{\top}$, $\quad[\nabla\! f({x})]_{i}:=\left([\nabla\! f({x})]_{i(1)}, \cdots,[\nabla\! f({x})]_{i\left(n_{i}\right)}\right)^{\top}$, 其中 $[\nabla\! f({x})]_{i(k)}$ 表示 $f(x)$ 关于第 $i$ 组中第 $k$ 个分量的导数; $ \nabla^{2} f\left(x\right) $ 为 $f(x)$ 在点 $x$ 处的 Hessian 阵; $e_{ij}\in \mathbb{R}^n $ 表示第 $i$ 组中第 $j$ 个元素为 1, 其余元素为 0 的 $n$ 维向量. 为方便起见, 记 $[\nabla f({x})]_{i}$ 为 $\nabla_i f({x})$; 记非负组稀疏约束集 $S\cap \mathbb{R}^n _+$ 为 $S_+$.

2 非负组稀疏约束集的切锥与法锥

切锥和法锥是刻画约束优化问题的最优性条件的重要工具[22]. 基于文献 [22] 中给出的任意闭集 $\Omega $ 在某点 $x^*$ 处的 Bouligand 切锥 $T_\Omega ^B(x^*)$ 与 Fréchet 法锥 $N_\Omega ^B(x^*)$ 和 Clarke 切锥 $T_\Omega ^C(x^*)$ 与 Clarke 法锥 $N_\Omega ^C(x^*)$ 的定义, 本节将给出非负组稀疏约束集 $S_+$ 在点 $x^*$ 处相应的 Bouligand 意义下的切锥与法锥和 Clarke 意义下的切锥与法锥的定义及其等价刻画形式.

定义2.1 对于 $x^{*} \in S _+$, 定义 $S _+$ 在 $x^{*}$ 处的 Bouligand 切锥 $T_{S_+}^{B}\left(x^{*}\right)$ 和 Clarke 切锥 $T_{S_+}^{C}\left(x^{*}\right)$ 分别为

(i) Bouligand 切锥

$ \begin{aligned}T_{S_{+}}^{B}\left(x^{*}\right): &=\limsup _{t \downarrow 0} \frac{S_+-x^{*}}{t} \\&=\left\{d \in \mathbb{R}^{n}\mid \begin{array}{c}\exists\left\{x^{k}\right\} \subseteq S_{+}, \lim \limits_{k \rightarrow \infty} x^{k}=x^{*}, \exists \lambda_{k} \geq 0, k \in N,\\\text { s.t. }\lim\limits _{k \rightarrow \infty} \lambda_{k}\left(x^{k}-x^{*}\right)=d\end{array}\right\};\end{aligned}$

(ii) Clarke 切锥

$ \begin{aligned}T_{S_+}^{C}\left(x^{*}\right): &=\liminf _{x \in S_+, x \rightarrow x^{*}, t \downarrow 0} \frac{S_+-x}{t} \\&=\left\{d \in \mathbb{R}^{n}\mid \begin{array}{c}\forall\left\{x^{k}\right\} \subseteq S_+, \lim\limits _{k \rightarrow \infty} x^{k}=x^{*}, \forall\left\{\lambda_{k}\right\} \subseteq \mathbb{R}_{+}, \lim\limits _{k \rightarrow \infty} \lambda_{k}=0,\\\exists\left\{y^{k}\right\} \subseteq \mathbb{R}^{n},\text { s.t. } \lim\limits _{k \rightarrow \infty} y^{k}=d, x^{k}+\lambda_{k} y^{k} \in S_+, k \in \mathbb{N}\end{array}\right\}.\end{aligned}$

利用极锥[22]的概念, 下面给出 $S_+$ 在点 $x^*$ 处的 Fréchet 法锥和 Clarke 法锥的定义.

定义2.2 对于 $x^{*} \in S _+$. 定义 $S _+$ 在 $x^{*}$ 处的 Fréchet 法锥 $N_{S_+}^{B}\left(x^{*}\right)$ 和 Clarke 法锥 $N_{S_+}^{C}\left(x^{*}\right)$ 分别为

(i) Fréchet 法锥

$ N_{S_+}^B(x^*)= [ T_{S_+}^B(x^*)] ^\circ = \{ u\in \mathbb{R}^n\mid \langle u,d \rangle \le 0,\forall d\in T_{S_+}^B(x^*) \};$

(ii) Clarke 法锥

$ N_{S_+}^C(x^*)= [ T_{S_+}^C(x^*)] ^\circ = \{ u\in \mathbb{R}^n\mid \langle u,d \rangle \le 0,\forall d\in T_{S_+}^C(x^*) \}.$

定义2.3 对任意 ${x}=\left({x}_{1}^{\top},{x}_{2}^{\top}, \cdots, {x}_{m}^{\top}\right)^{\top} \in S_+ $, 定义 $x$ 的组支撑集为

$\Gamma({x}):=\left\{i \in\{1, \cdots, m\}\mid \left \| {x}_{i} \right \|\ne 0 \right\},$

其中 $\left \| \cdot \right \|$ 为 $l_2$ 范数.

令 $ | \Gamma (x)| $ 是组支撑集 $\Gamma (x)$ 的基数, 则 $\left \| {x} \right \|_{2,0}=\left | \Gamma({x}) \right |$. 下面通过两个例子来解释上述组支撑集的概念.

例 2.1 (1) 若 $x=((1,1),0)^{\top}$, 则 $\left | \Gamma (x) \right | =1 $.

分析: 由 $x$ 的定义可知, $x_1=(1,1)^{\top}$, $x_2=(0)$ 并且 $\left \| x_1 \right \| =\sqrt{2}$, $\left \| x_2 \right \| =0 $, 故 $\left \| x\right \|_{2,0} =1$; 由组支撑集的定义可知, $\Gamma (x)=\left \{ 1 \right \}$, 从而 $\left | \Gamma (x) \right |= \left \| x\right \|_{2,0} =1 $.

(2) 若$x=((0,0),(2,1),6,(1,0),0,(1,0,5))^T$, 则 $\left | \Gamma({x}) \right |=4 $.

分析: 由 $x$ 的定义可知, $x_1=(0,0)^{\top}$, $x_2=(2,1)^{\top}$, $x_3=(6)$, $x_4=(1,0)^{\top}$, $x_5=(0)$, $x_6=(1,0,5)^{\top}$ 并且

$\left \| x_1 \right \| =0$, $\left \| x_2 \right \| =\sqrt{5} $, $\left \| x_3 \right \| =6 $, $\left \| x_4 \right \| =1$, $\left \| x_5 \right \| =0$, $\left \| x_6 \right \| =\sqrt{26}$, 故 $\left \| x\right \|_{2,0} =4$; 由组支撑集的定义可知, $\Gamma (x)=\left \{ 2,3,4,6\right \} $, 从而 $\left | \Gamma({x}) \right |=\left \| x\right \|_{2,0}=4 $.

下面探讨由定义 2.1 和定义 2.2 所定义的切锥和法锥的等价刻画形式. 首先给出 Bouligand 意义下切锥和法锥的等价表达式.

定理2.1 对于 $x^*\in S_+$, $S_+$ 在 $x^*$ 处的 Bouligand 切锥可表示为

$T_{S_+}^{B}\left(x^{*}\right)=T_{S}^{B}\left(x^{*}\right) \cap T_{ \mathbb{R}^{n}_+}\left(x^{*}\right),$

其中 $T_{ \mathbb{R}^{n}_+}\left(x^{*}\right)=\left \{ d\in \mathbb{R}^{n}\mid d_{i}\ge 0,i\notin \Gamma ^{*} \right \}$, $\Gamma ^*$ 表示 $x^*$ 的组支撑集.

首先证明 $T_{S}^{B}\left(x^{*}\right) \cap T_{ \mathbb{R}^{n}_+}\left(x^{*}\right)\subseteq T_{S_+}^{B}\left(x^{*}\right)$. 由文献 [18] 中组稀疏集的 Bouligand 切锥的等价形式可知

$ T_{S}^{B}\left(x^{*}\right)=\{d \in \mathbb{R}^{n}\mid \|d\|_{2,0} \leq s,\left\|x^{*}+\mu d\right\|_{2,0} \leq s, \forall \mu \in R\}.$

对 $\forall d\in T_{S}^{B}\left(x^{*}\right) \cap T_{ \mathbb{R}^{n}_+}\left(x^{*}\right)$, $ \forall \mu \in R$, 满足 $\|d\|_{2,0} \leq s$, $\left\|x^{*}+\mu d\right\|_{2,0} \leq s$, 且当 $i\notin \Gamma ^{*}$ 时, $d_{i}\ge 0$. 取序列$ \{ \lambda _{k}\}\subseteq \mathbb{R} $, 使得 $\lambda_{k}> 0$ 且 $\lambda_{k}\to \infty$ 并定义序列 $\{ x^{k}\} $ 为 $x^{k}=x^{*}+\frac{d}{\lambda_{k}}$. 于是, 由$x^{*}\in S_+$ 和 $\|x^{k}\|_{2,0}=\|x^{*}+\frac{d}{\lambda_{k}}\|_{2,0} \leq s$, 可知 $\{x^{k}\} \subseteq S_+$. 又 $\lim \limits_{k \rightarrow \infty} x^{k}=x^{*} $, $\lim\limits _{k \rightarrow \infty} \lambda_{k}(x^{k}-x^{*})=d$, 结合式 (2.1) 可得, $d \in T_{S_+}^{B}(x^{*})$.

下证 $T_{S_+}^{B}\left(x^{*}\right)\subseteq T_{S}^{B}\left(x^{*}\right) \cap T_{ \mathbb{R}^{n}_+}\left(x^{*}\right)$. 由 $S_+\subseteq S$, 可知 $T_{S_+}^{B}\left(x^{*}\right)\subseteq T_{S}^{B}\left(x^{*}\right) $. 对 $\forall d\in T_{S_+}^{B}\left(x^{*}\right) $, 由 $T_{S_+}^{B}\left(x^{*}\right) $ 的定义, 可得 $\lim\limits _{k \rightarrow \infty} \lambda_{k}\left(x^{k}-x^{*}\right)=d$. 故当 $i\notin \Gamma ^*$ 时, $d_i\ge 0$. 从而 $T_{S_+}^{B}\left(x^{*}\right)\subseteq T_{S}^{B}\left(x^{*}\right) \cap T_{ \mathbb{R}^{n}_+}\left(x^{*}\right)$.

因此, $T_{S_+}^{B}(x^{*})=T_{S}^{B}\left(x^{*}\right) \cap T_{ \mathbb{R}^{n}_+}\left(x^{*}\right)$. 证毕.

由定理 2.1, 结合组稀疏集的 Bouligand 切锥的等价表达式[18] 可得如下推论.

推论2.1 对于 $x^*\in S_+$, $S_+$ 在 $x^*$ 处的 Bouligand 切锥的等价表达式为

$\begin{aligned} T_{S_+}^{B}({x^*}) &=\left\{{d} \in \mathbb{R}^{n}\mid \|{d}\|_{2,0} \leq s,\|x^*+\mu {d}\|_{2,0} \leq s, \forall \mu \in {R} \text{且} d_i\ge 0,i\notin\Gamma ^* \right\} \\ &=\bigcup_{J \in \Theta(x^*)}\left\{{d} \in \mathbb{R}^{n}\mid {d}_{i}={0}, i \notin J\right\} \cap \left \{ d\in \mathbb{R}^{n}\mid d_{i}\ge 0,i\notin \Gamma ^{*} \right \}\\ &=\bigcup_{J \in \Theta(x^*)} \operatorname{span}\left\{e_{i j}, i \in J, j=1, \cdots, n_{i}\right\}\cap \left \{ d\in \mathbb{R}^{n}\mid d_{i}\ge 0,i\notin \Gamma ^{*} \right \}, \end{aligned}$

其中 $\Theta\left(x^{*}\right)=\left\{J \subseteq\{1, \cdots m\}\mid \Gamma^{*} \subseteq J,|J|=s\right\}$.

定理2.2 对于 $x^*\in S_+$, $S_+$ 在 $x^*$ 处的 Fréchet 法锥可表示为

$N_{S _{+}}^{B}(x^{*})=N_{S}^{B}(x^{*}) \cup \ (-T_{\mathbb {R}_{+}^{n}}(x^{*})).$

由 Fréchet 法锥定义, 对 $\forall u\in N_{S _{+}}^{B}(x^{*})$, $\forall d\in T_{S _{+}}^{B}(x^{*})$, 都有 $\langle{u}, {d}\rangle\le 0$ 成立. 下面分 $\|x^*\|_{2,0}=s$ 和 $\|x^*\|_{2,0} < s$ 两种情形证明结论成立.

(a) 若 $\|x^*\|_{2,0}=s$, 则 $\{ i:i\in \Gamma ^*\} \cup \{ i:i\notin\Gamma ^*\}= \{1,2,\cdots,m\}$. 由 $N_{S_+}^B(x^*)$ 的定义及推论 2.1 可知

$\begin{aligned} N_{S_+}^B(x^*): &=\{u\in \mathbb{R}^{n} \mid \langle u,d\rangle\le 0,\forall d\in T_{S}^{B}\left(x^{*}\right) \cap T_{\mathbb{R}_+^n}(x^{*})\}\\ &=\left\{u\in \mathbb{R}^{n}\mid \langle u,d\rangle\le 0,\|{d}\|_{2,0} \leq s,\|x^*+\mu {d}\|_{2,0} \leq s, \forall \mu \in \mathbb{R} \text{且}d_i\ge 0,i\notin\Gamma ^* \right\}, \end{aligned}$

从而有 $\Gamma (d)\subseteq \Gamma ^*$. 由 $\langle{u}, {d}\rangle=\sum\limits_{i \in \Gamma ^*}\langle{u}_{i}, {d}_{i}\rangle+\sum\limits_{i \notin \Gamma ^*}\langle{u}_{i}, {d}_{i}\rangle\le 0,$ 当 $i\notin \Gamma ^*$ 时, 则 $i\notin \Gamma (d)$ 且 $d_{i}=0$, 从而 $\sum\limits_{i\notin\Gamma ^* }\langle u_i, d_i \rangle=0$, 即有 $\langle u, d \rangle =\sum\limits_{i\in\Gamma ^* }\langle u_i, d_i \rangle\le 0$; 当 $i \in \Gamma^{*}$ 时, 由 $d_i$ 的任意性, 有 $u_i=0$.

因此, $N_{S_+}^{B}(x^{*})=\{u \in \mathbb{R}^{n}\mid u_{i}=0, i \in \Gamma^{*}\}$. 结合文献 [18,定理 3.1] 知,

$N_{S_+}^{B}(x^{*})=\{u \in \mathbb{R}^{n}\mid u_{i}=0, i \in \Gamma^{*}\}=N_{S}^{B}(x^{*}).$

(b) 若 $\|x^*\|_{2,0} < s$, 则对 $\forall J\in \Theta(x^{*})$, $\langle{u}, {d}\rangle=\sum\limits_{i \in J}\langle{u}_{i}, {d}_{i}\rangle+\sum\limits_{i \notin J}\langle{u}_{i}, {d}_{i}\rangle\le 0.$ 由 $d \in T_{S_+}^{B}(x^{*})$, 结合推论 2.1, 知 $\sum\limits_{i \notin J}\langle{u}_{i}, {d}_{i}\rangle=0$, 即有 $\langle u, d \rangle =\sum\limits_{i \in J}\langle{u}_{i}, {d}_{i}\rangle\le 0$.

(i) 当 $i\notin \Gamma ^*\subseteq J$ 时, 由推论 2.1 知 $d_{i}\ge 0$, 从而 $u_{i}\le 0$. 因此, $u\in (-T_{\mathbb{R}_+^n}(x^{*})) $;

(ii) 当 $i\in \Gamma ^*\subseteq J$ 时, 由 $d_i$ 的任意性可得 $u_i=0$. 从而 $u\in \{u \in \mathbb{R}^{n}\mid u_{i}=0, i \in \Gamma^{*}\}$.

此时有 $N_{S_+}^{B}(x^{*})\subseteq \ (-T_{\mathbb{R}_+^n}(x^{*}))$. 对 $\forall u\in (-T_{\mathbb{R}_+^n}(x^{*}))$, 若 $d\in T_{S}^{B}\left(x^{*}\right) \cap T_{\mathbb{R}_+^n}(x^{*})$, 则有 $ \langle{u}, {d}\rangle\le 0$, 即 $u\in N_{S_+}^{B}(x^{*})$, 从而 $(-T_{\mathbb{R}_+^n}(x^{*}))\subseteq N_{S_+}^{B}(x^{*})$. 因此, $N_{S_+}^{B}(x^{*})=(-T_{\mathbb{R}_+^n}(x^{*}))$.

综合以上两种情况, $N_{S _{+}}^{B}(x^{*})=N_{S}^{B}(x^{*}) \cup \ (-T_{\mathbb{R}_+^n}(x^{*})).$ 证毕.

结合定理 2.1-2.2 及极锥[22]的概念可得如下推论.

推论2.2 对于 $x^*\in S_+$, 有下述结论成立

(1) 当 $\|x^*\|_{2,0} =s$ 且 $x^{*}\ge 0$ 时, $N_{S_+}^{B}(x^{*})=N_{S}^{B}(x^{*})$, $T_{S_+}^{B}(x^{*})=T_{S}^{B}(x^{*})$;

(2) 当 $\|x^*\|_{2,0} <s$ 且 $x^{*}\ge 0$ 时, $T_{S_+}^{B}(x^{*})=T_{S}^{B}(x^{*}) \cap T_{\mathbb{R}^n_+}(x^{*})$, $N_{S_+}^{B}(x^{*})=- T_{\mathbb{R}^n_+}(x^{*})$.

下面两个定理描述了 Clarke 意义下 $S_+$ 的切锥和法锥的等价表示.

定理2.3 对于 $x^*\in S_+$, $S_+$ 在 $x^*$ 处的 Clarke 切锥 $T_{S_+}^{C}\left(x^{*}\right)=T_{S}^{C}\left(x^{*}\right) $.

首先证明 $T_{S_+}^{C}(x^{*})\subseteq \{d\in \mathbb{R}^n\mid d_i=0,i\notin \Gamma ^*\}$. 由式 (2.2) 可知, 对于 $d\in T_{S_+}^{C}(x^{*})$, 有 $\forall\left\{x^{k}\right\} \subseteq S_+$, $\forall\left\{\lambda_{k}\right\} \subseteq \mathbb{R}_{+}$, $\lim\limits _{k \rightarrow \infty} x^{k}=x^{*}$, $ \lim \limits_{k \rightarrow \infty} \lambda_{k}=0$, 存在序列 $\left \{ y^k \right \}\subseteq \mathbb{R}^n $ 使得 $\lim\limits _{k \rightarrow \infty} y^{k}=d$, $x^{k}+\lambda_{k} y^{k} \in S_+$, $k=1,2\cdots $. 假设存在 $d\in T_{S_+}^{C}(x^{*})$, 但 $d\notin \{d\in \mathbb{R}^n\mid d_i=0,i\notin \Gamma ^*\}$, 即存在 $i_0$ 使得 $d_{i_0}\ne 0$ 但 $x^*_{i_0}=0$. 设 $|\Gamma ^*| \le s$, 对任意 $k\in N $, 取 $\Gamma _k\subseteq \{1,2,\cdots m\}\setminus \{ \Gamma ^*\cup \left \{ i_o\right \} \} $. 由 $ \{ x^k \} $ 的任意性, 令

$x_{i}^{k}=\left\{\begin{matrix} x_{i}^{*}, &i \in \Gamma^{*}, \\ \frac{1}{k} \mathbf{1}_{n_i},&i \in \Gamma_{k}, \\ 0, &\text { 其他 }, \end{matrix}\right.$

其中 $\mathbf{1}_{n_i}$ 为元素全为 1 的 $n_i$ 维向量. 使得 $|\Gamma ( x^k ) | = |\Gamma ^*\cup \Gamma _k | = |\Gamma ^*|+|\Gamma _k |=s$, 于是 $\| x^k\|_{2,0} = | \Gamma ^*|+| \Gamma _k|=s$ 且

$\left\{\begin{matrix} x^k_i\ge 0,&i\in \Gamma ^*\cup \Gamma _k, \\ x^k_i=0, & \text { 其他 }, \end{matrix}\right.$

从而 $\{x^k \} \subseteq S_+$, $x_{i_0}^k=0$ 且 $\lim\limits_{k \to \infty} x^k=x^*$. 令 $\lambda _k=\frac{1}{k^3}$, 则当 $k \to\infty $ 时, $\lambda _k=\frac{1}{k^3}\downarrow 0$ 且 $y^k\to d$. 当 $ i \in \Gamma^{*}$ 时, $x_{i}^{k}+\lambda_{k} y_{i}^{k}=x_{i}^{*}+\frac{1}{k^{3}} y_{i}^{k}\ne 0$; 当 $ i \in \Gamma_{k}$ 时, $x_{i}^{k}+\lambda_{k} y_{i}^{k}=\frac{1}{k} \mathbf{1}_{n_{i}}+\frac{1}{k^{3}} y_{i}^{k}\ne 0$; 当 $ i=i_{0}$ 时, 由 $y^k_{i_0}\to d_{i_0}\ne 0$, $x_{i}^{k}+\lambda_{k} y_{i}^{k}=\frac{1}{k^{3}} y_{i}^{k}\ne 0$. 从而, $\left \| x^k+\lambda _ky^k \right \| _{2,0}=| \Gamma (x^k+\lambda _ky^k)| \ge \left | \Gamma _k\cup \Gamma^*\cup \left \{ {i_0} \right \} \right |=s +1 $, 故 $x^k+\lambda _ky^k \notin S_+$. 这与假设矛盾, 因此 $T_{S_+}^{C}(x^{*})\subseteq \{d\in R^n:d_i=0,$ $i\notin \Gamma ^*\}$.

下证: $\{d\in \mathbb{R}^n\mid d_i=0,i\notin \Gamma ^*\}\subseteq T_{S_+}^{C}\left(x^{*}\right)$. 设 $\forall d\in \{d\in \mathbb{R}^n\mid d_i=0,i\notin \Gamma ^*\}$, 对于 $\forall \ \{x^k\} \subseteq S_+$, $\forall \lambda_{k} \subseteq \mathbb{R} _{+}$ 且 $\lim\limits_{k \to \infty} x^k=x^*$, $\lim\limits_{k \to \infty} \lambda_{k}=0$. 可知存在充分大的 $K$, 当 $k>K$ 时, $\Gamma (d) \subseteq \Gamma ^*\subseteq \Gamma (x^k) $. 令

$\begin{array}{ll} y^{k}=0, & k=1,2, \cdots, K,\\ y^{k}=x^{k}-x^{*}+d, & k=K+1, K+2, \cdots. \end{array}$

从而, $\Gamma ( y^k )\subseteq \Gamma ( x^k )$, $\|x^k+\lambda _ky^k \|_{2,0} \le \|x^k \|_{2,0}\le s$, 故 $x^k+\lambda _ky^k \in S_+$. 又 $\lim\limits_{k \to \infty} y^k=\lim\limits_{k \to \infty} ( x^k-x^*+d ) =d$, 可知 $d\in T_{S_+}^{C}$. 再由 $d\in \{d\in \mathbb{R}^n\mid d_i=0,i\notin \Gamma ^*\}$ 的任意性, 有 $ \{d\in \mathbb{R}^n\mid d_i=0,i\notin \Gamma ^*\}\subseteq T_{S_+}^{C}$.

因此, 结合文献 [18] 中 $T_{S}^{C}(x^*)$ 的等价表达式, 可得 $T_{S_+}^{C}=\{d\in \mathbb{R}^n\mid d_i=0,i\notin \Gamma ^*\}=\{d\in \mathbb{R}^n\mid \Gamma (d)\subseteq \Gamma ^* \}=T_{S}^{C}(x^{*})$. 证毕.

定理2.4 对于 $x^*\in S_+$, $S_+$ 在 $x^*$ 处的 Clarke 法锥 $N_{S_+}^{C}(x^*)=N_{S}^{C}(x^*)$.

由极锥[22]的定义及定理 2.3 可知: $N_{S_+}^{C}(x^*)= [T_{S_+}^{C}(x^*)]^\circ = [T_{S}^{C}(x^{*})]^\circ=N_{S}^{C}(x^*)$.

结合文献 [18] 中 $N_{S}^{C}(x^*)$ 的等价表达式得: $N_{S_+}^{C}(x^*) =\{{u} \in \mathbb {R}^{n}\mid u_i=0, i \in \Gamma^*\}$. 证毕.

3 非负组稀疏约束优化问题的稳定点

基于第 2 节给出的 $S_+$ 的切锥与法锥, 本节将定义非负组稀疏约束优化问题 (1.1) 的 $N^B $-稳定点、$N^C$-稳定点、$T^B $-稳定点和 $T^C $-稳定点, 并研究这些稳定点之间的关系.

下面给出问题 (1.1) 的 $N^B$-稳定点、$N^C$-稳定点、$T^B$-稳定点和 $T^C$-稳定点的定义.

定义3.1 对于 $x^*\in S_+$, 如果 $x^*$ 满足 $0\in \nabla f(x^*)+N^B_{S_+}(x^*)$, 则称 $x^*$ 为问题 (1.1) 的 $N^B$-稳定点.

定义3.2 对于 $x^*\in S_+$, 如果 $x^*$ 满足 $0\in \nabla f(x^*)+N^C_{S_+}(x^*)$, 则称 $x^*$ 为问题 (1.1) 的 $N^C$-稳定点.

定义3.3 对于 $x^*\in S_+$, 如果 $x^*$ 满足 $0=\| \nabla _{S_+}^B f(x^*)\|$, 则称 $x^*$ 为问题 (1.1) 的 $T^B$-稳定点, 其中 $\nabla _{S_+}^B f(x^*)=\arg \min \{ \| d+\nabla f(x^*) \|\mid d\in T^B_{S_+}(x^*)\}$.

定义3.4 对于 $x^*\in S_+$, 如果 $x^*$ 满足 $0=\| \nabla _{S_+}^C f(x^*)\| $, 则称 $x^*$ 为问题 (1.1) 的 $T^C$-稳定点, 其中 $\nabla _{S_+}^C f(x^*)=\arg \min \{ \| d+\nabla f(x^*) \|\mid d\in T^C_{S_+}(x^*)\}$.

当问题 (1.1) 为凸优化问题时, $N$-稳定点和 $T$-稳定点是等价的[13]. 下面讨论非负组稀疏约束优化问题 (1.1) 的 $N$-稳定点和 $T$-稳定点之间的关系.

定理3.1 对于问题 (1.1), $x^*$ 是问题 (1.1) 的 $N^B$-稳定点等价于 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点.

下面分 $\|x^*\| _{2,0}=s$ 和 $\|x^*\| _{2,0}< s$ 两种情形进行证明.

(a) 当 $\|x^*\| _{2,0}=s$ 时, 若 $x^*$ 是问题 (1.1) 的 $N^B$-稳定点, 则由 $N^B$-稳定点的定义可知: $-\nabla f\left(x^{*}\right) \in N_{S_+}^{B}\left(x^{*}\right)$. 结合定理 2.2 可得

$\nabla_{i} f\left(x^{*}\right)\left\{\begin{array}{l}=0, i \in \Gamma^{*}, \\\in \mathbb{R}^{n_{i}}, i \notin \Gamma^{*}.\end{array}\right.$

另一方面, $\|x^*\| _{2,0}=s$ 时, 考虑到

$\nabla_{S_+}^{B} f\left(x^{*}\right)=\arg \min \{\left\|d+\nabla f\left(x^{*}\right)\right\|\mid \\ d \in T_{S_+}^{B}\left(x^{*}\right)\},$

并且由推论 2.1 可知 $\Gamma(d) \subseteq \Gamma^{*}$, 因此有下式

$\begin{array}{l} {\left[\nabla_{S_+}^{B} f\left(x^{*}\right)\right]_{i}=\left\{\begin{array}{l} -\nabla_{i} f\left(x^{*}\right), i \in \Gamma^{*},\\ 0, i \notin \Gamma^{*}. \end{array}\right.} \end{array}$

从而, 若 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点, 则 $0=\| \nabla _{S_+}^B f(x^*)\| $, 即 $0=\nabla _{S_+}^B f(x^*)$. 由上述讨论可知, $x^*$ 是问题 (1.1) 的 $T^B$-稳定点等价于

$\nabla_{i} f\left(x^{*}\right)\left\{\begin{array}{l}=0, i \in \Gamma^{*}, \\\in \mathbb {R}^{n_{i}}, i \notin \Gamma^{*}.\end{array}\right.$

结合式 (3.1) 和式 (3.2), 当 $\|x^*\| _{2,0}=s$ 时, $x^*$是问题 (1.1) 的 $N^B$-稳定点当且仅当 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点.

(b) 当 $\|x^*\| _{2,0}< s$ 时, 若 $x^*$ 是问题 (1.1) 的 $N^B$-稳定点, 则由 $N^B$-稳定点的定义, 有 $-\nabla f\left(x^{*}\right) \in N_{S_+}^{B}\left(x^{*}\right)$. 由定理 2.2 中的讨论可知

$N_{S _+}^{B}(x^*)=\left\{\begin{array}{l} u_{i} \leq 0, i \notin \Gamma^{*},\\ u_{i}=0, i \in \Gamma^{*}. \end{array}\right.$

从而有

$ \nabla_i f\left(x^{*}\right)\left\{\begin{array}{l}\in \mathbb{R}_+^{n_i}, i \notin \Gamma^{*}, \\=0, i \in \Gamma^{*}.\end{array}\right.$

另一方面, $\|x^*\| _{2,0}< s$ 时, 若 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点, 则由 $T^B$-稳定点的定义可知: $0=\| \nabla_{S_+}^{B}f(x^{*})\| $. 此式等价于如下式子

$\begin{aligned} 0 & =\arg \min \{\left\|d+\nabla f\left(x^{*}\right)\right\| \mid d \in T_{S_{+}}^{B}\left(x^{*}\right)\} \\ & =\arg \min \{\left\|d+\nabla f\left(x^{*}\right)\right\| \mid\|d\|_{2,0} \leq s,\left\|x^{*}+\mu d\right\|_{2,0} \leq s, \forall \mu \in R \text { 且 } d_{i} \geq 0, i \notin \Gamma^{*}\}. \end{aligned}$

从而对 $\forall {d} \in T_{S_{+}}^{B}\left(x^{*}\right)$, $\left\|\nabla f\left(x^{*}\right)\right\|=\left\|0+\nabla f\left(x^{*}\right)\right\| \leq\left\|d+\nabla f\left(x^{*}\right)\right\|$.

特别地, 对 $\forall i_0\in \{ 1,2,\cdots m \} $, 取 $d^*$ 满足 $\Gamma (d^*)=\left \{ i_0 \right \}$. 由 $\|x^*\|_{2,0} <s$ 可知, $\|{x}^{*}+\mu d^*\|_{2,0}=\left|\Gamma\left({x}^{*}\right) \cup\left\{i_{0}\right\}\right| \leq\left|\Gamma\left({x}^{*}\right)\right|+1 \leq s$. 下面考虑 $i_0\in \Gamma ^*$ 和 $i_0\notin \Gamma ^*$ 两种情形.

(i) 若 $i_0\in \Gamma ^*$, 由 $d^*$ 的任意性, 令 $d_{i_0}^*=-\nabla _{i_0}f(x^{*})$, 则有

$\left\|\nabla_{i_0} f\left(x^{*}\right)\right\|\leq\left\|d_{i_0}^*+\nabla_{i_0} f\left(x^{*}\right)\right\|=\left \| - \nabla_{i_0} f\left(x^{*}\right)+\nabla_{i_0} f\left(x^{*}\right)\right \|=0,$

即 $\nabla_{i_0} f\left(x^{*}\right)=0$. 故由 $i_0$ 的任意性, 当 $i_0\in \Gamma ^*$ 时, $\nabla_{i_0} f\left(x^{*}\right)=0$.

(ii) 若 $i_0\notin \Gamma ^*$, 由 $d^*$ 的任意性, 令 $d_{i_0}^*=\nabla _{i_0}f(x^{*})$, 则有

$\left\|\nabla_{i_0} f\left(x^{*}\right)\right\|\leq\left\|d_{i_0}^*+\nabla_{i_0} f\left(x^{*}\right)\right\|=\left \| \nabla_{i_0} f\left(x^{*}\right)+\nabla_{i_0} f\left(x^{*}\right)\right \|=2\left\|\nabla_{i_0} f\left(x^{*}\right)\right\|$

恒成立. 又由 $d^*\in T_{S_+}^B(x^*)$, 故当 $i_0\notin \Gamma ^*$ 时, $\nabla_{i_0} f\left(x^{*}\right)\in \mathbb{R}^{n_{i_0}}_+$.

结合 $i_0$ 的任意性, 当 $x^{*}$ 是问题 (1.1) 的 $ T^B$-稳定点时

$\nabla_{i} f\left(x^{*}\right)\left\{\begin{matrix}\in\mathbb{R}^{n_i}_+,&i\notin \Gamma ^*, \\=0, &i\in \Gamma ^*.\end{matrix}\right.$

结合式 (3.3) 和式 (3.4) 可知: 当$\|x^*\| _{2,0}< s$时, $x^*$ 是问题 (1.1) 的 $N^B$-稳定点当且仅当 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点.

综合以上两种情形, 结论成立.

下面研究问题 (1.1) 的 $N^C$-稳定点与 $T^C$-稳定点之间的关系.

定理3.2 对于问题 (1.1), $x^*$ 是问题 (1.1) 的 $N^C$-稳定点等价于 $x^*$ 是问题 (1.1) 的 $T^C$-稳定点.

若 $x^*$ 是问题 (1.1) 的 $N^C$-稳定点, 则由 $N^C$-稳定点的定义及定理

2.4 知

$ \nabla _if(x^*)\left\{\begin{matrix}\in \mathbb {R}^{n_i},&i\notin \Gamma ^*, \\=0,&i\in \Gamma ^*.\end{matrix}\right.$

另一方面, 考虑

$\begin{aligned} \nabla_{S_+}^{C} f({x}^{*}) &=\arg \min \{\left\|{d}+\nabla f\left({x}^{*}\right)\right\|\mid {d} \in T_{S_+}^{C}({x}^{*})\} \\ &=\arg \min \left\{\left\|{d}+\nabla f\left({x}^{*}\right)\right\|\mid \Gamma (d)\subseteq \Gamma ^*\right\}. \end{aligned}$

可以得到

$[\nabla _{S_+} ^C f(x^*)] _i=\left\{\begin{matrix} 0,&i\notin \Gamma ^*, \\ -\nabla _if(x^*),&i\in \Gamma ^*. \end{matrix}\right.$

因此, 若 $x^*$ 是问题 (1.1) 的 $T^C$-稳定点, 则 $\|\nabla_{S_+}^{C} f(x^*)\|=0$, 即对任意 $i\in \{ 1,2,\cdots m \} $, $[\nabla _{S_+} ^C f(x^*)] _i=0$, 此式等价于

$ \nabla _if(x^*)\left\{\begin{matrix}\in \mathbb{R}^{n_i},&i\notin \Gamma ^*, \\=0,&i\in \Gamma ^*.\end{matrix}\right.$

结合式 (3.5) 和式 (3.6) 可证得结论成立.

由以上两个定理还可以得到如下两个推论.

推论3.1 若 $x^*$ 是问题 (1.1) 的 $N^B$-稳定点, 则它一定是问题 (1.1) 的 $N^C$-稳定点.

由式 (3.1)、式 (3.3) 和式 (3.5) 可证得结论成立.

推论3.2 若 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点, 则它一定是问题 (1.1) 的 $T^C$-稳定点.

由式 (3.2)、式 (3.4) 和式 (3.6) 可证得结论成立.

4 一阶与二阶最优性条件

优化问题的最优性条件常与其稳定点密切相关, 基于上一节中对于四类稳定点的具体刻画, 本节探讨非负组稀疏约束优化问题 (1.1) 的一阶最优性条件和二阶最优性条件.

首先讨论问题 (1.1) 的一阶最优性条件, 即具体给出问题 (1.1) 的局部极小点与全局极小点和四类稳定点之间的关系.

定理4.1 若 $x^*\in S_+$ 是问题 (1.1) 的局部极小点, 则 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点.

设 $x^*$ 是问题 (1.1) 的局部极小点, 则存在常数 $\delta >0$, 使得 $f(x^*)\le f(x)$ 对任意 $ x \in \mathcal{N}\left(x^{*}, \delta\right) \cap S_+$ 成立. 下面分两种情形证明 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点.

情形 1 当 $\left \| x^* \right \| _{2,0}<s$ 时, $\bigcup\limits_{\Gamma^{*} \subseteq J, \left | J \right | =s}J=\{1,2, \cdots m\}$. 从而对 $\forall i\in \{ 1,2,\cdots m\} $, $j=1,2\cdots n_i$, 若 $i\in \Gamma ^*\subseteq J$, 则对充分小的 $t>0$ 或 $t<0$, 当 $x=x^*+te_{ij}\in \mathcal{N}\left(x^{*}, \delta\right) \cap S_+$ 时使得 $f(x^*)\le f(x^*+te_{ij})=f(x^*)+t\nabla _{ij}f(x^*)+\circ (t)$ 成立. 此时, $\nabla _{ij}f(x^*)=0$, 由 $j=1,2\cdots n_i$, 故 $\nabla _{i}f(x^*)=0$; 若 $i\notin \Gamma ^*\subseteq J$, 为了保证 $x=x^*+te_{ij}\in \mathcal{N}\left(x^{*}, \delta\right) \cap S_+$, 此时只对 $t>0$ 成立, 从而由 $f(x^*)\le f(x^*+te_{ij})=f(x^*)+t\nabla _{ij}f(x^*)+\circ (t)$ 可知 $\nabla _{ij}f(x^*)\ge 0$, 由 $j=1,2\cdots n_i$, 可知 $\nabla _{i}f(x^*)\in \mathbb{R}^{n_i}_+$.

情形 2 当 $\left \| x^* \right \| _{2,0}=s$ 时, $J=\Gamma ^*$, 证明过程同上. 因此可知, 当 $i\in \Gamma ^*$时, $\nabla _if(x^*)=0$.

由以上讨论, 结合式 (3.2) 及式 (3.4), 定理得证.

结合定理 4.1 及推论 3.2 可得如下推论.

推论4.1 若 $x^*\in S_+$ 是问题 (1.1) 的局部极小点, 则 $x^*$ 是问题 (1.1) 的 $T^C$-稳定点.

由定理 3.1 中 $N^B$-稳定点与 $T^B$-稳定点的等价关系可知: 若 $x^*\in S_+$ 是问题 (1.1) 的局部极小点, 则 $x^*$ 是问题 (1.1) 的 $N^B$-稳定点; 再由推论 3.1 知, $x^*$ 也是问题 (1.1) 的 $N^C$-稳定点.

值得注意的是, 由以上讨论可知当 $x^*$ 是问题 (1.1) 的局部极小点时, $x^*$ 一定是问题 (1.1) 的 $T^B$-稳定点和 $T^C$-稳定点, 这意味着 $T^B$-稳定点或 $T^C$-稳定点是问题 (1.1) 的最优解的必要条件. 但反之不一定成立, 下面举例说明.

例 4.1 考虑问题

$\begin{aligned} \min \quad & f(x)=\left(x_{1}+1\right)^{2}+2\left(x_{2}-1\right)^{2}+\left(x_{3}-1\right)^{2} \\ &\text { s.t. } \|x\|_{2,0} \leq 2, \quad x \geq 0. \end{aligned}$

分析: $f(x)$ 是凸函数且其梯度为 $\nabla f(x)=2\left((x_{1}+1, 2(x_{2}-1)), x_{3}-1\right)^{\top}$. 对于 $x^*=((0,0),1)^{\top}$, $\nabla f(x^*)=((2, -4), 0)^{\top}$. 由式 (3.6) 可知 $x^*$ 是该问题的 $T^C$-稳定点. 但当 $0<\varepsilon <\frac{2}{3} $ 时, $((\varepsilon,\varepsilon ),1)^{\top}$ 满足可行条件, 而

$f(((\varepsilon,\varepsilon ),1)^{\top})<f(x^*),$

这说明 $x^*$ 不是问题 (1.1) 的局部极小点.

为了保证当 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点时, 该点也是问题 (1.1) 的局部极小点, 需要对目标函数添加限制条件. 基于文献 [14] 中关于限制凸函数的定义, 本文将此概念推广到非负组稀疏约束优化问题 (1.1) 中. 下面给出相应于问题 (1.1) 的目标函数的 $s$ -限制凸和 $s$ -限制强凸的定义.

定义4.1 若对于任意 $x,y\in \mathbb{R}^n$ 满足 $ |\Gamma (x,y)|= |\Gamma (x)\cup\Gamma (y) |\le s$, 这里 $x,y$ 的分组情况是一样的, 有

$f(y)-f(x)-\langle \nabla f(x),y-x \rangle\ge \frac{l_s}{2} \|y-x\|^2,$

其中 $l_s>0$, 则称函数 $f(x)$ 为参数 $l_s>0$ 的 $s$ -限制强凸函数. 特别地, 若 $l_s=0$, 函数 $f(x)$ 称为是 $s$ -限制凸函数.

定义4.2 若对于任意 $x,y\in \mathbb{R}^n$ 满足 $ |\Gamma (x,y)|= |\Gamma (x)\cup\Gamma (y) |\le 2s$, 这里 $x,y$ 的分组情况是一样的, 有

$f(y)-f(x)-\langle \nabla f(x),y-x \rangle\ge \frac{l_{2s}}{2} \|y-x\|^2,$

其中 $l_{2s}>0$, 则称函数 $f(x)$ 为参数 $l_{2s}>0$ 的 $2s$ -限制强凸函数. 特别地, 若 $l_{2s}=0$, 函数 $f(x)$ 称为是 $2s$ -限制凸函数.

在凸约束可微问题的最优性条件的研究中, 变分不等式通常用于刻画优化问题在某点 $x^*$ 处的稳定性[12]. 下面我们给出组稀疏非负约束优化问题 (1.1) 的 $T^B$-稳定点的变分不等式刻画.

引理4.1 令 $x^*\!\in\! S_+$, 若 $ x^*$ 是问题 (1.1) 的 $T^B$-稳定点, 则存在 $\delta $ 满足 $0<\delta <\min \{ x^*_{ij}\mid x^*_{ij}\ne 0,i\in \Gamma ^*,j=1,2,\cdots n_i \}$, 使得对 $\forall x \in \mathcal{N}\left(x^{*}, \delta\right) \cap S_+$, 有下式成立

$ \left \langle \nabla f(x^*),x-x^* \right \rangle \left\{\begin{matrix}=0,&\left \| x^* \right \|_{2,0}=s, \\\ge 0,&\left \| x^* \right \|_{2,0}<s.\end{matrix}\right.$

特别地, 当$\left \| x^* \right \| _{2,0}<s$时, 若 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点, 则对 $\forall x\in S_+$, $ \langle \nabla f(x^*),$ $x-x^* \rangle \ge 0$.

下面分 $\left \| x^* \right \| _{2,0}=s$ 和 $\left \| x^* \right \| _{2,0}<s$ 两种情形进行证明.

情形 1 当 $\left \| x^* \right \| _{2,0}=s$, $x^*\ge 0$ 时, 取 $\delta $ 满足 $0<\delta <\min \{ x^*_{ij}\mid x^*_{ij}\ne 0,i\in \Gamma ^*,$ $j=1,2,\cdots n_i \}$, 对 $ \forall x \in \mathcal{N}\left(x^{*}, \delta\right) \cap S_+$, $\delta >0$ 以及 $i\in \Gamma ^*$, 有

$x_{ij}=x_{ij}^*-(x_{ij}^*-x_{ij})\ge x_{ij}^*-\left | x_{ij}^*-x_{ij} \right | >x_{ij}^*-\delta >0,$

从而 $\Gamma ^*\subseteq \Gamma (x)$. 由 $ \| x\| _{2,0}\le s$ 和 $ | \Gamma ^* | = \| x^* \| _{2,0}= s$, 可得对 $ \forall x \in \mathcal{N}\left(x^{*}, \delta\right) \cap S_+$, $\Gamma (x)\equiv \Gamma ^*$.

因为 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点, 则由式 (3.2) 可得

$\langle\nabla f(x^{*}), x-x^{*}\rangle=\sum\limits_{i \in \Gamma^{*}} \nabla_{i} f(x^{*})^{\top}(x_{i}-x_{i}^{*})+\sum\limits_{i \notin \Gamma^{*}} \nabla_{i} f(x^{*})^{\top}(x_{i}-x_{i}^{*})=0.$

情形 2 当 $\left \| x^* \right \| _{2,0}<s$, $x^*\ge 0$ 时, 对任意 $\delta>0$ 且 $ \forall x \in \mathcal{N}\left(x^{*}, \delta\right) \cap S_+$, 因为 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点, 则由式 (3.4) 可知

$\langle\nabla f(x^{*}), x-x^{*}\rangle=\sum\limits_{i \in \Gamma^{*}} \nabla_{i} f(x^{*})^{\top}(x_{i}-x_{i}^{*})+\sum\limits_{i \notin \Gamma^{*}} \nabla_{i} f(x^{*})^{\top}(x_{i}-x_{i}^{*})\ge 0.$

特别地, 由上述情形 2 的讨论可知, 当$\left \| x^* \right \| _{2,0}<s$, $x^*\ge 0$ 时, 对 $ \forall x\in S_+$, 结合式 (3.4), 有

$\langle\nabla f(x^{*}), x-x^{*}\rangle=\sum\limits_{i \in \Gamma^{*}} \nabla_{i} f(x^{*})^{\top}(x_{i}-x_{i}^{*})+\sum\limits_{i \notin \Gamma^{*}} \nabla_{i} f(x^{*})^{\top}(x_{i}-x_{i}^{*})\ge 0.$

引理得证.

基于上述 $T^B$-稳定点的变分不等式刻画, 下面研究问题 (1.1) 的一阶充分最优性条件.

定理4.2 若 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点且 $f(x)$ 是 $2s$-限制凸函数, 则 $x^*$ 是问题 (1.1) 的局部极小点.

若 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点且 $f(x)$ 是 $2s$-限制凸函数, 则对 $\forall x \in \mathcal{N}\left(x^{*}, \delta\right) \cap S_+$, 可知 $|\Gamma(x,x^*) | = | \Gamma (x)\cup\Gamma^* | \le |\Gamma^* |+| \Gamma (x) |\le 2s$, 因此,

$f(x)\ge f(x^*) +\langle \nabla f(x^*),x-x^* \rangle.$

再由式 (4.1), 可知 $\langle \nabla f(x^*),x-x^* \rangle\ge 0$, 故 $f(x)\ge f(x^*) +\langle \nabla f(x^*),x-x^* \rangle\ge f(x^*)$ 恒成立, 从而 $x^*$ 是问题 (1.1) 的局部极小点. 证毕.

由 $T^B$-稳定点和 $N^B$-稳定点的等价关系可得以下推论.

推论4.2 若 $x^*$ 是问题 (1.1) 的 $N^B$-稳定点且 $f(x)$ 是 $2s$-限制凸函数, 则 $x^*$ 是问题 (1.1) 的局部极小点.

以上结果讨论了 $T^B$-稳定点、$N^B$-稳定点和局部极小点之间的关系. 根据 $T^B$-稳定点的变分不等式刻画以及相关结论, 下面讨论问题 (1.1) 的全局极小点和 $T^B$-稳定点之间的关系.

推论4.3 假设 $f(x)$ 是 $2s$-限制凸函数且 $\| x^* \|_{2,0} <s$, 若 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点, 则 $x^*$ 是问题 (1.1) 的全局极小点.

若 $f(x)$ 是 $2s$ -限制凸的, $\| x^* \|_{2,0} <s$, 则对于任意 $x\in S_+$, 满足 $|\Gamma(x,x^*) | = | \Gamma (x)\cup\Gamma^* | \le |\Gamma^* |+| \Gamma (x) |\le 2s$, 则 $f(x)\ge f(x^*) +\langle \nabla f(x^*),x-x^* \rangle$.

因此, 当 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点时, 由引理 4.1, 有 $f(x)\ge f(x^*) +\langle \nabla f(x^*),x-x^* \rangle\ge f(x^*)$, 从而 $x^*$ 是问题 (1.1) 的全局极小点. 证毕.

进一步, 由定理 3.1 讨论的 $T^B$-稳定点和 $N^B$-稳定点的关系可得如下推论.

推论4.3 假设 $f(x)$ 是 $2s$-限制凸函数且 $\| x^* \|_{2,0} <s$, 若 $x^*$ 是问题 (1.1) 的 $N^B$-稳定点, 则 $x^*$ 是问题 (1.1) 的全局极小点.

下面研究如果限制在某一子空间时, $T^B$-稳定点或 $T^C$-稳定点也是问题 (1.1) 的全局极小点.

定理4.4 假设 $f(x)$ 是 $s$-限制凸函数, 若 $x^*$ 是问题 (1.1) 的 $T^B$-稳定点, 则对任意的 $J\subseteq \{ 1,2,\cdots m \}$ 满足 $\Gamma ^*\subseteq J$ 且 $|J| =s$, $x^*$ 也是限制在子空间 $\mathbb{R}^n_J$ 上的全局极小点, 其中 $\mathbb{R}^n_J\triangleq \operatorname{span}\left\{e_{i j}, i \in J,j=1,2,\cdots n_i\right\}$.

对任意 $x\in \mathbb{R}^n_J\cap \mathbb{R} ^n_+$, 当 $\| x^* \| _{2,0}=s$, 即 $J=\Gamma ^*$ 时, $|\Gamma(x,x^*) | = | \Gamma (x)\cup\Gamma^* | = | \Gamma^* |=s$, 对任意 $i\notin \Gamma ^*$, $(x_i-x^*_i)=0$; 当 $\| x^* \| _{2,0}<s $ 时, $|\Gamma(x,x^*) | = | \Gamma (x)\cup\Gamma^* | \le s$, 对任意 $i\notin \Gamma ^*$, $(x_i-x^*_i)=x_i\ge 0$. 由 $f(x)$ 是 $s$-限制凸的, 且 $x^*$ 是 $T^B$-稳定点, 结合式 (3.2) 和式 (3.4), 有

$\begin{aligned} f(x) & \geq f(x^{*})+\langle\nabla f(x^{*}), x-x^{*}\rangle \\ &=f(x^{*})+\sum\limits_{i \in \Gamma^{*}} \nabla_{i} f(x^{*})^{\top}(x_{i}-x_{i}^{*})+\sum\limits_{i \notin \Gamma^{*}} \nabla_{i} f\left(x^{*}\right)^{\top}\left(x_{i}-x_{i}^{*}\right) \\ & \geq f(x^{*}). \end{aligned}$

结论得证.

推论4.4 假设 $f(x)$ 是 $s$-限制凸函数, 若 $x^*$ 是问题 (1.1) 的 $T^C$-稳定点, 则它是限制在子空间 $\mathbb{R}^n_ {\Gamma^{*}}$ 上的全局极小点, 其中 $\mathbb{R}_{\Gamma^{*}}^{n} \triangleq \operatorname{span}\left\{e_{i j}, i \in \Gamma^{*},j=1,2,\cdots n_i\right\}$.

证明过程与定理 4.4 类似. 需要注意的是, 当 $i\notin \Gamma ^*$ 时, 由式 (3.6), 可知 $\nabla _if(x^*)\in \mathbb{R}^{n_i}$. 若 $x\in \mathbb{R}^n_J\cap \mathbb{R} ^n_+$, 则 $\sum\limits_{i \notin \Gamma^{*}} \nabla_{i} f\left(x^{*}\right)^{\top}\left(x_{i}-x_{i}^{*}\right)$ 取任意值, 无法保证 $x^*$ 是限制在子空间 $\mathbb{R}^n_J$ 上的全局极小点. 但是, 当 $x\in \mathbb{R}^n_ {\Gamma^{*}}$ 时, 对$\forall i\notin \Gamma ^*$, 有 $(x_i-x^*_i)=0$, 结合式 (3.6) 可知 $f(x)\ge f(x^*)$. 证毕.

在定理 4.2-定理 4.4 及其推论中, 当假设 $f(x)$ 是 $s$-限制强凸函数或 $2s$-限制强凸函数时, 证明过程中的不等式为 $f(x) \geq f(x^{*})+\langle\nabla f(x^{*}), x-x^{*}\rangle+\frac{l_s}{2} \left \| x-x^* \right \| >f(x^{*})$ 或 $f(x) \geq f(x^{*})+\langle\nabla f(x^{*}), x-x^{*}\rangle+\frac{l_{2s}}{2} \left \| x-x^* \right \| >f(x^{*})$, 则可得到相应的稳定点是全局或局部唯一极小点.

与文献 [10] 和 [18] 类似, 对于问题 (1.1), 下面我们给出 Clarke 意义下问题 (1.1) 的二阶充分和必要最优性条件.

定理4.5 (二阶必要条件) 设 $f(x)$ 二阶连续可微, 若 $x^*\in S_+$ 为问题 (1.1) 的局部极小点, 则对任意 $ d\in T_{S_+}^C\left(x^{*}\right)$, 都有 $d^{T} \nabla^{2} f\left(x^{*}\right) d \geq 0$.

定理4.6 (二阶充分条件) 设 $f(x)$ 二阶连续可微, $x^*\in S_+$ 为问题 (1.1) 的 $N^C$-稳定点, 若对任意 $ 0 \neq d \in T_{S_+}^{C}\left(x^{*}\right)$, 都有 $d^{T} \nabla^{2} f\left(x^{*}\right) d>0$, 则 $x^*$ 是问题 (1.1) 限制在 $\mathbb{R}_{\Gamma ^*}^n\cap\mathbb{R} ^n_+$ 上的严格局部极小点.

上述两个定理的证明可参考文献 [10] 和文献 [18] 类似给出.

5 总结

本文研究了非负组稀疏约束集 $S_+$ 的 Bouligand 切锥、Clarke 切锥以及它们对应的法锥的表达式. 利用 Bouligand 切锥与法锥和 Clarke 切锥与法锥并结合梯度投影, 定义了非负组稀疏约束优化问题的的四类稳定点: $N^B$-稳定点、$N^C$-稳定点、$T^B$-稳定点和 $T^C$-稳定点, 并讨论了这四类稳定点之间的关系. 基于所建立的稳定点的概念, 探究了问题 (1.1) 的局部极小点和这四类稳定点的关系, 建立了该问题的一阶必要最优性条件. 通过给出 $T^B$-稳定点的变分不等式刻画以及对目标函数添加适当的限制条件, 给出了该问题的一阶充分最优性条件. 进一步, 当对目标函数和决策变量的组稀疏度同时添加限制条件时, 本$文$课题讨论了稳定点和全局极小点之间的关系. 最后, 本文建立了 Clarke 意义下问题 (1.1) 的二阶最优性条件. 在后续的研究中, 我们考虑将本文的研究结果推广到除简单非负集合以外更一般的对称集上的组稀疏优化问题中. 另外, 本文未设计求解非负组稀疏约束优化问题的算法, 今后, 将基于本文所得到的最优性条件研究求解该问题的有效算法.

参考文献

Candès E J, Tao T.

Decoding by linear programming

IEEE Transactions on Information Theory, 2005, 51(12): 4203-4215

DOI:10.1109/TIT.2005.858979      URL     [本文引用: 1]

Donoho D L.

Compressed sensing

IEEE Transactions on Information Theory, 2006, 52(4): 1289-1306

DOI:10.1109/TIT.2006.871582      URL     [本文引用: 1]

Candès E J, Romberg J, Tao T.

Robust uncertainty principles: exact signal reconstruction from highly incomplete frequency information

IEEE Transactions on Information Theory, 2006, 52(2): 489-509

DOI:10.1109/TIT.2005.862083      URL     [本文引用: 1]

Liu Y F, Wu Y C.

Variable selection via a combination of the $L_0$ and $L_1$ penalties

Journal of Computational and Graphical Statistics, 2007, 16(4): 782-798

DOI:10.1198/106186007X255676      URL     [本文引用: 1]

Soubies E, Blanc-Féraud L, Aubert G.

A continuous exact $l_0$ penalty($cel0$) for least squares regularized problem

SIAM Journal on Imaging Sciences, 2015, 8(3): 1607-1639

DOI:10.1137/151003714      URL     [本文引用: 1]

Bühlmann P, Kalisch M, Meier L.

High-dimensional statistics with a view toward applications in biology

Annual Review of Statistics and Its Application, 2014, 1(1): 255-278

[本文引用: 1]

Yuan M, Lin Y.

Model selection and estimation in regression with grouped variables

Journal of the Royal Statistical Society Series B-Statistical Methodology, 2006, 68(1): 49-67

DOI:10.1111/j.1467-9868.2005.00532.x      URL     [本文引用: 1]

We consider the problem of selecting grouped variables (factors) for accurate prediction in regression. Such a problem arises naturally in many practical situations with the multifactor analysis-of-variance problem as the most important and well-known example. Instead of selecting factors by stepwise backward elimination, we focus on the accuracy of estimation and consider extensions of the lasso, the LARS algorithm and the non-negative garrotte for factor selection. The lasso, the LARS algorithm and the non-negative garrotte are recently proposed regression methods that can be used to select individual variables. We study and propose efficient algorithms for the extensions of these methods for factor selection and show that these extensions give superior performance to the traditional stepwise backward elimination method in factor selection problems. We study the similarities and the differences between these methods. Simulations and real examples are used to illustrate the methods.

Huang J Z, Zhang T.

The benefit of group sparsity

Annals of Statistics, 2010, 38(4): 1978-2004

[本文引用: 1]

Jenatton R, Audibert J, Bach F, et al.

Structured variable selection with sparsity-inducing norms

Journal of Machine Learning Research, 2011, 12: 2777-2824

[本文引用: 1]

Pan L L, Xiu N H, Fan J.

Optimality conditions for sparse nonlinear programming

Science China Mathematics, 2017, 60(5): 759-776

DOI:10.1007/s11425-016-9010-x      URL     [本文引用: 3]

Zhang H, Pan L L, Xiu N H.

Optimality conditions for locally Lipschitz optimization with $l_0$-regularization

Optimization Letters, 2021, 15(1): 189-203

DOI:10.1007/s11590-020-01579-y      [本文引用: 1]

Beck A, Eldar Y C.

Sparsity constrained nonlinear optimization: optimality conditions and algorithms

SIAM Journal on Optimization, 2013, 23(3): 1480-1509

DOI:10.1137/120869778      URL     [本文引用: 2]

Pan L L, Xiu N H, Zhou S L.

On solutions of sparsity constrained optimization

Journal of the Operations Research Society of China, 2015, 3(4): 421-439

DOI:10.1007/s40305-015-0101-3      URL     [本文引用: 2]

Pan L L, Xiu N H, Zhou S L, et al.

A convergent iterative hard thresholding for sparsity and nonnegativity constrained optimization

Pacific Journal of Optimization, 2017, 13(2): 325-353

[本文引用: 3]

Beck A, Hallak N.

On the minimization over sparse symmetric sets: projections, optimality conditions, and algorithms

Mathematics of Operations Research, 2016, 41(1): 196-223

DOI:10.1287/moor.2015.0722      URL     [本文引用: 1]

We consider the problem of minimizing a general continuously differentiable function over symmetric sets under sparsity constraints. These type of problems are generally hard to solve because the sparsity constraint induces a combinatorial constraint into the problem, rendering the feasible set to be nonconvex. We begin with a study of the properties of the orthogonal projection operator onto sparse symmetric sets. Based on this study, we derive efficient methods for computing sparse projections under various symmetry assumptions. We then introduce and study three types of optimality conditions: basic feasibility, L-stationarity, and coordinatewise optimality. A hierarchy between the optimality conditions is established by using the results derived on the orthogonal projection operator. Methods for generating points satisfying the various optimality conditions are presented, analyzed, and finally tested on specific applications.

Lu Z S.

Optimization over sparse symmetric sets via a nonmonotone projected gradient method

arXiv: 1509.08581

[本文引用: 1]

Beck A, Hallak N.

Optimization problems involving group sparsity terms

Mathematical Programming, 2019, 178(1): 39-67

DOI:10.1007/s10107-018-1277-1      [本文引用: 1]

Wu W Y, Peng D T.

Optimality conditions for group sparse constrained optimization problems

Mathematics, 2021, 9(1): 1-17

DOI:10.3390/math9010001      URL     [本文引用: 9]

Using the wavelet transform defined in the infinite domain to process the signal defined in finite interval, the wavelet transform coefficients at the boundary are usually very large. It will bring severe boundary effect, which reduces the calculation accuracy. The construction of interval wavelet is the most common method to reduce the boundary effect. By studying the properties of Shannon-Cosine interpolation wavelet, an improved version of the wavelet function is proposed, and the corresponding interval interpolation wavelet based on Hermite interpolation extension and variational principle is designed, which possesses almost all of the excellent properties such as interpolation, smoothness, compact support and normalization. Then, the multi-scale interpolation operator is constructed, which can be applied to select the sparse feature points and reconstruct signal based on these sparse points adaptively. To validate the effectiveness of the proposed method, we compare the proposed method with Shannon-Cosine interpolation wavelet method, Akima method, Bezier method and cubic spline method by taking infinitesimal derivable function cos(x) and irregular piecewise function as an example. In the reconstruction of cos(x) and piecewise function, the proposed method reduces the boundary effect at the endpoints. When the interpolation points are the same, the maximum error, average absolute error, mean square error and running time are 1.20 × 10−4, 2.52 × 10−3, 2.76 × 10−5, 1.68 × 10−2 and 4.02 × 10−3, 4.94 × 10−4, 1.11 × 10−3, 9.27 × 10−3, respectively. The four indicators mentioned above are all lower than the other three methods. When reconstructing an infinitely derivable function, the curve reconstructed by our method is smoother, and it satisfies C2 and G2 continuity. Therefore, the proposed method can better realize the reconstruction of smooth curves, improve the reconstruction efficiency and provide new ideas to the curve reconstruction method.

Peng D T, Chen X J.

Computation of second-order directional stationary points for group sparse optimization

Optimization Methods and Software, 2020, 35(2): 348-376

DOI:10.1080/10556788.2019.1684492      URL     [本文引用: 1]

Pan L L, Chen X J.

Group sparse optimization for images recovery using capped folded concave functions

SIAM Journal on Imaging Sciences, 2021, 14(1): 1-25

DOI:10.1137/19M1304799      URL     [本文引用: 1]

Li W J, Bian W, Toh K C.

Difference-of-convex algorithms for a class of sparse group $l_0$ regularized optimization problems

SIAM Journal on Optimization, 2022, 32(3): 1614-1641

DOI:10.1137/21M1443455      URL     [本文引用: 1]

Rockafellar R T, Wets R J. Variational Analysis. Berlin: Springer, 2009

[本文引用: 5]

/