1 引言
该文考虑如下目标函数和约束函数带不可分结构的大规模非凸优化问题
(1.1) $\begin{array}{l} \min f(x, y) \\ \text { s.t. } h(x, y)=0, \\ x \in \mathcal{X}:=\{x \mid l \leqslant C x \leqslant v\}, \\ y \in \mathcal{Y}:=\{y \mid s \leqslant D y \leqslant r\},\end{array}$
其中 $f:\mathbb{R} ^{n_{1}+n_2}\rightarrow \mathbb{R} $ , $h(x, y)=(h_1(x,y),\cdots,h_m(x,y))^\top: \mathbb{R} ^{n_{1}+n_2}\rightarrow \mathbb{R} ^m$ , 均光滑但不一定凸, $l=(l_1,\cdots,l_{m_1})^\top$ , $ v=( v_1,\cdots, v_{m_1})^\top$ , $-\infty\leqslant l_i< v_i\leqslant+\infty$ , $s=(s_1,\cdots,s_{m_2})^\top$ , $r=(r_1,\cdots,r_{m_2})^\top$ , $-\infty\leqslant s_i<r_i\leqslant+\infty$ , 矩阵 $C\in \mathbb{R} ^{m_1\times n_1},\ D\in \mathbb{R} ^{m_2\times n_2}$ .
(1.2) $\begin{matrix}L_{\beta}(x,y,\lambda)= f(x,y)-\lambda^\top h(x,y)+\frac{\beta}{2}\|h(x,y)\|^2,\end{matrix}$
其中, $(x,y)$ 和 $\lambda$ 分别称为原始变量和对偶变量 (乘子), $\beta>0$ 为罚参数.
分裂算法是求解带可分结构问题十分有效的算法之一, 主要的分裂算法有 Douglas-Rachford (DR) 分裂算法[1 ] 和 Peaceman-Rachford (PR) 分裂算法[2 ] . 经典的乘子交替方向法 (ADMM) 本质上是将 DR 分裂算法直接应用于求解凸两分块优化的对偶问题, 其算法和一些拓展变体的ADMM 可以将大规模的问题分解成若干个较小规模的问题进行交互求解, 进而降低求解难度和减少计算成本.
(1.3) $ \begin{array}{ll} \min & f(x)+\theta(y) \\ \mbox{ s.t. } &h(x)+g(y)=0, \\ &\ x\in {\cal X},\ y\in {\cal Y}, \end{array} $
其中函数 $f:\mathbb{R} ^{n_{1}}\rightarrow \mathbb{R} $ , $\theta:\mathbb{R} ^{n_{2}}\rightarrow \mathbb{R},\ h(x)=(h_1(x),\cdots,h_m(x))^\top: \mathbb{R} ^{n_{1}}\rightarrow \mathbb{R} ^m$ , $g(y)=(g_1(y),\cdots,g_m(y))^\top: \mathbb{R} ^{n_{2}}\rightarrow \mathbb{R} ^m$ , 闭凸集${\cal X}\in \mathbb{R} ^{n_1}$ 和${\cal Y}\in \mathbb{R} ^{n_2}$ . 求解问题 (1.3) 的经典 ADMM 迭代模式为
$\left\{\begin{array}{ll} x_{k+1}=\arg\min\{ {L}_\beta(x,y_{k},\lambda_{k})\mid x\in{\cal X}\},\\ y_{k+1}=\arg\min\{ {L}_\beta(x_{k+1},y,\lambda_{k})\mid y\in{\cal Y}\},\\ \lambda_{k+1}=\lambda_{k}-\beta(h(x_{k+1})+g(y_{k+1})), \end{array}\right.$
其中, $L_{\beta}(\cdot)$ 为问题(1.3)的(部分)增广拉格朗日函数, $\lambda$ 为拉格朗日乘子, $\beta>0$ 为罚参数.
近年来, 许多学者对非凸优化进行广泛研究, 并取得一系列成果, 如文献[3 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -10 ]. 对于目标函数可分的非凸优化问题, 文献[3 -4 ]对ADMM 两个子问题均加上 Bregman 距离, 提出了 Bregman 正则化 ADMM, 在效益函数满足Kurdyka-Lojasiewicz (KL) 性质的条件下, 分析了相应算法的收敛性. 文献[5 ]在一般条件下论证经典 ADMM 求解问题(1.3)在具有仿射线性约束时的收敛性和收敛率. 文献[6 ]在迭代第二个子问题时加入惯性技术, 获得惯性邻近版本的ADMM.
而对于非凸不可分优化问题, 其收敛性仍是一个公开问题. 文献[11 ]指出, 当目标函数存在不可分结构$h(x,y)$ 时, 即使在凸情形下收敛性证明仍具挑战. 文献[12 ]研究了一类特殊问题, 即问题(1.3)中目标函数带不可分结构 $h(x,y)$ , 约束为仿射线性约束 $h(x)+g(y)=Ax+By-b$ , 得到经典 ADMM 的收敛性. 文献[13 ]运用线性化技术对目标函数中可微项进行线性化处理, 给出线性化版本的 ADMM. 文献[14 ]基于 PR 分裂算法, 结合线性近似技术和 Bregman 距离, 提出一种不可分优化线性近似 Bregman 型 PR 分裂算法, 在常规假设条件下获得算法全局收敛性, 在效益函数满足 KL性质时证得强收敛性. 当 KL 性质关联函数具有特殊结构时, 分析收敛率结果.
另一方面, 序列二次规划 (SQP) 算法是求解带线性或非线性约束优化问题最有效算法之一, 由 Wilson[15 ] 首先提出, 因其具有良好的理论性质和高效的计算效果, 尤其对于中小规模问题来说, 这一优势更加显著. 因此, SQP 算法深受研究者欢迎, 理论成果丰富, 如文献[16 ⇓ ⇓ ⇓ -20 ]. 充分吸收 ADMM 和 SQP 算法高效求解的优势, 文献[21 ] 首次提出了 ADMM-SQP 算法, 该算法基于 ADMM 的分解降维思想, 将 SQP 思想所需求解的 QP 子问题分解为两个互相独立的小规模 QP 子问题, 再利用 Armijo 线搜索技术产生新的迭代点, 在合理的假设下论证了算法良好的理论性质.
文献[22 ] 中, 考虑问题(1.3)的二次约束二次规划 (QCQP) 近似子问题, 对 QCQP 子问题的增广拉格朗日问题应用分裂算法思想, 获得两个小规模子问题; 再以原问题的增广拉格朗日函数为效益函数, 执行 Armijo 型线搜索, 获得新的原始迭代点, 提出一个基于 QCQP 的分裂 SQP 算法.
基于以上分析, 为进一步探究和发展分裂 SQP 算法的研究, 针对目标函数和约束函数均带不可分结构的大规模非凸优化问题, 该文提出了一个新型的分裂序列二次规划算法. 所提出的算法具有以下特征: (1) 充分利用目标函数和约束函数的可微性, 构造二次逼近子问题, 从而降低子问题的求解难度; (2) 对两个小规模 QP 子问题“并行”求解, 获得其最优解, 进而构造算法的搜索方向, 并利用增广拉格朗日函数进行Armijo 线搜索; (3) 在适当的条件下, 论证了其全局收敛性.
记号:对于列向量 $x, y, \lambda, \cdots $ ,指标集$I\subset\{1, \cdots, n\}$ , 矩阵 $H$ , 记
$(x, y, \lambda, \cdots ):=\left(x^{\top}, y^{\top}, \lambda^{\top}, \cdots \right)^{\top},\ \|x\|_{H}^{2}:=x^{\top} H x,\ x \perp y \Leftrightarrow x^{\top} y=0,\ x_{I}:=\left(x_{i}, i \in I\right),$ $\left \| x \right \|$ 和 $\left \| Q \right \|$ 分别表示向量和矩阵的 $\ell _{2} $ 范数, 矩阵$A\succ B$ 意味着矩阵$A-B$ 是正定的.
为了便于分析,我们记 $\left \{ -\infty,+\infty \right \}$ 和实数集 ${\cal R}$ 之间的操作如下
$(\pm \infty)+a=\pm \infty,\ \forall\ a \in {\cal R};\ (\pm \infty) \times a=\pm \infty,\ \forall\ a>0; $
$(\pm \infty)+a=\mp \infty,\ \forall\ a<0 ;\ (\pm \infty) \times a=0 \Leftrightarrow a=0.$
2 算法及基本性质
(2.1) $L(w):=L(x,y,\lambda)= f(x,y)-\lambda^\top h(x,y).$
对于当前迭代点 $u_k:=(x_k,y_k)\in {\cal X} \times {\cal Y}$ , 将 SQP 算法思想应用于求解问题 (1.1), 考虑二次逼近子问题
(2.2) $\label{QP1}\begin{array}{ll}\min\ & \Delta_{k}^{f}(x,y):=f{(u_k)}+\nabla_x f(u_k)^\top (x-x_k)+\nabla_y f(u_k)^\top (y-y_k)+\frac{1}{2}\left\|\begin{array}{c}x-x_k \\y-y_k \end{array}\right\|^2_{H_{k}^{f}} \\{\rm s.t.}\ & \Delta_{k}^{h}(x,y):=h{(u_k)}+\nabla_x h(u_k)^\top (x-x_k)+\nabla_y h(u_k)^\top (y-y_k) =0, \\ & l\leqslant Cx\leqslant v,\ s\leqslant Dy\leqslant r,\end{array}$
其中 $H_{k}^{f}$ 为拉格朗日函数 $L(x,y,\lambda_k)$ 在 $u_k$ 处的近似 Hessian 阵, 即
$\begin{array}{ll} H_{k}^{f}:= \left(\begin{array}{cc} H_{k}^{f-xx}~~ & H_{k}^{f-xy} \\ H_{k}^{f-yx} ~~& H_{k}^{f-yy} \end{array}\right) \approx \begin{array}{cc} \end{array} \nabla^2_{uu}L(w_k) =\left(\begin{array}{cc} \nabla_{xx}^2 L(w_k) ~~& \nabla_{xy}^2 L(w_k) \\ \nabla_{yx}^2 L(w_k) ~~& \nabla_{yy}^2 L(w_k) \end{array}\right).\end{array}$(2.3)
接下来, 考虑 QP 子问题 (2.2) 的增广拉格朗日函数和增广拉格朗日问题
(2.4) $\label{ALF}L_{\beta}^{k \rm-SSQP}(x,y,\lambda)=\Delta_{k}^{f}(x,y)-\lambda^\top \Delta_{k}^{h}(x,y)+\frac{\beta}{2}\left\|\Delta_{k}^{h}(x,y)\right\|^2$
(2.5) $\label{ALM}\begin{array}{ll}\min & L_{\beta}^{k\rm-SSQP}(x,y,\lambda_k) \\{\rm s.t.} & l\leqslant Cx\leqslant v,\ s\leqslant Dy\leqslant r,\end{array}$
其中 $\lambda_k\in \mathbb{R} ^m$ 为等式约束的拉格朗日乘子. 受分裂降维思想的启示, 可将问题 (2.5) 分裂为两个 QP 子问题
(2.6) $\begin{equation}\min \left\{L_{\beta}^{k\rm-SSQP}\left(x, y_{k}, \lambda_{k}\right) \mid l \leqslant C x \leqslant v\right\}\end{equation}$
(2.7) $\begin{equation}\min \left\{L_{\beta}^{k\rm-SSQP}\left(x_{k}, y, \lambda_{k}\right) \mid s \leqslant Dy \leqslant r\right\}.\end{equation}$
(2.8) $\begin{array}{ll}\min & \left(\nabla_{x} f\left(u_{k}\right)-\nabla_{x} h\left(u_{k}\right)\left(\lambda_{k}-\beta h\left(u_{k}\right)\right)\right)^{\top}\left(x-x_{k}\right)+\frac{1}{2}\left\|x-x_{k}\right\|_{B_{k}^{x}}^{2} \\ \text { s.t. } & l \leqslant C x \leqslant v\end{array}$
(2.9) $\begin{array}{ll}\min & \left(\nabla_{y} f\left(u_{k}\right)-\nabla_{y} h\left(u_{k}\right)\left(\lambda_{k}-\beta h\left(u_{k}\right)\right)\right)^{\top}\left(y-y_{k}\right)+\frac{1}{2}\left\|y-y_{k}\right\|_{B_{k}^{y}}^{2} \\ \text { s.t. } & s \leqslant D y \leqslant r,\end{array}$
其中, 二次系数矩阵 $B^x_{k}$ 和 $B^y_{k}$ 分别为
(2.10) $\begin{equation} B^x_{k}:=H_{k}^{f-xx} + \beta\nabla_x h(u_k)\nabla_x h(u_k)^\top\end{equation}$
(2.11) $\begin{equation}B^y_k:=H_{k}^{f-yy} + \beta\nabla_y h(u_k)\nabla_y h(u_k)^\top.\end{equation}$
注意到子问题(2.8)和(2.9)有可行解 $x_k$ 和 $y_k$ , 当二次系数矩阵 $B^x_k$ 和 $B^y_k$ 正定时, QP 子问题(2.8)和(2.9)均有唯一最优解, 记为 $\tilde{x}_{k+1}$ 和 $\tilde{y}_{k+1}$ , 且与 KKT 点等同. 因此, 存在乘子向量 $(\alpha^x_k, \gamma^x_k)\in \mathbb{R} ^{m_1}\times \mathbb{R} ^{m_1}$ 和 $(\alpha^y_k, \gamma^y_k)\in \mathbb{R} ^{m_2}\times \mathbb{R} ^{m_2}$ 满足
(2.12a)(2.12b) $\left\{\begin{array}{l}\nabla_{x} f\left(x_{k}, y_{k}\right)-\nabla_{x} h\left(x_{k}, y_{k}\right)\left(\lambda_{k}-\beta h\left(x_{k}, y_{k}\right)\right)+B_{k}^{x} d_{k}^{x}-C^{\top}\left(\alpha_{k}^{x}-\gamma_{k}^{x}\right)=0 \\ 0 \leqslant \alpha_{k}^{x} \perp\left(C \tilde{x}_{k+1}-l\right) \geq 0,0 \leqslant \gamma_{k}^{x} \perp\left(v-C \tilde{x}_{k+1}\right) \geq 0\end{array}\right.$
(2.13a)(2.13b) $\left\{\begin{array}{l}\nabla_{y} f\left(x_{k}, y_{k}\right)-\nabla_{y} h\left(x_{k}, y_{k}\right)\left(\lambda_{k}-\beta h\left(x_{k}, y_{k}\right)\right)+B_{k}^{y} d_{k}^{y}-D^{\top}\left(\alpha_{k}^{y}-\gamma_{k}^{y}\right)=0, \\ 0 \leqslant \alpha_{k}^{y} \perp\left(D \tilde{y}_{k+1}-s\right) \geq 0,0 \leqslant \gamma_{k}^{y} \perp\left(r-D \tilde{y}_{k+1}\right) \geq 0,\end{array}\right.$
其中 $d^x_k:=\tilde{x}_{k+1}-x_{k}$ , $d^y_k:=\tilde{y}_{k+1}-y_{k}$ .
(2.14) $\nabla_{x} L_{\beta}(x, y, \lambda)=\nabla_{x} f(x, y)-\nabla_{x} h(x, y)(\lambda-\beta h(x, y))$,
(2.15) $\begin{equation}\nabla_y L_{\beta}(x,y,\lambda)= \nabla_y f(x,y)-\nabla_y h(x,y)(\lambda-\beta h(x,y)).\end{equation}$
进而, 结合(2.14)和(1.15)式, 两个QP子问题(2.8)和(2.9)可简化为
(2.16) $\begin{equation}\min \ \ \{q_{k}^{f}(x):=\nabla_{x} L_{\beta}\left(w_{k}\right)^{\top}\left(x-x_{k}\right)+\frac{1}{2}\left\|x-x_{k}\right\|_{B_{k}^{x}}^{2} |\ l \leqslant C x \leqslant v\}\end{equation}$
(2.17) $\begin{equation}\min\ \ \{ q_{k}^{f}(y):=\nabla_{y} L_{\beta}\left(w_{k}\right)^{\top}\left(y-y_{k}\right)+\frac{1}{2}\left\|y-y_{k}\right\|_{B_{k}^{y}}^{2}|\ s \leqslant D y \leqslant r\}.\end{equation}$
因此, KKT 条件(2.12)和(2.13)亦可进一步简化为
(2.18a)(2.18b) $\left\{\begin{array}{l}B_{k}^{x} d_{k}^{x}+\nabla_{x} L_{\beta}\left(w_{k}\right)-C^{\top}\left(\alpha_{k}^{x}-\gamma_{k}^{x}\right)=0, \\ 0 \leqslant \alpha_{k}^{x} \perp\left(C \tilde{x}_{k+1}-l\right) \geqslant 0,0 \leqslant \gamma_{k}^{x} \perp\left(v-C \tilde{x}_{k+1}\right) \geqslant 0\end{array}\right.$
(2.19a)(2.19b) $\left\{\begin{array}{l}B_{k}^{y} d_{k}^{y}+\nabla_{y} L_{\beta}\left(w_{k}\right)-D^{\top}\left(\alpha_{k}^{y}-\gamma_{k}^{y}\right)=0, \\ 0 \leqslant \alpha_{k}^{y} \perp\left(D \tilde{y}_{k+1}-s\right) \geqslant 0,0 \leqslant \gamma_{k}^{y} \perp\left(r-D \tilde{y}_{k+1}\right) \geqslant 0,\end{array}\right.$
(2.20) $\begin{equation}\nabla_{x} L_{\beta}\left(w_{k}\right)^{\top} d_{k}^{x}=-\left\|d_{k}^{x}\right\|_{B_{k}^{x}}^{2}-\left(C x_{k}-l\right)^{\top} \alpha_{k}^{x}-\left(v-C x_{k}\right)^{\top} \gamma_{k}^{x} \leqslant-\left\|d_{k}^{x}\right\|_{B_{k}^{x}}^{2},\end{equation}$
(2.21) $\begin{equation}\nabla_{y} L_{\beta}\left(w_{k}\right)^{\top} d_{k}^{y}=-\left\|d_{k}^{y}\right\|_{B_{k}^{y}}^{2}-\left(D y_{k}-s\right)^{\top} \alpha_{k}^{y}-\left(r-D y_{k}\right)^{\top} \gamma_{k}^{y} \leqslant-\left\|d_{k}^{y}\right\|_{B_{k}^{y}}^{2},\end{equation}$
此表明 $L_\beta(w_k)$ 在 $u_k$ 处沿方向 $(d_k^x,d_k^y)$ 有良好的下降性.
关于 QP 子问题(2.16)和(2.17)解的基本性质, 由[19 ,推论 3.6] 有如下引理.
引理 2.1 设由(2.10)和(2.11)式产生的矩阵 $B^{x}_{k}$ 和 $B^{y}_{k}$ 在~$\mathbb{R} ^{n_1}$ 和 $\mathbb{R} ^{n_2}$ 正定, 则 QP 子问题(2.16)和(2.17)均有唯一最优解, 且最优解与其 KKT 点等同.
步骤0 (初始化) 选取参数 $\rho,\ \sigma\in(0,1),\ \beta,\ \xi>0$ . 初始迭代点 $w_{0}=(x_{0},y_{0},\lambda_{0})\in {\mathcal X} \times {\mathcal Y} \times\mathbb{R} ^{m}$ , 初始对称正定矩阵 $B_{0}^{x}$ 和 $B_{0}^{y}$ . 置 $k:=0.$
步骤 1 (求解 QP 子问题) 求解两个 QP 子问题 (2.16) 和 (2.17), 产生 (唯一) 最优解 $\tilde{x}_{k+1}$ 和 $\tilde{y}_{k+1}.$
(2.22) $d_{k}^{x}=\tilde{x}_{k+1}-{x}_{k}, d_{k}^{y}=\tilde{y}_{k+1}-{y}_{k}, d_{k}^{u}=(d_{k}^{x}, d_{k}^{y})$
产生搜索方向 $d^{u}_k$ . 若 $d^{u}_k=0, $ $h(x_k,y_k)=0$ , 则 $(x_{k},y_{k})$ 为问题(1.1)的 KKT 点, 停止. 否则进入步骤 3.
步骤 3 (采用 Armijo 线搜索) 计算 $\{t = \sigma^{i}:i=0,1,2,\cdots \}$ 满足
(2.23) ${L}_{\beta}(u_{k}+td^{u}_{k},\lambda_k)\leq {L}_{\beta}(u_{k},\lambda_k)-\rho t(\|d^{x}_{k}\|^{2}_{B^{x}_{k}}+\|d^{y}_{k}\|^{2}_{B^{y}_{k}})$
(2.24a)(2.24b) $\left\{\begin{array}{l}x_{k+1}=x_{k}+t_{k} d_{k}^{x}, y_{k+1}=y_{k}+t_{k} d_{k}^{y}, u_{k+1}=\left(x_{k+1}, y_{k+1}\right) \\ \lambda_{k+1}=\lambda_{k}+\xi h\left(x_{k+1}, y_{k+1}\right)\end{array}\right.$
步骤 5 (计算新矩阵 $B_{k+1}^{x}$ 和 $B_{k+1}^{y}$ ) 通过(2.10)和(2.11)式产生新的对称阵 $B_{k+1}^{x}$ 和 $ B_{k+1}^{y},$ 使得 $B_{k+1}^{x}\succ 0, B_{k+1}^{y}\succ 0.$ 令 $k:=k+1,$ 返回步骤 1.
引理 2.2 算法2.1的迭代是适定的, 步长 $t_k>0$ , 且序列 $\{L_{\beta}(w_k)\}$ 具有单调性
(2.25) $L_{\beta}\left(w_{k+1}\right) \leqslant L_{\beta}\left(w_{k}\right)-\rho t_{k}\left\|d_{k}^{x}\right\|_{B_{k}^{x}}^{2}-\rho t_{k}\left\|d_{k}^{y}\right\|_{B_{k}^{y}}^{2}-\xi\left\|h\left(u_{k+1}\right)\right\|^{2}$
证 首先, 由 $B^{x}_{k}$ 和 $B^{y}_{k}$ 的正定性及引理2.1知, 算法所求解的两个 QP 子问题有唯一最优解. 其次, 当 $d_u^k=0$ 时, 显然, 单位步长 1 满足线搜索不等式. 否则, 由 Taylor 展式及 (2.20) 和 (2.21)式的下降性可知
(2.26) $\begin{aligned} & L_{\beta}\left(u_{k}+t d_{k}^{u}, \lambda_{k}\right)-L_{\beta}\left(u_{k}, \lambda_{k}\right)+t \rho\left(\left\|d_{k}^{x}\right\|_{B_{k}^{x}}^{2}+\left\|d_{k}^{y}\right\|_{B_{k}^{y}}^{2}\right) \\ = & t \nabla_{u} L_{\beta}\left(u_{k}, \lambda_{k}\right)^{\top} d_{k}^{u}+t \rho\left(\left\|d_{k}^{x}\right\|_{B_{k}^{x}}^{2}+\left\|d_{k}^{y}\right\|_{B_{k}^{y}}^{2}\right)+o\left(t\left\|d_{k}^{u}\right\|\right) \\ \leqslant & -t\left\|d_{k}^{u}\right\|_{B_{k}}^{2}+t \rho\left\|d_{k}^{u}\right\|_{B_{k}}^{2}+o(t) \\ \leqslant & -t(1-\rho)\left\|d_{k}^{u}\right\|_{B_{k}}^{2}+o(t) \leqslant 0,\end{aligned}$
其中矩阵 $B_k={\rm diag}(B_k^x,B_k^y)$ . 故当 $t$ 为充分小的正数时, 线搜索不等式(2.23)成立. 因此, 算法2.1是适定的.
为证不等式(2.25). 首先, 由 $L_\beta(x,y,\lambda)$ 的定义(1.2)有
(2.27) $\begin{matrix}L_{\beta}(x,y,\lambda+\xi h(x,y))= L_{\beta}(x,y,\lambda)-\xi\|h(x,y)\|^2, \forall\ \xi\in {\mathbb R},\end{matrix}$
则由(2.23),(2.24b)及(2.27), 有
(2.28) $\begin{aligned} L_{\beta}\left(w_{k+1}\right) & =L_{\beta}\left(x_{k+1}, y_{k+1}, \lambda_{k}+\xi h\left(u_{k+1}\right)\right) \\ & =L_{\beta}\left(x_{k+1}, y_{k+1}, \lambda_{k}\right)-\xi\left\|h\left(u_{k+1}\right)\right\|^{2} \\ & \leqslant L_{\beta}\left(x_{k}, y_{k}, \lambda_{k}\right)-\rho t_{k}\left\|d_{k}^{x}\right\|_{B_{k}^{x}}^{2}-\rho t_{k}\left\|d_{k}^{y}\right\|_{B_{k}^{y}}^{2}-\xi\left\|h\left(u_{k+1}\right)\right\|^{2} \\ & =L_{\beta}\left(w_{k}\right)-\rho t_{k}\left\|d_{k}^{x}\right\|_{B_{k}^{x}}^{2}-\rho t_{k}\left\|d_{k}^{y}\right\|_{B_{k}^{y}}^{2}-\xi\left\|h\left(u_{k+1}\right)\right\|^{2}.\end{aligned}$
引理 2.3 若由(2.22)式定义的方向 $d^{x}_{k}=0$ 和 $d^{y}_{k}=0$ , 以及 $h(x_k,y_k)=0$ , 则当前迭代点 $(x_{k},y_{k})$ 为问题 (1.1) 的 KKT 点, 对应的乘子向量为 $(\lambda_{k},{\alpha}_{k}^{x},{\gamma}_{k}^{x},{\alpha}_{k}^{y},{\gamma}_{k}^{y}).$
证 由 $d^{x}_k=0$ , $d^{y}_k=0$ , $h(x_k,y_k)=0$ , 以及公式 (2.14), (2.15) 和 (2.22) 知
(2.29) $\left\{\begin{array}{l}\tilde{x}_{k+1}=x_{k}, \nabla_{x} L_{\beta}\left(w_{k}\right)=\nabla_{x} f\left(x_{k}, y_{k}\right)-\nabla_{x} h\left(x_{k}, y_{k}\right) \lambda_{k} \\ \tilde{y}_{k+1}=y_{k}, \nabla_{y} L_{\beta}\left(w_{k}\right)=\nabla_{y} f\left(x_{k}, y_{k}\right)-\nabla_{y} h\left(x_{k}, y_{k}\right) \lambda_{k}\end{array}\right.$
再结合 KKT 条件(2.18),(2.19)及(2.29)得
(2.30) $ \left\{\begin{array}{l}\left(\begin{array}{l}\nabla_{x} f\left(x_k,y_k\right) \\\nabla_{y} f\left(x_k,y_k\right)\end{array}\right)-\left(\begin{array}{l}\nabla_{x} h\left(x_k,y_k\right) \\\nabla_{y} h\left(x_k,y_k\right)\end{array}\right) \lambda_{k}+\left(\begin{array}{ll}C & 0 \\0 & D\end{array}\right)^{\top}\left(\begin{array}{l}\gamma_{k}^{x}-\alpha_{k}^{x} \\\gamma_{k}^{y}-\alpha_{k}^{y}\end{array}\right)=\left(\begin{array}{l}0 \\0\end{array}\right), \\0 \leqslant \alpha_{k}^{x} \perp\left(C x_{k}-l\right) \geqslant 0,0 \leqslant \gamma_{k}^{x} \perp\left(v-C x_{k}\right) \geqslant 0, \\0 \leqslant \alpha_{k}^{y} \perp\left(D y_{k}-s\right) \geqslant 0,0 \leqslant \gamma_{k}^{y} \perp\left(r-D y_{k}\right) \geqslant 0, \\h\left(x_k,y_k\right)=0.\end{array}\right.$
故 $(x_{k},y_{k})$ 为问题 (1.1) 的 KKT 点, 对应的乘子为 $(\lambda_{k},{\alpha}_{k}^{x},{\gamma}_{k}^{x},{\alpha}_{k}^{y},{\gamma}_{k}^{y}).$
3 全局收敛性分析
如果算法2.1有限步终止于 $(x_k,y_k)$ , 故由引理2.3及算法步骤 2 知迭代点 $(x_k,y_k)$ 是问题 (1.1) 的一个 KKT 点. 下面将假设算法 2.1 产生一个无限迭代序列 $\{(x_k,y_k)\}$ , 证明该序列的任意一个聚点 $(x_*,y_*)$ 是问题 (1.1) 的一个 KKT 点, 即证明算法2.1的全局收敛性. 为此, 记 QP 子问题(2.16)和(2.17)在其最优解 $\tilde{x}_{k+1}$ 和 $\tilde{y}_{k+1}$ 处关于不等式约束的积极集分别为
(3.1) $ \tilde{I}_{k}=\{i\in I: C_i \tilde{x}_{k+1}=l_i\ \mbox{或}\ v_i\},\ \tilde{J}_{k}=\{j\in J: D_j \tilde{y}_{k+1}=s_j\ \mbox{或}\ r_j\},$
其中 $I=\{1,\cdots, m_1\},\ J= \{1,\cdots, m_2\}$ , $C_i$ 和 $D_j$ 分别为矩阵 C 和 D 的第 $i$ 个和第 $j$ 个行向量.进而定义相应的子矩阵
(3.2) $C_{\tilde{I}_{k}}=(C_i,\ i\in \tilde{I}_{k}),\ D_{\tilde{J}_{k}}=(D_j,\ j\in \tilde{J}_{k}),\ G_k= G_{(\tilde{I}_{k},\ \tilde{J}_{k})}=\left( \begin{array}{cc} C_{\tilde{I}_{k}} & 0 \\ 0 & D_{\tilde{J}_{k}} \\ \end{array} \right).$
为获得算法 2.1 的全局收敛性, 需如下的常规假设.
假设 1 (i) 函数 $f(x,y),\ h(x,y)$ 均是一阶连续可微的, 即光滑的;
(ii) 对于算法 2.1 产生的序列 $\{w_k\}$ 的每个有界子序列 $\{w_k\}_{\cal K}:= \{w_k: k\in {\cal K}\}$ , 矩阵子列 $\{B^x_k\}_{\cal K}$ 和 $\{B^y_k\}_{\cal K}$ 有界, 且一致正定, 即存在正数 $\eta$ , 使得
(3.3) $\left\|d^{x}\right\|_{B_{k}^{x}}^{2} \geqslant \eta\left\|d^{x}\right\|^{2},\ \left\|d^{y}\right\|_{B_{k}^{y}}^{2} \geqslant \eta\left\|d^{y}\right\|^{2},\ \forall\ k \in {\cal K},\ \forall\ d^{x} \in {\mathbb R}^{n_{1}},\ \forall\ d^{y} \in {\mathbb R}^{n_{2}}.$
假设 2 对于算法 2.1 产生的序列 $\{w_k\}$ 的每个有界子序列 $\{w_k\}_{\cal K}$ , $k\in {\cal K}$ 充分大时, 矩阵 $C_{\tilde{I}_{k}}$ 和 $D_{\tilde{J}_{k}}$ 均是行满秩的, 此等价于矩阵 $G_k$ 行满秩.
假设 2 的作用是保证乘子序列 $\{(\alpha^x_k, \gamma^x_k, \alpha^y_k, \gamma^y_k)\}$ 的有界性. 其一个易于检验的充分条件是: 对于问题(1.1)的每个部分可行点 $(x,y)\in {\cal X}\times {\cal Y}$ , 不等式约束中积极约束的梯度向量线性无关. 特别地, 当 $C$ 及 $D$ 均为单位阵, 假设 2 成立.
引理 3.1 设算法 2.1 产生的点列 $\{w_k\}$ 的子序列 $\{w_k\}_{\cal K}$ 有界且假设 1 和 2 成立, 则相应的子序列 $\{d^{u}_{k}\}_{{\cal K}}, $ $\{u_{k+1}\}_{{\cal K}}$ 及 $\{({\alpha}_{k}^{x},{\alpha}_{k}^{y}, {\gamma}_{k}^{x},{\gamma}_{k}^{y})\}_{{\cal K}}$ 均有界.
证 首先, 注意到 $x_k$ 和 $\tilde{x}_{k+1}$ 分别为(2.16)式的可行解和最优解, 并结合(3.3)式, 有$q_{k}^{f}\left(x_{k}\right)=0 \geqslant q_{k}^{f}\left(\tilde{x}_{k+1}\right)=\nabla_{x} L_{\beta}\left(w_{k}\right)^{\top} d_{k}^{x}+\frac{1}{2}\left\|d_{k}^{x}\right\|_{B_{k}^{x}}^{2} \geqslant-\left\|\nabla_{x} L_{\beta}\left(w_{k}\right)\right\|\left\|d_{k}^{x}\right\|+\frac{1}{2} \eta\left\|d_{k}^{x}\right\|^{2}$又由 $\{w_{k}\}_{\cal K}$ 的有界性及 $f$ 和 $h$ 的一阶连续可微性知, 存在常数 $M > 0$ , 使得 $\|\nabla_x L_{\beta}(w_k)\| \leqslant M,$ $ \forall\ k \in {\cal K}.$ 此结合上式得 $\|d^x_k\| \leqslant 2M/\eta$ , 此不等式蕴含 $\{d^x_k\}_{\cal K}$ 有界.同理可证 $\{d_{k}^{y}\}_{{\cal K}}$ 有界. 因此 $\{d_{k}^{u}\}_{{\cal K}}$ 有界, 并且 $\left\{u_{k+1}:=u_{k}+t_{k} d_{k}^{u}\right\}_{{\cal K}}$ 有界.
其次, 由 KKT 条件(2.18a),(2.19a),(3.1)和(3.2),可得
$\begin{array}{cc}B_{k} d_{k}^{u}+\left(\begin{array}{c}\nabla_{x} L_{\beta}\left(w_{k}\right) \\\nabla_{y} L_{\beta}\left(w_{k}\right)\end{array}\right)+G_k^{\top}\left(\begin{array}{l}\left(\gamma_{k}^{x}-\alpha_{k}^{x}\right)_{\tilde{I}_{k}} \\\left(\gamma_{k}^{y}-\alpha_{k}^{y}\right)_{\tilde{J}_{k}}\end{array}\right)=\left(\begin{array}{l}0\\0\end{array}\right),\end{array}$
$\left(\begin{array}{l}\left(\gamma_{k}^{x}-\alpha_{k}^{x}\right)_{\tilde{I}_{k}} \\\left(\gamma_{k}^{y}-\alpha_{k}^{y}\right)_{\tilde{J}_{k}}\end{array}\right)=-\left({G}_{k} {G}_{k}^{\top}\right)^{-1} {G}_{k}\left[B_{k} d_{k}^{u}+\left(\begin{array}{c}\nabla_{x} L_{\beta}\left(w_{k}\right) \\\nabla_{y} L_{\beta}\left(w_{k}\right)\end{array}\right)\right],$
再根据假设 1 知 $\{({\alpha}_{k}^{x}-{\gamma}_{k}^{x})\}_{{\cal K}}, \{{(\alpha}_{k}^{y}-{\gamma}_{k}^{y})\}_{{\cal K}}$ 有界, 且 ${\alpha}_{k}^{x}\perp{\gamma}_{k}^{x},{\alpha}_{k}^{y}\perp{\gamma}_{k}^{y}$ . 故
$\left\|\alpha_{k}^{x}\right\|^{2}=\left(\alpha_{k}^{x}\right)^{\top}\left(\alpha_{k}^{x}-\gamma_{k}^{x}\right) \leqslant\left\|\alpha_{k}^{x}\right\| \cdot\left\|\alpha_{k}^{x}-\gamma_{k}^{x}\right\| \mathbb{R}ightarrow\left\|\alpha_{k}^{x}\right\| \leqslant\left\|\gamma_{k}^{x}-\alpha_{k}^{x}\right\|,$
$\left\|\alpha_{k}^{y}\right\|^{2}=\left(\alpha_{k}^{y}\right)^{\top}\left(\alpha_{k}^{y}-\gamma_{k}^{y}\right) \leqslant\left\|\alpha_{k}^{y}\right\| \cdot\left\|\alpha_{k}^{y}-\gamma_{k}^{y}\right\| \mathbb{R}ightarrow\left\|\alpha_{k}^{y}\right\| \leqslant\left\|\gamma_{k}^{y}-\alpha_{k}^{y}\right\|.$
因此序列 $\{{\alpha}_{k}^{x}\}_{{\cal K}}$ 和 $\{{\alpha}_{k}^{y}\}_{{\cal K}}$ 有界. 进而序列 $\{{\gamma}_{k}^{x}\}_{{\cal K}}$ 和 $\{{\gamma}_{k}^{y}\}_{{\cal K}}$ 有界. 引理获证.
现假设 $w_*$ 是序列 $\{w_k\}$ 的一个聚点, 则存在一个无限子序列 ${\cal K}$ 使得 $w_*=(x_*, y_*, \lambda_*)\in \Omega \neq \emptyset$ . 由引理 3.1 知, 有
(3.4) $w_k\rightarrow w_*,\ d^u_k=(d^x_k,d^y_k)\rightarrow d^u_*:=(d^x_*,d^y_*),d^\lambda_k=\xi h\left(x_{k+1},y_{k+1}\right)\rightarrow d^\lambda_*, \ k\in {\cal K},\ k \rightarrow \infty.$
引理 3.2 设假设1成立, 算法2.1产生的点列$\{w_k\}$ 有聚点, 其聚点集 (记为 $\Omega$ ) 非空, 则
(i) 数列 $\{L_{\beta}(w_k)\}$ 整列收敛, 且
(3.5) $\lim\limits_{k\rightarrow \infty} L_{\beta}(w_k)= \inf\limits_k L_{\beta}(w_k)= L_{\beta}(w_*)= f(x_*, y_*),\ \forall\ w_*=(x_*,y_*,\lambda_*)\in \Omega.$
因此, 目标函数 $f(x,y)$ 在迭代序列 $\{w_k\}$ 的聚点集$\Omega$ 上取常数值;
(ii) $\lim\limits_{k\rightarrow \infty}h{(u_k)}=0$ , $\lim\limits_{k\rightarrow \infty}t_k\|d^x_k\|^2=0$ , $\lim\limits_{k\rightarrow \infty}t_k\|d^y_k\|^2=0$ ;
(iii) 对于每个收敛子列 $\{w_k\}_{\cal K}$ , 有 $\lim\limits_{k\in {\cal K}}(d^x_k, d^y_k)=(0,0).$
证 先证结论 (i) 和 (ii). 首先, 由(2.25)和(3.4)式以及 $L_\beta(\cdot)$ 的连续性知, 数列 $\{L_\beta(w_k)\}$ 整列单调下降, 且有收敛子列 $\{L_\beta(w_k)\}_{{\cal K}}$ . 进而由 [17 ,定理 1.1.5] 知, $\{L_\beta(w_k)\}$ 整列收敛. 其次, 由其单调下降性和连续性知, $\lim\limits_{k\rightarrow \infty} L_{\beta}(w_k)= \inf\limits_k L_{\beta}(w_k)= L_{\beta}(w_*).$ 令 $k \rightarrow \infty$ , 对不等式 (2.25) 取极限, 并结合 (3.3)式, $\{L_\beta(w_k)\}$ 收敛及 $\xi > 0$ , 可知结论(ii)成立. 最后, 由 $\lim\limits_{k\rightarrow \infty}h{(u_k)}=0$ 有 $L_{\beta}(w_*)=f(x_*, y_*)$ . 因此, 结论 (i) 成立.
下面证明结论 (iii). 先证 $d^u_*=0$ . 若不然, 则存在 $k_0 \in {\cal K},$ 使得 $\|d^u_k\|> 0,\ \forall\ k \in {\cal K}_0:=\{k\in {\cal K}: k\geqslant k_0\}$ . 往证 $t_*:=\inf\{t_k,\ k\in {\cal K}_0\}>0$ . 由 Taylor 展式, $\{(x_{k}, y_k, d^u_k, \lambda_{k})\}_{{\cal K}}$ 的有界性及(2.20), (2.21) 和 (3.3) 式可知, 对于所有的 $k \in {\cal K}_0$ 及充分小的正数 $t$ , 有
(3.6) $\begin{aligned} L_{\beta}\left(u_{k}+t d_{k}^{u}, \lambda_{k}\right)-L_{\beta}\left(u_{k}, \lambda_{k}\right)+\rho t\left\|d_{k}^{u}\right\|_{B_{k}}^{2} & =t \nabla_{u} L_{\beta}\left(u_{k}, \lambda_{k}\right)^{\top} d_{k}^{u}+o\left(\left\|t d_{k}^{u}\right\|\right)+\rho t\left\|d_{k}^{u}\right\|_{B_{k}}^{2} \\ & \leqslant-t\left\|d_{k}^{u}\right\|_{B_{k}}^{2}+\rho t\left\|d_{k}^{u}\right\|_{B_{k}}^{2}+o(t) \\ & \leqslant-t(1-\rho) \eta\left\|d_{k}^{u}\right\|^{2}+o(t) \leqslant 0.\end{aligned}$
此结合线搜索不等式 (2.23) 可知 $t_* > 0$ 成立. 于是, $t_k\|d^u_k\|^2 \geqslant t_*\|d^u_*\|^2/4> 0,\ \forall\ k \in {\cal K}_0$ . 这与 $\lim\limits_{k \rightarrow \infty} t_k\|d^u_k\|^2=0 $ 矛盾, $d^u_*=0$ 获证. 引理证毕.
基于引理 3.1 和 3.2, 下面论证算法 2.1 的全局收敛性.
定理 3.1 设假设 1 和 2 成立, 则算法 2.1 或有限次迭代终止于问题 (1.1) 的 KKT 点 $(x_{k},y_{k})$ , 或产生一个无穷迭代点列 $\{w_{k}\}$ , 使得其任意聚点 $w_{*}=(x_{*},y_{*},\lambda_{*})$ 中的 $(x_{*},y_{*})$ 是问题 (1.1) 的 KKT 点, 且存在指标集 ${\cal K}$ , 使得 $\{(w_{k},{\alpha}_{k}^{x},{\gamma}_{x}^{k},{\alpha}_{k}^{y},{\gamma}_{k}^{y})\}_{{\cal K}}$ 收敛到 KKT 点对 $(w_{*},{\alpha}_{*}^{x},{\gamma}_{*}^{x},{\alpha}_{*}^{*},{\gamma}_{*}^{y}),$ 即算法是全局收敛的.
证 对于给定聚点 $w_{*}$ , 由引理 3.1 知, 存在无穷迭代指标集 ${\cal K}$ , 使得
$w_k\rightarrow w_*,\ (d^x_k,d^y_k)\rightarrow (d^x_*,d^y_*),\ (\alpha_k^x,\gamma_k^x,\alpha_k^y,\gamma_k^y)\rightarrow (\alpha_*^x,\gamma_*^x,\alpha_*^y,\gamma_*^y)\ k\in {\cal K},\ k \rightarrow \infty.$
$\lim\limits_{k\in{\cal K}}\tilde{x}_{k+1}=\lim\limits_{k\in{\cal K}}(x_{k}+d_{k}^{x})=x_{*},~\lim\limits_{k\in{\cal K}}\tilde{y}_{k+1}=\lim\limits_{k\in{\cal K}}(y_{k}+d_{k}^{y})=y_{*},$
$\lim\limits_{k\in{\cal K}}{x}_{k+1}=\lim\limits_{k\in{\cal K}}(x_{k}+t_kd_{k}^{x})=x_{*},~\lim\limits_{k\in{\cal K}}{y}_{k+1}=\lim\limits_{k\in{\cal K}}(y_{k}+t_kd_{k}^{y})=y_{*},$
$0=d^{\lambda}_{*}=\lim\limits_{k\in{\cal K}}d_{k}^{\lambda}=\xi h(x_{*},y_{*}).number$
在KKT条件(2.18),(2.19)中对 $k\stackrel{{\cal K}}\longrightarrow\infty$ 取极限, 得
(3.7) $\left\{\begin{array}{l}\left(\begin{array}{l}\nabla_{x} f\left(x_{*}, y_{*}\right) \\ \nabla_{y} f\left(x_{*}, y_{*}\right)\end{array}\right)-\left(\begin{array}{c}\nabla_{x} h\left(x_{*}, y_{*}\right) \\ \nabla_{y} h\left(x_{*}, y_{*}\right)\end{array}\right) \lambda_{*}+\left(\begin{array}{cc}C & 0 \\ 0 & D\end{array}\right)^{\top}\left(\begin{array}{c}\gamma_{*}^{x}-\alpha_{*}^{x} \\ \gamma_{*}^{y}-\alpha_{*}^{y}\end{array}\right)=\left(\begin{array}{l}0 \\ 0\end{array}\right), \\ 0 \leq \alpha_{*}^{x} \perp\left(C x_{*}-l\right) \geq 0,0 \leq \gamma_{*}^{x} \perp\left(v-C x_{*}\right) \geq 0, \\ 0 \leq \alpha_{*}^{y} \perp\left(D y_{*}-s\right) \geq 0,0 \leq \gamma_{*}^{y} \perp\left(r-D y_{*}\right) \geq 0, \\ 0=h\left(x_{*}, y_{*}\right).\end{array}\right.$
此说明 $(x_{*},y_{*})$ 为问题 (1.1) 的 KKT 点, 相应的乘子为 $(\lambda_{*},{\alpha}^{x}_{*},{\gamma}^{x}_{*},{\alpha}^{y}_{*},{\gamma}^{y}_{*}).$ 定理证毕.
4 数值试验
为验证本文所设计算法 2.1 的有效性, 将用于求解一类具有可分和不可分结构的非凸数学模型. 鉴于文献[22 ] 的算法是求解非凸可分优化问题, 首先将算法 2.1 与其进行数值比对. 所有测试程序代码均在MATLAB 2016b 上编写执行, 电脑配置为 Intel(R) Core(TM) i5-10210U, CPU 1.60 GHz, RAM 8.00 GB, Windows 10.0 (64 位).
$\bullet$ 算例的构造: 由文献[22 ] 两分块优化例子 (6.1) 式拓展为以下形如 (1.1) 的非凸不可分光滑优化算例 (其中 $\tau\geqslant 5$ , sign($\cdot$ ) 为符号函数)
(4.1) $\begin{array}{l}\min Q(\tilde{x}, \tilde{y}):=\sum_{i=0}^{\tau-1}\left\{\left(2.3 x_{3 i+1}+0.0001 x_{3 i+1}^{2}+\operatorname{sign}(\tau-5)\left(-0.0005 x_{3 i+1}^{3}+e^{\sin x_{3 i+1}}\right)\right)\right. \\ +\left(1.7 x_{3 i+2}+0.0001 x_{3 i+2}^{2}+\operatorname{sign}(\tau-5)\left(-0.0008 x_{3 i+2}^{3}+e^{\cos x_{3 i+2}}\right)\right) \\ \left.+\left(2.2 x_{3 i+3}+0.00015 x_{3 i+3}^{2}+\operatorname{sign}(\tau-5)\left(-0.001 x_{3 i+3}^{3}+e^{\cos x_{3 i+3}}\right)\right)\right\} \\ \|M \tilde{x}-M \tilde{y}-c\|^{2} \\ \text { s.t. } x_{1}+x_{2}+x_{3}-y_{1}^{2}=60\left(\Leftrightarrow x_{1}+x_{2}+x_{3} \geqslant 60\right) \text {, } \\ x_{4}+x_{5}+x_{6}-y_{2}^{2}=50\left(\Leftrightarrow x_{4}+x_{5}+x_{6} \geqslant 50\right) \text {, } \\ x_{7}+x_{8}+x_{9}-y_{3}^{2}=70\left(\Leftrightarrow x_{7}+x_{8}+x_{9} \geqslant 70\right) \text {, } \\ x_{10}+x_{11}+x_{12}-y_{4}^{2}=85\left(\Leftrightarrow x_{10}+x_{11}+x_{12} \geqslant 85\right) \text {, } \\ x_{13}+x_{14}+x_{15}-y_{5}^{2}=100\left(\Leftrightarrow x_{13}+x_{14}+x_{15} \geqslant 100\right) \text {, } \\ x_{3 i-2}+x_{3 i-1}+x_{3 i}+a_{i} x_{3 i-2} x_{3 i-1}^{2} \sin x_{3 i}-y_{i}^{2}=100+5(i-4) \\ \left(\Leftrightarrow x_{3 i-2}+x_{3 i-1}+x_{3 i}+a_{i} x_{3 i-2} x_{3 i-1}^{2} \sin x_{3 i} \geqslant 100+5(i-4)\right), i=6, \cdots, \tau, \\ -7 \leqslant x_{3 i+1}-x_{3 i-2} \leqslant 6, i=1, \cdots, \tau-1 \text {, } \\ -7 \leqslant x_{3 i+2}-x_{3 i-1} \leqslant 7, i=1, \cdots, \tau-1 \text {, } \\ -7 \leqslant x_{3 i+3}-x_{3 i} \leqslant 6, i=1, \cdots, \tau-1 \text {, } \\ v_{i} \leqslant x_{i} \leqslant u_{i}, i=1, \cdots, 3 \tau \\\end{array}$
(4.2) $\begin{array}{l}\tilde{x}=\left(x_{1}, x_{4}, x_{7}, \cdots, x_{(3 \tau-2)}, x_{2}, x_{5}, x_{8}, \cdots, x_{(3 \tau-1)}\right)^{\top}, \tilde{y}=\left(x_{3}, x_{6}, x_{9}, \cdots, y_{1}, y_{2}, \cdots, y_{\tau}\right)^{\top} \\ \left\{\begin{array}{l}v_{1}=8, v_{2}=43, v_{3}=3, v_{i}=0, i=4, \cdots, 3 \tau \\ u_{1}=21, u_{2}=57, u_{3}=16, u_{4}=u_{7}=u_{10}=u_{13}=90, u_{5}=u_{8}=u_{11}=u_{14}=120 \\ u_{6}=u_{9}=u_{12}=u_{15}=60, u_{3 i-2}=90+3 i, u_{3 i-1}=120+6 i, u_{3 i}=60+i, i=6, \cdots, \tau,\end{array}\right.\end{array}$
$M$ 为 $2\tau$ 阶待定矩阵, $c\in \mathbb{R} ^{2\tau}$ 和 $a_i\in \mathbb{R} $ 为选定参数.
显然, 当$M=0_{2\tau},\ c=0,\ a_i=0\ (i=6,\cdots,\tau)$ 时, 算例(4.1) 退化为文献[22 ]中算例(6.1). 特别地, 当 $\tau=5$ 时, 上述算例进一步退化为文献[23 ]中的算例 HS118, 此例子是一个凸二次规划, 其最优解和最优值是已知的, 即
(4.3) $\begin{array}{l}(\tilde{x}, \tilde{y})_{\tau=5}^{*}=(8,1,1,3,5,49,56,63,70,77,3,0,6,12,18,0, \sqrt{7}, 0,0,0)^{\top} \\ Q\left((\tilde{x}, \tilde{y})_{\tau=5}^{*}\right)=664.820455\end{array}$
将不可分模型(4.1)按 $\tilde{x}$ 和 $\tilde{y}$ 的变量分为两块, 该模型可重组为问题(1.1), 并用算法2.1对其进行数值测试.
算法 2.1 所选取的参数、初始迭代点以及罚参数 $\beta$ 的修正策略均与文献[22 ] 中算法 QCQP-SSQP 一致, 即
$\bullet$ 参数选取: $\rho=0.1,\ \sigma=0.5,\ \xi=0.001$ .
(4.4) $\begin{array}{l}\tilde{x}_{0}=(20 * \operatorname{ones}(\tau, 1) ; 55 ; 60 * \operatorname{ones}(\tau-1,1)) \in \mathcal{X} \\ \tilde{y}_{0}=(15 ; 20 * \operatorname{ones}(\tau-1,1) ; z \operatorname{eros}(\tau, 1)) \in \mathcal{Y}, \lambda_{0}=3.2684 * \operatorname{ones}(\tau, 1)\end{array}$
$\bullet$ 罚参数 $\beta$ 的修正策略:
$\|x^{k+1}\|+\|y^{k+1}\|+\|\lambda^{k+1}\| > 10^{10}\\mbox{和}\ \|x^{k+1}-x^{k}\|+\|y^{k+1}-y^{k}\|+\|\lambda^{k+1}-\lambda^{k}\| > 1000/k,$
算法 QCQP-SSQP 用 $\min\{1000,\ 1.5\beta\}$ 来更新罚参数 $\beta$ , 算法 2.1 用 $\min\{1000,\ 4.5\beta\}$ 来更新 $\beta$ .
$\bullet$ 终止准则及精度: 算法 2.1 及算法 QCQP-SSQP 采用终止准则
(4.5) $\hat{\epsilon}_{k}:=\frac{\left\|\left(x_{k+1}-x_{k}, y_{k+1}-y_{k}, \lambda_{k+1}-\lambda_{k}\right)\right\|^{2}}{\left\|\left(x_{k}, y_{k}, \lambda_{k}\right)\right\|^{2}+1}<\epsilon$
本文采取类似于文献[22 ] 中的方式产生 $B^x_{k}$ 和$B^y_{k}$ , 即
(4.6) $\begin{aligned} \hat{B}_{k}^{x}: & :=\nabla_{x x}^{2} f\left(x_{k}, y_{k}\right)-\sum_{i=1}^{m}\left(\lambda_{k}\right)_{i} \nabla_{x x}^{2} h_{i}\left(x_{k}, y_{k}\right), B_{k}^{x}=\mathrm{PD}_{\varsigma}\left(\hat{B}_{k}^{x}\right)+\beta \nabla_{x} h_{(k, k)} \nabla_{x} h_{(k, k)}^{\top}, \\ \hat{B}_{k}^{y}: & =\nabla_{y y}^{2} f\left(x_{k}, y_{k}\right)-\sum^{m}\left(\lambda_{k}\right)_{i} \nabla_{y y}^{2} h_{i}\left(x_{k}, y_{k}\right), B_{k}^{y}=\mathrm{PD}_{\varsigma}\left(\hat{B}_{k}^{y}\right)+\beta \nabla_{y} h_{(k, k)} \nabla_{y} h_{(k, k)}^{\top}.\end{aligned}$
其中正定化映射 ${\rm PD}_{\varsigma}(B): {\cal S}^{n_1} \rightarrow {\cal S}^{n_1}_{+}$ 或 ${\cal S}^{n_2} \rightarrow {\cal S}^{n_2}_{+}$ ,
(4.7) $\mathrm{PD}_{\varsigma}(B)=B+\delta_{\varsigma}(B) E_{n_{1} / n_{2}}, \delta_{\varsigma}(B)=\left\{\begin{array}{ll}0, & \text { 若 } \lambda_{\min }(B)>\varsigma ; \\ -\lambda_{\min }(B)+\varsigma, & \text { 若 }\left|\lambda_{\min }(B)\right| \leqslant \varsigma ; \\ 2\left|\lambda_{\min }(B)\right|, & \text { 若 } \lambda_{\min }(B)<-\varsigma,\end{array}\right.$
其中, ${\cal S}^n$ 表示 $n$ 阶对称阵, $\lambda_{\rm min}(B)$ 为矩阵 $B$ 的最小特征值, $E_n$ 是 $n$ 阶单位阵, $\varsigma$ 是一个充分小的正数, 试验中取 $\varsigma=0.0001$ .
4.1 针对非凸可分优化情形的试验
下面测试算法 2.1 当算例 (4.1) 中 $M=0_{2\tau},\ c=0$ 及$a_i=0\ (i=6,\cdots,\tau)$ 的数值效果, 即测试算法 2.1 非凸可分优化情形, 为检验算法的数值有效性和精准性, 与算法 QCQP-SSQP 进行比较.
$\bullet$ 数值结果及分析: 数值结果于表1 , 其中 Itr 表示迭代次数, Tcpu 表示算法运行时间(单位为秒), $Q_{*}$ 为所求得的目标最优值. 程序终止时的(近似)最优解 $(x^*,y^*)$ 关于等式约束的可行性度量为$\label{phieq} \varphi_{\rm eq}:=\| h(x^*,y^*)\|_{\infty},$ $\beta_{\rm final}$ 表示程序终止时的罚参数.从表1 的实验结果, 可得到如下结论:
(i) 当 $\tau=5$ 时, 算法 2.1 能够在较少迭代次数和较短时间内求得十分接近已知最优值 $Q((\tilde{x},\tilde{y})^*_{\tau=5})=664.820455$ 的近似最优解.
(ii) 对于 $\tau>5$ 的算例, 算法 2.1 和算法 QCQP-SSQP 所求近似最优值 $Q_*$ 基本相近, 但算法 2.1 在算法终止时的等式约束可行性度量$\varphi_{\rm eq}$ 总体表现更佳.
(iii) 当问题规模较大 ($\tau\geqslant 600$ ) 时, 不论是算法迭代次数 Itr, 还是运行时长 Tcpu, 本文算法 2.1 都优于算法 QCQP-SSQP.
4.2 针对非凸不可分优化情形的试验
由于本文所设计的算法是求解具有不可分结构的非凸优化问题(1.1), 故进一步测试算法2.1求解具有不可分情形的算例(4.1), 取 $M=E_{2\tau}$ (单位阵), $c=(1,\cdots,1)$ , $a_i= 1$ .
$\bullet$ 数值结果及分析: 相关数值实验结果于表2 所示. 在此部分的数值试验中, 算法 2.1 测试了算例对应于不同 $\tau$ 值的例子, 从运算时间成本和关于等式约束的精度看, 算法 2.1 的数值效果尚佳. 因此, 本文所设计的算法 2.1 是有效的.
5 结论
本文针对目标函数和约束函数带不可分结构的大规模非凸优化问题, 提出一种新型且高效的分裂序列二次规划算法. 在常规假设下, 获得了该算法的全局收敛性. 通过对构造的数学算例进行测试, 包括非凸可分和不可分优化问题, 数值结果表明本文设计的新算法是有效的.
参考文献
View Option
[1]
Douglas J , Rachford Jr H H . On the numerical solution of the heat conduction problem in two and three space variables
Transactions of the American Mathematical Society , 1956 , 82 (2 ): 421 -439
DOI:10.1090/tran/1956-082-02
URL
[本文引用: 1]
[2]
Peaceman D W , Rachford Jr H H . The numerical solution of parabolic and elliptic differential equations
Journal of the Society for Industrial and Applied Mathematics , 1955 , 3 : 28 -41
DOI:10.1137/0103003
URL
[本文引用: 1]
[3]
Wang F H , Cao W F , Xu Z B . Convergence of multi-block Bregman ADMM for nonconvex composite problems
Science China Information Sciences , 2018 , 61 : 1 -12
[本文引用: 2]
[4]
Wang F H , Xu Z B , Xu H K . Convergence of Bregman alternating direction method with multipliers for nonconvex composite problems . arXiv preprint arXiv: 1410.8625, 2014
[本文引用: 2]
[5]
Guo K , Han D R , Wu T T . Convergence of alternating direction method for minimizing sum of two nonconvex functions with linear constraints
International Journal of Computer Mathematics , 2017 , 94 (8 ): 1653 -1669
DOI:10.1080/00207160.2016.1227432
URL
[本文引用: 2]
[6]
Chao M T , Zhang Y , Jian J B . An inertial proximal alternating direction method of multipliers for nonconvex optimization
International Journal of Computer Mathematics , 2021 , 98 (6 ): 1199 -1217
DOI:10.1080/00207160.2020.1812585
URL
[本文引用: 2]
[7]
简金宝 , 刘鹏杰 , 江羡珍 . 非凸多分块优化部分对称正则化交替方向乘子法
数学学报 (中文版) , 2021 , 64 (6 ): 1005 -1026
[本文引用: 1]
The researches on the alternating direction method of multiplier method (ADMM) for solving two-block optimization have been gradually mature and perfect. However, the studies on ADMM for solving nonconvex multi-block optimization are relatively few. In this paper, we first propose a partially symmetric regularized ADMM for nonconvex multi-block optimization with linear constraints. Second, under appropriate assumptions including the region of the two parameters in the updating formulas for the multiplier, the global convergence of the proposed method is proved. Third, when the augmented Lagrangian function satisfies the Kurdyka-Lojasiewicz (KL) property, the strong convergence of the method is proved. Furthermore, when the associated KL property function has a special structure, the sublinear and linear convergence rate of the method are obtained. Finally, some preliminary numerical experiments are carried out, and this shows that the proposed method is numerically effective.
Jian J B , Liu P J , Jiang X Z . A partially symmetric regularized alternating direction method of multipliers for nonconvex multi-block optimization
Acta Mathematica Sinica, Chinese Series , 2021 , 64 (6 ): 1005 -1026
[本文引用: 1]
The researches on the alternating direction method of multiplier method (ADMM) for solving two-block optimization have been gradually mature and perfect. However, the studies on ADMM for solving nonconvex multi-block optimization are relatively few. In this paper, we first propose a partially symmetric regularized ADMM for nonconvex multi-block optimization with linear constraints. Second, under appropriate assumptions including the region of the two parameters in the updating formulas for the multiplier, the global convergence of the proposed method is proved. Third, when the augmented Lagrangian function satisfies the Kurdyka-Lojasiewicz (KL) property, the strong convergence of the method is proved. Furthermore, when the associated KL property function has a special structure, the sublinear and linear convergence rate of the method are obtained. Finally, some preliminary numerical experiments are carried out, and this shows that the proposed method is numerically effective.
[8]
Jia Z H , Gao X , Cai X J , Han D R . Local linear convergence of the alternating direction method of multipliers for nonconvex separable optimization Problems
Journal of Optimization Theory and Applications , 2021 , 188 (1 ): 1 -25
DOI:10.1007/s10957-020-01782-y
[本文引用: 1]
[9]
Li G Y , Pong T K . Global convergence of splitting methods for nonconvex composite optimization
SIAM Journal on Optimization , 2015 , 25 (4 ): 2434 -2460
DOI:10.1137/140998135
URL
[本文引用: 1]
[10]
王娇浪 , 方东辉 . 一类非凸约束优化问题的近似最优性条件及其混合型对偶
数学物理学报 , 2022 , 42A (3 ): 651 -660
[本文引用: 1]
Wang J L , Fang D H . Approximate optimality conditions and mixed type duality for a class of non-convex optimization problems
Acta Mathematica Scientia , 2022 , 42A (3 ): 651 -660
[本文引用: 1]
[11]
Hong M Y , Luo Z Q . Razaviyayn M . Convergence analysis of alternating direction method of multipliers for a family of nonconvex problems
SIAM Journal on Optimization , 2016 , 26 (1 ): 337 -364
DOI:10.1137/140990309
URL
[本文引用: 1]
[12]
Guo K , Han D R , Wu T T . Convergence of ADMM for optimization problems with nonseparable nonconvex objective and linear constraints
Pacific Journal of Optimization , 2018 , 14 : 489 -506
[本文引用: 1]
[13]
Liu Q H , Shen X Y , Gu Y T . Linearized ADMM for nonconvex nonsmooth optimization with convergence analysis
IEEE Access , 2019 , 7 : 76131 -76144
DOI:10.1109/Access.6287639
URL
[本文引用: 1]
[14]
刘鹏杰 , 简金宝 , 许佳伟 , 马国栋 . 非凸不可分优化线性近似Bregman 型 Peaceman-Rachford 分裂算法
数学学报 (中文版) , 2023 , 66 (1 ): 75 -94
[本文引用: 1]
Liu P J , Jian J B , Xu J W , Ma G D . A linear approximation Bregman-type Peaceman-Rachford splitting method for nonconvex nonseparable optimization
Acta Mathematica Sinica, Chinese Series , 2023 , 66 (1 ): 75 -94
[本文引用: 1]
[15]
Wilson R B . A Simplicial Method for Concave Programming [D]. Cambridge : Graduate School of Business Administration, Harvard University , 1963
[本文引用: 1]
[16]
Jian J B . A superlinearly convergent implicit smooth SQP algorithm for mathematical programs with nonlinear complementarity constraints
Computational Optimization and Applications , 2005 , 31 (3 ): 335 -361
DOI:10.1007/s10589-005-3230-5
URL
[本文引用: 1]
[17]
简金宝 . 光滑约束优化快速算法:理论分析与数值实验 . 北京 : 科学出版社 , 2010
[本文引用: 2]
Jian J B . Fast Algorithms for Smooth Constrained Optimization-Theoretical Analysis and Numerical Experiments . Beijing : Science Press , 2010
[本文引用: 2]
[18]
Huang M X , Pu D G . A trust-region SQP method without a penalty or a filter for nonlinear programming
Journal of Computational and Applied Mathematics , 2015 , 281 : 107 -119
DOI:10.1016/j.cam.2014.12.021
URL
[本文引用: 1]
[19]
Jian J B , Chao M T , Jiang X Z , Han D L . On the convexity and existence of solutions to quadratic programming problems with convex constraint
Pacific Journal of Optimization , 2019 , 15 (1 ): 9145 -9155
[本文引用: 2]
[20]
Jian J B , Zhang C , Liu P J . A superlinearly convergent splitting feasible sequential quadratic optimization method for two-block large-scale smooth optimization
Acta Mathematica Scientia , 2023 , 43B (1 ): 1 -24
[本文引用: 1]
[21]
简金宝 , 劳译娴 , 晁绵涛 , 马国栋 . 线性约束两分块非凸优化的ADMM-SQP算法
运筹学学报 , 2018 , 22 (2 ): 79 -92
[本文引用: 1]
Jian J B , Lao Y X , Chao M T , Ma G D . ADMM-SQP algorithm for two blocks linear constrained nonconvex optimization
Operations Research Transactions , 2018 , 22 (2 ): 79 -92
[本文引用: 1]
[22]
Jian J B , Liu P J , Yin J H , Zhang C , Chao M T . A QCQP-based splitting SQP algorithm for two-block nonconvex constrained optimization problems with application
Journal of Computational and Applied Mathematics , 2021 , 390 (1 ): 113368
DOI:10.1016/j.cam.2020.113368
URL
[本文引用: 6]
[23]
Hock W , Schittkowski K . Tests Examples for Nonlinear Programming Codes. Lecture Notes in Economics and Mathematical Systems . Berlin, Heidelbeg, New York : Springer-Verlag , 1981 , 187
[本文引用: 1]
On the numerical solution of the heat conduction problem in two and three space variables
1
1956
... 分裂算法是求解带可分结构问题十分有效的算法之一, 主要的分裂算法有 Douglas-Rachford (DR) 分裂算法[1 ] 和 Peaceman-Rachford (PR) 分裂算法[2 ] . 经典的乘子交替方向法 (ADMM) 本质上是将 DR 分裂算法直接应用于求解凸两分块优化的对偶问题, 其算法和一些拓展变体的ADMM 可以将大规模的问题分解成若干个较小规模的问题进行交互求解, 进而降低求解难度和减少计算成本. ...
The numerical solution of parabolic and elliptic differential equations
1
1955
... 分裂算法是求解带可分结构问题十分有效的算法之一, 主要的分裂算法有 Douglas-Rachford (DR) 分裂算法[1 ] 和 Peaceman-Rachford (PR) 分裂算法[2 ] . 经典的乘子交替方向法 (ADMM) 本质上是将 DR 分裂算法直接应用于求解凸两分块优化的对偶问题, 其算法和一些拓展变体的ADMM 可以将大规模的问题分解成若干个较小规模的问题进行交互求解, 进而降低求解难度和减少计算成本. ...
Convergence of multi-block Bregman ADMM for nonconvex composite problems
2
2018
... 近年来, 许多学者对非凸优化进行广泛研究, 并取得一系列成果, 如文献[3 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -10 ]. 对于目标函数可分的非凸优化问题, 文献[3 -4 ]对ADMM 两个子问题均加上 Bregman 距离, 提出了 Bregman 正则化 ADMM, 在效益函数满足Kurdyka-Lojasiewicz (KL) 性质的条件下, 分析了相应算法的收敛性. 文献[5 ]在一般条件下论证经典 ADMM 求解问题(1.3)在具有仿射线性约束时的收敛性和收敛率. 文献[6 ]在迭代第二个子问题时加入惯性技术, 获得惯性邻近版本的ADMM. ...
... ]. 对于目标函数可分的非凸优化问题, 文献[3 -4 ]对ADMM 两个子问题均加上 Bregman 距离, 提出了 Bregman 正则化 ADMM, 在效益函数满足Kurdyka-Lojasiewicz (KL) 性质的条件下, 分析了相应算法的收敛性. 文献[5 ]在一般条件下论证经典 ADMM 求解问题(1.3)在具有仿射线性约束时的收敛性和收敛率. 文献[6 ]在迭代第二个子问题时加入惯性技术, 获得惯性邻近版本的ADMM. ...
2
... 近年来, 许多学者对非凸优化进行广泛研究, 并取得一系列成果, 如文献[3 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -10 ]. 对于目标函数可分的非凸优化问题, 文献[3 -4 ]对ADMM 两个子问题均加上 Bregman 距离, 提出了 Bregman 正则化 ADMM, 在效益函数满足Kurdyka-Lojasiewicz (KL) 性质的条件下, 分析了相应算法的收敛性. 文献[5 ]在一般条件下论证经典 ADMM 求解问题(1.3)在具有仿射线性约束时的收敛性和收敛率. 文献[6 ]在迭代第二个子问题时加入惯性技术, 获得惯性邻近版本的ADMM. ...
... -4 ]对ADMM 两个子问题均加上 Bregman 距离, 提出了 Bregman 正则化 ADMM, 在效益函数满足Kurdyka-Lojasiewicz (KL) 性质的条件下, 分析了相应算法的收敛性. 文献[5 ]在一般条件下论证经典 ADMM 求解问题(1.3)在具有仿射线性约束时的收敛性和收敛率. 文献[6 ]在迭代第二个子问题时加入惯性技术, 获得惯性邻近版本的ADMM. ...
Convergence of alternating direction method for minimizing sum of two nonconvex functions with linear constraints
2
2017
... 近年来, 许多学者对非凸优化进行广泛研究, 并取得一系列成果, 如文献[3 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -10 ]. 对于目标函数可分的非凸优化问题, 文献[3 -4 ]对ADMM 两个子问题均加上 Bregman 距离, 提出了 Bregman 正则化 ADMM, 在效益函数满足Kurdyka-Lojasiewicz (KL) 性质的条件下, 分析了相应算法的收敛性. 文献[5 ]在一般条件下论证经典 ADMM 求解问题(1.3)在具有仿射线性约束时的收敛性和收敛率. 文献[6 ]在迭代第二个子问题时加入惯性技术, 获得惯性邻近版本的ADMM. ...
... ]对ADMM 两个子问题均加上 Bregman 距离, 提出了 Bregman 正则化 ADMM, 在效益函数满足Kurdyka-Lojasiewicz (KL) 性质的条件下, 分析了相应算法的收敛性. 文献[5 ]在一般条件下论证经典 ADMM 求解问题(1.3)在具有仿射线性约束时的收敛性和收敛率. 文献[6 ]在迭代第二个子问题时加入惯性技术, 获得惯性邻近版本的ADMM. ...
An inertial proximal alternating direction method of multipliers for nonconvex optimization
2
2021
... 近年来, 许多学者对非凸优化进行广泛研究, 并取得一系列成果, 如文献[3 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -10 ]. 对于目标函数可分的非凸优化问题, 文献[3 -4 ]对ADMM 两个子问题均加上 Bregman 距离, 提出了 Bregman 正则化 ADMM, 在效益函数满足Kurdyka-Lojasiewicz (KL) 性质的条件下, 分析了相应算法的收敛性. 文献[5 ]在一般条件下论证经典 ADMM 求解问题(1.3)在具有仿射线性约束时的收敛性和收敛率. 文献[6 ]在迭代第二个子问题时加入惯性技术, 获得惯性邻近版本的ADMM. ...
... ]在一般条件下论证经典 ADMM 求解问题(1.3)在具有仿射线性约束时的收敛性和收敛率. 文献[6 ]在迭代第二个子问题时加入惯性技术, 获得惯性邻近版本的ADMM. ...
非凸多分块优化部分对称正则化交替方向乘子法
1
2021
... 近年来, 许多学者对非凸优化进行广泛研究, 并取得一系列成果, 如文献[3 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -10 ]. 对于目标函数可分的非凸优化问题, 文献[3 -4 ]对ADMM 两个子问题均加上 Bregman 距离, 提出了 Bregman 正则化 ADMM, 在效益函数满足Kurdyka-Lojasiewicz (KL) 性质的条件下, 分析了相应算法的收敛性. 文献[5 ]在一般条件下论证经典 ADMM 求解问题(1.3)在具有仿射线性约束时的收敛性和收敛率. 文献[6 ]在迭代第二个子问题时加入惯性技术, 获得惯性邻近版本的ADMM. ...
非凸多分块优化部分对称正则化交替方向乘子法
1
2021
... 近年来, 许多学者对非凸优化进行广泛研究, 并取得一系列成果, 如文献[3 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -10 ]. 对于目标函数可分的非凸优化问题, 文献[3 -4 ]对ADMM 两个子问题均加上 Bregman 距离, 提出了 Bregman 正则化 ADMM, 在效益函数满足Kurdyka-Lojasiewicz (KL) 性质的条件下, 分析了相应算法的收敛性. 文献[5 ]在一般条件下论证经典 ADMM 求解问题(1.3)在具有仿射线性约束时的收敛性和收敛率. 文献[6 ]在迭代第二个子问题时加入惯性技术, 获得惯性邻近版本的ADMM. ...
Local linear convergence of the alternating direction method of multipliers for nonconvex separable optimization Problems
1
2021
... 近年来, 许多学者对非凸优化进行广泛研究, 并取得一系列成果, 如文献[3 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -10 ]. 对于目标函数可分的非凸优化问题, 文献[3 -4 ]对ADMM 两个子问题均加上 Bregman 距离, 提出了 Bregman 正则化 ADMM, 在效益函数满足Kurdyka-Lojasiewicz (KL) 性质的条件下, 分析了相应算法的收敛性. 文献[5 ]在一般条件下论证经典 ADMM 求解问题(1.3)在具有仿射线性约束时的收敛性和收敛率. 文献[6 ]在迭代第二个子问题时加入惯性技术, 获得惯性邻近版本的ADMM. ...
Global convergence of splitting methods for nonconvex composite optimization
1
2015
... 近年来, 许多学者对非凸优化进行广泛研究, 并取得一系列成果, 如文献[3 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -10 ]. 对于目标函数可分的非凸优化问题, 文献[3 -4 ]对ADMM 两个子问题均加上 Bregman 距离, 提出了 Bregman 正则化 ADMM, 在效益函数满足Kurdyka-Lojasiewicz (KL) 性质的条件下, 分析了相应算法的收敛性. 文献[5 ]在一般条件下论证经典 ADMM 求解问题(1.3)在具有仿射线性约束时的收敛性和收敛率. 文献[6 ]在迭代第二个子问题时加入惯性技术, 获得惯性邻近版本的ADMM. ...
一类非凸约束优化问题的近似最优性条件及其混合型对偶
1
2022
... 近年来, 许多学者对非凸优化进行广泛研究, 并取得一系列成果, 如文献[3 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -10 ]. 对于目标函数可分的非凸优化问题, 文献[3 -4 ]对ADMM 两个子问题均加上 Bregman 距离, 提出了 Bregman 正则化 ADMM, 在效益函数满足Kurdyka-Lojasiewicz (KL) 性质的条件下, 分析了相应算法的收敛性. 文献[5 ]在一般条件下论证经典 ADMM 求解问题(1.3)在具有仿射线性约束时的收敛性和收敛率. 文献[6 ]在迭代第二个子问题时加入惯性技术, 获得惯性邻近版本的ADMM. ...
一类非凸约束优化问题的近似最优性条件及其混合型对偶
1
2022
... 近年来, 许多学者对非凸优化进行广泛研究, 并取得一系列成果, 如文献[3 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -10 ]. 对于目标函数可分的非凸优化问题, 文献[3 -4 ]对ADMM 两个子问题均加上 Bregman 距离, 提出了 Bregman 正则化 ADMM, 在效益函数满足Kurdyka-Lojasiewicz (KL) 性质的条件下, 分析了相应算法的收敛性. 文献[5 ]在一般条件下论证经典 ADMM 求解问题(1.3)在具有仿射线性约束时的收敛性和收敛率. 文献[6 ]在迭代第二个子问题时加入惯性技术, 获得惯性邻近版本的ADMM. ...
Convergence analysis of alternating direction method of multipliers for a family of nonconvex problems
1
2016
... 而对于非凸不可分优化问题, 其收敛性仍是一个公开问题. 文献[11 ]指出, 当目标函数存在不可分结构$h(x,y)$ 时, 即使在凸情形下收敛性证明仍具挑战. 文献[12 ]研究了一类特殊问题, 即问题(1.3)中目标函数带不可分结构 $h(x,y)$ , 约束为仿射线性约束 $h(x)+g(y)=Ax+By-b$ , 得到经典 ADMM 的收敛性. 文献[13 ]运用线性化技术对目标函数中可微项进行线性化处理, 给出线性化版本的 ADMM. 文献[14 ]基于 PR 分裂算法, 结合线性近似技术和 Bregman 距离, 提出一种不可分优化线性近似 Bregman 型 PR 分裂算法, 在常规假设条件下获得算法全局收敛性, 在效益函数满足 KL性质时证得强收敛性. 当 KL 性质关联函数具有特殊结构时, 分析收敛率结果. ...
Convergence of ADMM for optimization problems with nonseparable nonconvex objective and linear constraints
1
2018
... 而对于非凸不可分优化问题, 其收敛性仍是一个公开问题. 文献[11 ]指出, 当目标函数存在不可分结构$h(x,y)$ 时, 即使在凸情形下收敛性证明仍具挑战. 文献[12 ]研究了一类特殊问题, 即问题(1.3)中目标函数带不可分结构 $h(x,y)$ , 约束为仿射线性约束 $h(x)+g(y)=Ax+By-b$ , 得到经典 ADMM 的收敛性. 文献[13 ]运用线性化技术对目标函数中可微项进行线性化处理, 给出线性化版本的 ADMM. 文献[14 ]基于 PR 分裂算法, 结合线性近似技术和 Bregman 距离, 提出一种不可分优化线性近似 Bregman 型 PR 分裂算法, 在常规假设条件下获得算法全局收敛性, 在效益函数满足 KL性质时证得强收敛性. 当 KL 性质关联函数具有特殊结构时, 分析收敛率结果. ...
Linearized ADMM for nonconvex nonsmooth optimization with convergence analysis
1
2019
... 而对于非凸不可分优化问题, 其收敛性仍是一个公开问题. 文献[11 ]指出, 当目标函数存在不可分结构$h(x,y)$ 时, 即使在凸情形下收敛性证明仍具挑战. 文献[12 ]研究了一类特殊问题, 即问题(1.3)中目标函数带不可分结构 $h(x,y)$ , 约束为仿射线性约束 $h(x)+g(y)=Ax+By-b$ , 得到经典 ADMM 的收敛性. 文献[13 ]运用线性化技术对目标函数中可微项进行线性化处理, 给出线性化版本的 ADMM. 文献[14 ]基于 PR 分裂算法, 结合线性近似技术和 Bregman 距离, 提出一种不可分优化线性近似 Bregman 型 PR 分裂算法, 在常规假设条件下获得算法全局收敛性, 在效益函数满足 KL性质时证得强收敛性. 当 KL 性质关联函数具有特殊结构时, 分析收敛率结果. ...
非凸不可分优化线性近似Bregman 型 Peaceman-Rachford 分裂算法
1
2023
... 而对于非凸不可分优化问题, 其收敛性仍是一个公开问题. 文献[11 ]指出, 当目标函数存在不可分结构$h(x,y)$ 时, 即使在凸情形下收敛性证明仍具挑战. 文献[12 ]研究了一类特殊问题, 即问题(1.3)中目标函数带不可分结构 $h(x,y)$ , 约束为仿射线性约束 $h(x)+g(y)=Ax+By-b$ , 得到经典 ADMM 的收敛性. 文献[13 ]运用线性化技术对目标函数中可微项进行线性化处理, 给出线性化版本的 ADMM. 文献[14 ]基于 PR 分裂算法, 结合线性近似技术和 Bregman 距离, 提出一种不可分优化线性近似 Bregman 型 PR 分裂算法, 在常规假设条件下获得算法全局收敛性, 在效益函数满足 KL性质时证得强收敛性. 当 KL 性质关联函数具有特殊结构时, 分析收敛率结果. ...
非凸不可分优化线性近似Bregman 型 Peaceman-Rachford 分裂算法
1
2023
... 而对于非凸不可分优化问题, 其收敛性仍是一个公开问题. 文献[11 ]指出, 当目标函数存在不可分结构$h(x,y)$ 时, 即使在凸情形下收敛性证明仍具挑战. 文献[12 ]研究了一类特殊问题, 即问题(1.3)中目标函数带不可分结构 $h(x,y)$ , 约束为仿射线性约束 $h(x)+g(y)=Ax+By-b$ , 得到经典 ADMM 的收敛性. 文献[13 ]运用线性化技术对目标函数中可微项进行线性化处理, 给出线性化版本的 ADMM. 文献[14 ]基于 PR 分裂算法, 结合线性近似技术和 Bregman 距离, 提出一种不可分优化线性近似 Bregman 型 PR 分裂算法, 在常规假设条件下获得算法全局收敛性, 在效益函数满足 KL性质时证得强收敛性. 当 KL 性质关联函数具有特殊结构时, 分析收敛率结果. ...
1
1963
... 另一方面, 序列二次规划 (SQP) 算法是求解带线性或非线性约束优化问题最有效算法之一, 由 Wilson[15 ] 首先提出, 因其具有良好的理论性质和高效的计算效果, 尤其对于中小规模问题来说, 这一优势更加显著. 因此, SQP 算法深受研究者欢迎, 理论成果丰富, 如文献[16 ⇓ ⇓ ⇓ -20 ]. 充分吸收 ADMM 和 SQP 算法高效求解的优势, 文献[21 ] 首次提出了 ADMM-SQP 算法, 该算法基于 ADMM 的分解降维思想, 将 SQP 思想所需求解的 QP 子问题分解为两个互相独立的小规模 QP 子问题, 再利用 Armijo 线搜索技术产生新的迭代点, 在合理的假设下论证了算法良好的理论性质. ...
A superlinearly convergent implicit smooth SQP algorithm for mathematical programs with nonlinear complementarity constraints
1
2005
... 另一方面, 序列二次规划 (SQP) 算法是求解带线性或非线性约束优化问题最有效算法之一, 由 Wilson[15 ] 首先提出, 因其具有良好的理论性质和高效的计算效果, 尤其对于中小规模问题来说, 这一优势更加显著. 因此, SQP 算法深受研究者欢迎, 理论成果丰富, 如文献[16 ⇓ ⇓ ⇓ -20 ]. 充分吸收 ADMM 和 SQP 算法高效求解的优势, 文献[21 ] 首次提出了 ADMM-SQP 算法, 该算法基于 ADMM 的分解降维思想, 将 SQP 思想所需求解的 QP 子问题分解为两个互相独立的小规模 QP 子问题, 再利用 Armijo 线搜索技术产生新的迭代点, 在合理的假设下论证了算法良好的理论性质. ...
2
2010
... 另一方面, 序列二次规划 (SQP) 算法是求解带线性或非线性约束优化问题最有效算法之一, 由 Wilson[15 ] 首先提出, 因其具有良好的理论性质和高效的计算效果, 尤其对于中小规模问题来说, 这一优势更加显著. 因此, SQP 算法深受研究者欢迎, 理论成果丰富, 如文献[16 ⇓ ⇓ ⇓ -20 ]. 充分吸收 ADMM 和 SQP 算法高效求解的优势, 文献[21 ] 首次提出了 ADMM-SQP 算法, 该算法基于 ADMM 的分解降维思想, 将 SQP 思想所需求解的 QP 子问题分解为两个互相独立的小规模 QP 子问题, 再利用 Armijo 线搜索技术产生新的迭代点, 在合理的假设下论证了算法良好的理论性质. ...
... 证 先证结论 (i) 和 (ii). 首先, 由(2.25)和(3.4)式以及 $L_\beta(\cdot)$ 的连续性知, 数列 $\{L_\beta(w_k)\}$ 整列单调下降, 且有收敛子列 $\{L_\beta(w_k)\}_{{\cal K}}$ . 进而由 [17 ,定理 1.1.5] 知, $\{L_\beta(w_k)\}$ 整列收敛. 其次, 由其单调下降性和连续性知, $\lim\limits_{k\rightarrow \infty} L_{\beta}(w_k)= \inf\limits_k L_{\beta}(w_k)= L_{\beta}(w_*).$ 令 $k \rightarrow \infty$ , 对不等式 (2.25) 取极限, 并结合 (3.3)式, $\{L_\beta(w_k)\}$ 收敛及 $\xi > 0$ , 可知结论(ii)成立. 最后, 由 $\lim\limits_{k\rightarrow \infty}h{(u_k)}=0$ 有 $L_{\beta}(w_*)=f(x_*, y_*)$ . 因此, 结论 (i) 成立. ...
2
2010
... 另一方面, 序列二次规划 (SQP) 算法是求解带线性或非线性约束优化问题最有效算法之一, 由 Wilson[15 ] 首先提出, 因其具有良好的理论性质和高效的计算效果, 尤其对于中小规模问题来说, 这一优势更加显著. 因此, SQP 算法深受研究者欢迎, 理论成果丰富, 如文献[16 ⇓ ⇓ ⇓ -20 ]. 充分吸收 ADMM 和 SQP 算法高效求解的优势, 文献[21 ] 首次提出了 ADMM-SQP 算法, 该算法基于 ADMM 的分解降维思想, 将 SQP 思想所需求解的 QP 子问题分解为两个互相独立的小规模 QP 子问题, 再利用 Armijo 线搜索技术产生新的迭代点, 在合理的假设下论证了算法良好的理论性质. ...
... 证 先证结论 (i) 和 (ii). 首先, 由(2.25)和(3.4)式以及 $L_\beta(\cdot)$ 的连续性知, 数列 $\{L_\beta(w_k)\}$ 整列单调下降, 且有收敛子列 $\{L_\beta(w_k)\}_{{\cal K}}$ . 进而由 [17 ,定理 1.1.5] 知, $\{L_\beta(w_k)\}$ 整列收敛. 其次, 由其单调下降性和连续性知, $\lim\limits_{k\rightarrow \infty} L_{\beta}(w_k)= \inf\limits_k L_{\beta}(w_k)= L_{\beta}(w_*).$ 令 $k \rightarrow \infty$ , 对不等式 (2.25) 取极限, 并结合 (3.3)式, $\{L_\beta(w_k)\}$ 收敛及 $\xi > 0$ , 可知结论(ii)成立. 最后, 由 $\lim\limits_{k\rightarrow \infty}h{(u_k)}=0$ 有 $L_{\beta}(w_*)=f(x_*, y_*)$ . 因此, 结论 (i) 成立. ...
A trust-region SQP method without a penalty or a filter for nonlinear programming
1
2015
... 另一方面, 序列二次规划 (SQP) 算法是求解带线性或非线性约束优化问题最有效算法之一, 由 Wilson[15 ] 首先提出, 因其具有良好的理论性质和高效的计算效果, 尤其对于中小规模问题来说, 这一优势更加显著. 因此, SQP 算法深受研究者欢迎, 理论成果丰富, 如文献[16 ⇓ ⇓ ⇓ -20 ]. 充分吸收 ADMM 和 SQP 算法高效求解的优势, 文献[21 ] 首次提出了 ADMM-SQP 算法, 该算法基于 ADMM 的分解降维思想, 将 SQP 思想所需求解的 QP 子问题分解为两个互相独立的小规模 QP 子问题, 再利用 Armijo 线搜索技术产生新的迭代点, 在合理的假设下论证了算法良好的理论性质. ...
On the convexity and existence of solutions to quadratic programming problems with convex constraint
2
2019
... 另一方面, 序列二次规划 (SQP) 算法是求解带线性或非线性约束优化问题最有效算法之一, 由 Wilson[15 ] 首先提出, 因其具有良好的理论性质和高效的计算效果, 尤其对于中小规模问题来说, 这一优势更加显著. 因此, SQP 算法深受研究者欢迎, 理论成果丰富, 如文献[16 ⇓ ⇓ ⇓ -20 ]. 充分吸收 ADMM 和 SQP 算法高效求解的优势, 文献[21 ] 首次提出了 ADMM-SQP 算法, 该算法基于 ADMM 的分解降维思想, 将 SQP 思想所需求解的 QP 子问题分解为两个互相独立的小规模 QP 子问题, 再利用 Armijo 线搜索技术产生新的迭代点, 在合理的假设下论证了算法良好的理论性质. ...
... 关于 QP 子问题(2.16)和(2.17)解的基本性质, 由[19 ,推论 3.6] 有如下引理. ...
A superlinearly convergent splitting feasible sequential quadratic optimization method for two-block large-scale smooth optimization
1
2023
... 另一方面, 序列二次规划 (SQP) 算法是求解带线性或非线性约束优化问题最有效算法之一, 由 Wilson[15 ] 首先提出, 因其具有良好的理论性质和高效的计算效果, 尤其对于中小规模问题来说, 这一优势更加显著. 因此, SQP 算法深受研究者欢迎, 理论成果丰富, 如文献[16 ⇓ ⇓ ⇓ -20 ]. 充分吸收 ADMM 和 SQP 算法高效求解的优势, 文献[21 ] 首次提出了 ADMM-SQP 算法, 该算法基于 ADMM 的分解降维思想, 将 SQP 思想所需求解的 QP 子问题分解为两个互相独立的小规模 QP 子问题, 再利用 Armijo 线搜索技术产生新的迭代点, 在合理的假设下论证了算法良好的理论性质. ...
线性约束两分块非凸优化的ADMM-SQP算法
1
2018
... 另一方面, 序列二次规划 (SQP) 算法是求解带线性或非线性约束优化问题最有效算法之一, 由 Wilson[15 ] 首先提出, 因其具有良好的理论性质和高效的计算效果, 尤其对于中小规模问题来说, 这一优势更加显著. 因此, SQP 算法深受研究者欢迎, 理论成果丰富, 如文献[16 ⇓ ⇓ ⇓ -20 ]. 充分吸收 ADMM 和 SQP 算法高效求解的优势, 文献[21 ] 首次提出了 ADMM-SQP 算法, 该算法基于 ADMM 的分解降维思想, 将 SQP 思想所需求解的 QP 子问题分解为两个互相独立的小规模 QP 子问题, 再利用 Armijo 线搜索技术产生新的迭代点, 在合理的假设下论证了算法良好的理论性质. ...
线性约束两分块非凸优化的ADMM-SQP算法
1
2018
... 另一方面, 序列二次规划 (SQP) 算法是求解带线性或非线性约束优化问题最有效算法之一, 由 Wilson[15 ] 首先提出, 因其具有良好的理论性质和高效的计算效果, 尤其对于中小规模问题来说, 这一优势更加显著. 因此, SQP 算法深受研究者欢迎, 理论成果丰富, 如文献[16 ⇓ ⇓ ⇓ -20 ]. 充分吸收 ADMM 和 SQP 算法高效求解的优势, 文献[21 ] 首次提出了 ADMM-SQP 算法, 该算法基于 ADMM 的分解降维思想, 将 SQP 思想所需求解的 QP 子问题分解为两个互相独立的小规模 QP 子问题, 再利用 Armijo 线搜索技术产生新的迭代点, 在合理的假设下论证了算法良好的理论性质. ...
A QCQP-based splitting SQP algorithm for two-block nonconvex constrained optimization problems with application
6
2021
... 文献[22 ] 中, 考虑问题(1.3)的二次约束二次规划 (QCQP) 近似子问题, 对 QCQP 子问题的增广拉格朗日问题应用分裂算法思想, 获得两个小规模子问题; 再以原问题的增广拉格朗日函数为效益函数, 执行 Armijo 型线搜索, 获得新的原始迭代点, 提出一个基于 QCQP 的分裂 SQP 算法. ...
... 为验证本文所设计算法 2.1 的有效性, 将用于求解一类具有可分和不可分结构的非凸数学模型. 鉴于文献[22 ] 的算法是求解非凸可分优化问题, 首先将算法 2.1 与其进行数值比对. 所有测试程序代码均在MATLAB 2016b 上编写执行, 电脑配置为 Intel(R) Core(TM) i5-10210U, CPU 1.60 GHz, RAM 8.00 GB, Windows 10.0 (64 位). ...
... $\bullet$ 算例的构造: 由文献[22 ] 两分块优化例子 (6.1) 式拓展为以下形如 (1.1) 的非凸不可分光滑优化算例 (其中 $\tau\geqslant 5$ , sign($\cdot$ ) 为符号函数) ...
... 显然, 当$M=0_{2\tau},\ c=0,\ a_i=0\ (i=6,\cdots,\tau)$ 时, 算例(4.1) 退化为文献[22 ]中算例(6.1). 特别地, 当 $\tau=5$ 时, 上述算例进一步退化为文献[23 ]中的算例 HS118, 此例子是一个凸二次规划, 其最优解和最优值是已知的, 即 ...
... 算法 2.1 所选取的参数、初始迭代点以及罚参数 $\beta$ 的修正策略均与文献[22 ] 中算法 QCQP-SSQP 一致, 即 ...
... 本文采取类似于文献[22 ] 中的方式产生 $B^x_{k}$ 和$B^y_{k}$ , 即 ...
1
1981
... 显然, 当$M=0_{2\tau},\ c=0,\ a_i=0\ (i=6,\cdots,\tau)$ 时, 算例(4.1) 退化为文献[22 ]中算例(6.1). 特别地, 当 $\tau=5$ 时, 上述算例进一步退化为文献[23 ]中的算例 HS118, 此例子是一个凸二次规划, 其最优解和最优值是已知的, 即 ...