1 引言
(1.1) $\begin{matrix}\label{e1.1} \min \{ f(x) | x\in {\mathbb R}^n\}, \end{matrix}$
其中函数 $f$ 在 ${\mathbb R}^n$ 上连续可微. 共轭梯度法是求解问题 (1.1) 的一种有效方法, 记 $g_k=\nabla f(x_k)$ , 则对当前迭代点 $x_k$ , 产生 $x_{k+1}$ 的一般形式为
(1.2) $\begin{matrix} x_{k+1}=x_k+\alpha_k d_k, \end{matrix}$
(1.3) $d_k= \begin{cases}-g_k, & k=1\, \\ -g_k+\beta_kd_{k-1}, & k\geq 2,\end{cases}$
其中 $\alpha_k$ 为某一线搜索产生的步长, 不同搜索方向 $d_k$ 由共轭参数 $\beta_k$ 决定. 经典共轭参数包括[1 ⇓ ⇓ ⇓ -5 ]
$\beta_k^{\rm HS}=\frac{g_k^{\top}y_{k-1}}{d_{k-1}^{\top}y_{k-1}}, \ \beta_k^{\rm FR}=\frac{\|g_k\|^2}{\|g_{k-1}\|^2}, \ \beta_k^{\rm PRP}=\frac{g_k^{\top}y_{k-1}}{\|g_{k-1}\|^2}, \ \beta_k^{\rm DY}=\frac{\|g_k\|^2}{d_{k-1}^{\top}y_{k-1}},$
其中 $y_{k-1}= g_k-g_{k-1}$ . 由此产生的四种著名共轭梯度法分别称为 Hestenes-Stiefel (HS) 方法, Fletcher-Reeves (FR) 方法, Polak-Ribière-Polyak (PRP) 方法和 Dai-Yuan (DY) 方法. 若问题 (1.1) 目标函数严格凸, 且采用精确线搜索计算步长, 上述四种方法等价. 对一般函数或使用非精确线搜索时, 上述方法存在较大差异. 一般情况下, HS 方法和 PRP 方法有良好数值性能, 却无法获得收敛性; FR 方法和 DY 方法有较好理论收敛性, 然而其数值效果难及 HS 方法和 PRP 方法. 特别地, HS 方法和 PRP 方法之所以具有较好数值表现, 可能是其求解于一般函数时自带重启性能.
近些年, 为寻求数值效果好且有收敛性的共轭梯度法, 许多学者对上述四种著名方法进行改进. 例如, 为取得 HS 方法理论上的相关性质, Yao 等[6 ] 给出一个改进 $\beta_k^{\rm HS}$ 的共轭参数
$\beta_k^{YWH}=\frac{\|g_{k}\|^2-\frac{\|g_{k}\|}{\|g_{k-1}\|}g_{k}^{\top} g_{k-1}}{d_{k-1}^{\top}y_{k-1}}. $
结果表明, 强 Wolfe 线搜索下对应的 YWH 方法能产生下降方向并具有全局收敛性. Zhang[7 ] 对 YWH 方法稍作调整, 有
$\beta_k^{NHS}=\frac{\|g_{k}\|^2-\frac{\|g_{k}\|}{\|g_{k-1}\|} |g_{k}^{\top} g_{k-1}|}{d_{k-1}^{\top} y_{k-1}}.$
上述 NHS 方法不仅像 HS 方法具有良好计算效果, 且和 DY 方法一样使用弱 Wolfe 线搜索有其下降性与收敛性. 基于文献[6 ,7 ], 江等[8 ] 给出另一种改进 $\beta_k^{ HS}$ 的版本, 即
$\beta_k^{JMJ}=\frac{\|g_{k}\|^2-\frac{\|g_{k}\|}{\|d_{k-1}\|} |g_{k}^{\top} d_{k-1}|}{d_{k-1}^{\top} y_{k-1}}.$
最近, Zhu 等[9 ] 借助重启条件, 引入如下两个共轭参数
$\beta_k^{\mathrm{DDY} 1}=\left\{\begin{array}{l}\frac{g_k^{\top}\left(g_k-\frac{\nu_1\left(g_k^{\top} d_{k-1}\right)^2}{\left\|g_k\right\|\|\| g_{k-1}\|\| d_{k-1} \|^2} g_{k-1}\right)}{d_{k-1}^{\top} y_{k-1}}, g_k^{\top} g_{k-1} \geq 0, \\\frac{g_k^{\top}\left(g_k+\frac{\nu_1\left(g_k^{\top} d_{k-1}\right)^2}{\left\|g_k\right\|\|\| g_{k-1}\|\| d_{k-1} \|^2} g_{k-1}\right)}{d_{k-1}^{\top} y_{k-1}}, g_k^{\top} g_{k-1}<0\end{array}\right.$
$\beta_k^{\mathrm{DDY} 2}= \begin{cases}\frac{g_k^{\top}\left(g_k-\frac{g_k^{\top} d_{k-1}}{\left\|d_{k-1}\right\|^2} d_{k-1}\right)}{d_{k-1}^{\top} y_{k-1}+\nu_2 g_k^{\top} d_{k-1}}, & g_k^{\top} d_{k-1} \geq 0 \\ 0, & g_k^{\top} d_{k-1}<0\end{cases}$
其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献.
启发于文献[6 ,8 ], 本文首先给出一个改进 $\beta_k^{HS}$ 的新共轭参数
$\beta_k^{ EHS}=\frac{\|g_{k}\|^2-\frac{\|g_{k}\|}{\|y_{k-1}\|}g_{k}^{\top} y_{k-1}}{d_{k-1}^{\top}y_{k-1}}=\frac{\left(1- \frac{\|g_{k}\|}{\|y_{k-1}\|} \right)\|g_{k}\|^2 + \frac{\|g_{k}\|}{\|y_{k-1}\|}g_{k}^{\top} g_{k-1}}{d_{k-1}^{\top}y_{k-1}},$
其形式上亦可视为 $\|g_{k}\|^2$ 与 $g_{k}^{\top} g_{k-1}$ 的仿射组合. 然而类似于 YWH 方法, 由 $\beta_k^{\rm EHS}$ 和搜索方向 (1.3) 产生的 EHS 方法并未完全继承 DY 方法的优良理论特性. 例如, 在常用非精确弱 Wolfe 线搜索条件下, 即步长 $\alpha_k$ 满足
(1.4) $\begin{matrix}\left\{\begin{array}{ll}f(x_k+\alpha_k d_k)\leq f(x_k)+\delta \alpha_k g_k^{\top} d_k,\\g(x_k+\alpha_k d_k)^{\top} d_k\geq \sigma g_k^{\top} d_k, \end{array}\right.\end{matrix}$
其中 $0<\delta < \sigma<1$ , DY 方法具有下降性和全局收敛性, 而 YWH 方法和 EHS 方法不一定有. 基于上述分析, 该文拟借鉴文献[9 ] 的重启条件及文献[10 ,11 ]的重启方向, 对上述 EHS 方法改进, 使其有与 DY 方法类似的良好理论性质, 同时亦继承 HS 方法较好的数值计算表现. 为此, 基于方向 (1.3)和参数 $\beta_k^{\rm EHS}$ , 构造如下两个新的搜索方向
(1.5) $d_k= \begin{cases}-g_k, & k \in M_1=\{k \mid k=1\}, \\ -g_k+\beta_k^{\mathrm{EHS} 1} d_{k-1}, & k \in M_2=\left\{k \mid k \geq 2, g_k^{\top} y_{k-1} \geq 0\right\}, \\ -g_k+\xi_1 \frac{g_k^{\top} g_{k-1}}{\left\|g_{k-1}\right\|^2} g_{k-1}, & k \in M_3=\left\{k \mid k \geq 2, g_k^{\top} y_{k-1}<0\right\},\end{cases}$
(1.6) $\beta_k^{\rm EHS1}=\frac{\|g_k\|^2-\mu_1\frac{\|g_k\|}{\|y_{k-1}\|}g_{k}^{\top} y_{k-1}}{d_{k-1}^{\top}y_{k-1}}, \ \mu_{1} \in [01].$
(1.7) $d_k= \begin{cases}-g_k, & k \in N_1=\{k \mid k=1\}, \\ -g_k+\beta_k^{\mathrm{EHS} 2} d_{k-1}, & k \in N_2=\left\{k \mid k \geq 2, g_k^{\top} d_{k-1} \geq 0\right\}, \\ -g_k+\xi_2 \frac{g_k^{\top} d_{k-1}}{\left\|d_{k-1}\right\|^2} d_{k-1}, &k \in N_3=\left\{k \mid k \geq 2, g_k^{\top} d_{k-1}<0\right\},\end{cases}$
(1.8) $\beta_k^{\rm EHS2}=\frac{\|g_k\|^2-\frac{(g_k^{\top}y_{k-1})^2}{\|y_{k-1}\|^2}}{d_{k-1}^{\top}y_{k-1} +\mu_2g_k^{\top}d_{k-1}}, \ \mu_{2} > 0.$
为简便, 在弱 Wolfe 线搜索 (1.4) 产生步长 $\alpha_k$ 前提下, 由 (1.2), (1.5)和 (1.6) 式建立的共轭梯度法记为 EHS-RD1 方法; 由 (1.2), (1.7)和 (1.8) 式建立的共轭梯度法记为EHS-RD2 方法.
下面给出共轭梯度法收敛性分析中常用假设 (A1)-(A2) 及 Zoutendijk 条件[24 ] .
(A1) $f(x)$ 在水平集 $\Lambda=\{x\in {\mathbb R}^n\ | \ f(x)\leq f(x_1)\}$ 上有下界, 其中 $x_1$ 为计算初始点.
(A2) $f(x)$ 在 $\Lambda$ 的一个邻域 $\Delta$ 内可微, 且其梯度 $g(x)$ 满足 Lipschitz 条件,即对任意 $x,\bar{x}\in \Delta$ , 存在 $L>0$ 使得 $\|g(x)-g(\bar{x})\|\leq L\|x-\bar{x}\|$ .
引理1.1 [24 ] 设假设 (A1)-(A2) 成立, 考虑迭代点 $x_{k+1}=x_{k}+\alpha_{k}d_{k},$ 步长 $\alpha_k$ 由弱 Wolfe 线搜索 (1.4) 式产生. 若搜索方向 $d_k$ 满足下降条件 $g_{k}^{\top} d_{k}<0$ , 则 $\sum\limits_{k=1}^{\infty}\frac{(g_{k}^{\top} d_{k})^2}{\|d_{k}\|^2}< \infty.$
证 根据弱 Wolfe 线搜索 (1.4) 第一个不等式, 搜索方向的下降条件及假设 (A1) 知, 数列 $\{f(x_k)\}$ 单调下降并有下界, 故其收敛.另一方面, 由假设 (A2), 得
$(g_{k+1}-g_{k})^{\top} d_{k}\leq\|g_{k+1}-g_{k}\| \|d_{k}\|\leq L\|x_{k+1}-x_{k}\| \|d_{k}\|=L\alpha_{k} \|d_{k}\|^2,$
$\alpha_{k}\geq\frac{\sigma-1}{L} \frac{g_{k}^{\top} d_{k}}{\|d_{k}\|^2}.$
$f(x_{k})-f(x_{k+1})\geq-\delta \alpha_kg_{k}^{\top} d_{k}\geq\frac{\delta(1- \sigma)}{L} \frac{(g_{k}^{\top} d_{k})^2}{\|d_{k}\|^2} \triangleq \Theta \frac{(g_{k}^{\top} d_{k})^2}{\|d_{k}\|^2},$
其中 $\Theta=\frac{\delta(1- \sigma)}{L} > 0$ . 再考虑到 $\{f(x_k)\}$ 的收敛性, 有
$\lim\limits_{q \rightarrow \infty}\bigg(\sum_{k=1}^{q}\frac{(g_{k}^{\top} d_{k})^2}{\|d_{k}\|^2} \bigg) \leq \lim\limits_{q \rightarrow \infty} \bigg(\sum_{k=1}^{q} \frac{1}{\theta} \big(f(x_{k})-f(x_{k+1})\big)\bigg) = \frac{1}{\theta}\big( f(x_1)- \lim\limits_{q \rightarrow \infty} f(x_{q+1})\big) < \infty, $
该文其余部分组织如下: 第 2 节和第 3 节分别给出 EHS-RD1 方法和 EHS-RD2 方法的下降性及收敛性结果; 第 4 节使用无约束优化问题进行模拟测试, 以验证 EHS-RD1 方法和 EHS-RD2 方法的数值有效性.
2 EHS-RD1 方法
引理2.1 由 EHS-RD1 方法产生的搜索方向有下降性. 并且当 $k\in M_{2}$ , 有
(2.1) $\begin{matrix}0 \leq \beta_k^{\rm EHS1}\leq\frac{g_{k}^{\top}d_{k}}{g_{k-1}^{\top}d_{k-1}}.\end{matrix}$
证 数学归纳法. 当 $k\in M_{1}$ , 有 $g_1^{\top} d_1=-\|g_1\|^2<0.$ 当 $k \geq 2$ 时, 假设 $g_{k-1}^{\top}d_{k-1}<0$ , 下面分两种情形证 $g_{k}^{\top}d_{k}<0$ 成立.
(i) 当 $k\in M_{2}$ , 有 $g_{k}^{\top}y_{k-1} = \|g_{k}\| \cdot \|y_{k-1}\| \cos\theta_{k} \geq0$ ($\theta_{k}$ 为 $g_k$ 与 $y_{k-1}$ 的夹角), 则 $\cos\theta_{k} \in [01]$ . 另一方面, 由 (1.4) 式第二个不等式知 $d_{k-1}^{\top}y_{k-1} \geq(\sigma-1)g_{k-1}^{\top}d_{k-1}>0$ ,从而
(2.2) $\beta_k^{\rm EHS1}=\frac{\|g_k\|^2-\mu_1\frac{\|g_k\|}{\|y_{k-1}\|}g_{k}^{\top} y_{k-1}}{d_{k-1}^{\top}y_{k-1}} =\frac{\|g_k\|^2(1-\mu_1 \cos\theta_{k})}{d_{k-1}^{\top}y_{k-1}} \geq 0.$
$\begin{matrix}g_k^{\top}d_k&=&-\|g_k\|^2+\beta_k^{\rm EHS1}g_k^{\top}d_{k-1}=-\|g_k\|^2+\frac{\|g_k\|^2-\mu_1\frac{\|g_k\|}{\|y_{k-1}\|}g_{k}^{\top}y_{k-1}}{d_{k-1}^{\top}y_{k-1}}g_k^{\top}d_{k-1}\\&=&-\|g_k\|^2+\frac{\|g_k\|^2-\mu_1\frac{\|g_k\|}{\|y_{k-1}\|}g_{k}^{\top}y_{k-1}}{d_{k-1}^{\top}y_{k-1}}d_{k-1}^{\top}y_{k-1}+\frac{\|g_k\|^2-\mu_1\frac{\|g_k\|}{\|y_{k-1}\|}g_{k}^{\top}y_{k-1}}{d_{k-1}^{\top}y_{k-1}}g_{k-1}^{\top}d_{k-1}\\&=&-\mu_1\frac{\|g_k\|}{\|y_{k-1}\|}g_{k}^{\top}y_{k-1}+\beta_k^{\rm EHS1}g_{k-1}^{\top}d_{k-1}.\end{matrix}$
上式联立 $g_k^{\top}y_{k-1}\geq0$ , $g_{k-1}^{\top}d_{k-1}<0$ 和 (2.2)式,有 $g_k^{\top}d_k<0$ 且 $0 \leq \beta_k^{\rm EHS1}\leq\frac{g_{k}^{\top}d_{k}}{g_{k-1}^{\top}d_{k-1}}$ .
(ii) 若 $k\in M_{3}$ , 结合 $\xi_1 \in [0,1)$ , 则
$g_k^{\top}d_k=-\|g_k\|^2+\xi_1\frac{(g_k^{\top}g_{k-1})^2}{\|g_{k-1}\|^2}\leq-(1-\xi_1)\|g_k\|^2<0.$
定理2.1 设假设 (A1)-(A2) 成立, 迭代点 $\{x_{k}\}$ 由 EHS-RD1 方法产生, 则
$\liminf\limits_{k\rightarrow\infty} \|g_k\|=0.$
证 反证法, 设结论不成立, 则存在 $\lambda>0$ , 使得 $\|g_k\|^2\geq\lambda$ .
(i) 若 $k\in M_{1}$ , 有 $d_1=-g_1$ , 从而 $\frac{\|d_1\|^2}{(g_1^{\top}d_1)^2}=\frac{1}{\|g_1\|^2}$ .
(ii) 若 $k\in M_{2}$ , 则 $d_k+ g_k= \beta_k^{\rm EHS1}d_{k-1},$ 两边同时平方并移项, 有
$\|d_k\|^2=(\beta_k^{\rm EHS1})^2\|d_{k-1}\|^2-2g_k^{\top}d_k-\|g_k\|^2.$
两边再同除以 $(g_k^{\top}d_k)^2$ , 结合 (2.1) 式得
$\begin{matrix}\frac{\|d_k\|^2}{(g_k^{\top}d_k)^2}&=&\frac{(\beta_k^{\rm EHS1})^2\|d_{k-1}\|^2}{(g_k^{\top}d_k)^2}-\frac{2}{g_k^{\top}d_k}-\frac{\|g_k\|^2}{(g_k^{\top}d_k)^2}\\&=&\frac{(\beta_k^{\rm EHS1})^2\|d_{k-1}\|^2}{(g_k^{\top}d_k)^2}+\frac{1}{\|g_k\|^2}-(\frac{1}{\|g_k\|}+\frac{\|g_k\|}{g_k^{\top}d_k})^2\\&\leq&\frac{(\beta_k^{{\rm EHS1}})^2\|d_{k-1}\|^2}{(g_k^{\top}d_k)^2}+\frac{1}{\|g_k\|^2}\\&\leq&\frac{\|d_{k-1}\|^2}{(g_{k-1}^{\top}d_{k-1})^2}+\frac{1}{\|g_k\|^2}.\end{matrix}$
(iii) 若 $k\in M_{3}$ , 则 $d_k=-g_k+\xi_1\frac{g_k^{\top}g_{k-1}}{\|g_{k-1}\|^2}g_{k-1}$ , $\xi_1 \in [0,1)$ , 进一步有
(2.3) $\begin{matrix}\|d_k\|^2&=&\|g_k\|^2-2\xi_1\frac{(g_k^{\top}g_{k-1})^2}{\|g_{k-1}\|^2}+\xi_1^2\frac{(g_k^{\top}g_{k-1})^2}{\|g_{k-1}\|^4}\|g_{k-1}\|^2\\&=&\|g_k\|^2-(2\xi_1- \xi_1^2)\frac{(g_k^{\top}g_{k-1})^2}{\|g_{k-1}\|^2}\\&\leq&\|g_k\|^2.\end{matrix}$
又因 $- g_k^{\top}d_k\geq (1-\xi_1)\|g_k\|^2$ , 则$(g_k^{\top}d_k)^2\geq(1-\xi_1)^2\|g_k\|^4$ . 此结合 (2.3) 式有
$\frac{\|d_k\|^2}{(g_k^{\top}d_k)^2}\leq\frac{\|d_k\|^2}{(1-\xi_1)^2\|g_k\|^4}\leq\frac{\|g_k\|^2}{(1-\xi_1)^2\|g_k\|^4}= \frac{1}{(1-\xi_1)^2\|g_k\|^2}.$
$\begin{matrix}\frac{\|d_k\|^2}{(g_k^{\top}d_k)^2}&\leq&\frac{\|d_{k-1}\|^2}{(g_{k-1}^{\top}d_{k-1})^2}+\max \left\{1,\frac{1}{(1-\xi_1)^2}\right\} \frac{1}{\|g_k\|^2}\\&=&\frac{\|d_{k-1}\|^2}{(g_{k-1}^{\top}d_{k-1})^2}+\frac{1}{(1-\xi_1)^2}\frac{1}{\|g_k\|^2}\\&\leq&\frac{1}{(1-\xi_1)^2}\sum\limits_{i=1}^{k} \frac{1}{\|g_i\|^2}\leq\frac{1}{(1-\xi_1)^2} \cdot \frac{k}{\lambda},\end{matrix}$
即 $\frac{(g_k^{\top}d_k)^2}{\|d_k\|^2} \geq \frac{(1-\xi_1)^2 \lambda}{k}$ . 于是$\sum\limits_{k=1}^{\infty} \frac{(g_k^{\top}d_k)^2}{\|d_k\|^2}\geq(1-\xi_1)^2\lambda \sum\limits_{k=1}^{\infty} \frac{1}{k}= \infty$ ,与 Zoutendijk 条件矛盾, 从而结论成立.
3 EHS-RD2 方法
引理3.1 EHS-RD2 搜索方向有充分下降性, 即
$g_k^{\top} d_k\leq-\min \left\{\frac{\mu_2}{1+\mu_2}, 1-\xi_2 \right\}\|g_k\|^2.$
证 数学归纳法. 当 $k\in N_{1}$ , 有
$g_1^{\top} d_1=-\|g_1\|^2 \leq -\min \left\{\frac{\mu_2}{1+\mu_2}, 1-\xi_2 \right\}\|g_k\|^2.$
当 $k \geq 2$ 时, 设 $g_{k-1}^{\top}d_{k-1}<0$ , 下面分两种情形完成证明.
(i) 若 $k\in N_{2}= \{k | k \geq 2, \ g_k^{\top}d_{k-1}\geq0\}$ , 结合 $g_{k-1}^{\top}d_{k-1}<0$ ,有
$\begin{matrix}0 \leq \beta_k^{\rm EHS2}& =&\frac{\|g_k\|^2-\frac{(g_k^{\top}y_{k-1})^2}{\|y_{k-1}\|^2}}{(1+\mu_2)g_k^{\top}d_{k-1}-g_{k-1}^{\top}d_{k-1}}\leq\frac{\|g_k\|^2}{(1+\mu_2)g_k^{\top}d_{k-1}-g_{k-1}^{\top}d_{k-1}}\\& <& \frac{\|g_k\|^2}{(1+\mu_2)g_k^{\top}d_{k-1}}.\end{matrix}$
$\begin{matrix} g_k^{\top}d_k &=&-\|g_k\|^2+\beta_k^{\rm EHS2}g_k^{\top}d_{k-1} < -\|g_k\|^2+\frac{\|g_k\|^2}{(1+\mu_2)g_k^{\top}d_{k-1}}g_k^{\top}d_{k-1}\\&=&-(1-\frac{1}{1+\mu_2})\|g_k\|^2.\end{matrix}$
$g_k^{\top}d_k=-\|g_k\|^2+\xi_2\frac{(g_k^{\top}d_{k-1})^2}{\|d_{k-1}\|^2}\leq-(1-\xi_2)\|g_k\|^2.$
从而, 有 $g_k^{\top} d_k\leq-\min \left\{\frac{\mu_2}{1+\mu_2}, 1-\xi_2\right\}\|g_k\|^2$ . 证毕.
定理3.1 设假设 (A1)-(A2) 成立, 迭代点 $\{x_{k}\}$ 由 EHS-RD2 方法产生,则
$\liminf\limits_{k\rightarrow\infty} \|g_k\|=0. $
证 反证法, 设结论不成立, 则存在 $\gamma>0$ 使 $\|g_k\|^2\geq\gamma$ .
(i) 若 $k\in N_{1}$ , 则 $d_1=-g_1$ , 从而 $\frac{\|d_1\|^2}{(g_1^{\top}d_1)^2}=\frac{1}{\|g_1\|^2}$ .
(ii) 若 $k\in N_{2}= \{k | k \geq 2, \ g_k^{\top}d_{k-1}\geq0\}$ 时, $d_k+ g_k= \beta_k^{\rm EHS2}d_{k-1},$ 两边同时平方并移项, 有
$\|d_k\|^2=(\beta_k^{\rm EHS2})^2\|d_{k-1}\|^2-2g_k^{\top}d_k-\|g_k\|^2.$
两边再同除以 $(g_k^{\top}d_k)^2$ , 得
(3.1) $\begin{matrix}\frac{\|d_k\|^2}{(g_k^{\top}d_k)^2}&=&\frac{(\beta_k^{\rm EHS2})^2\|d_{k-1}\|^2}{(g_k^{\top}d_k)^2}-\frac{2}{g_k^{\top}d_k}-\frac{\|g_k\|^2}{(g_k^{\top}d_k)^2}\\&=&\frac{(\beta_k^{\rm EHS2})^2\|d_{k-1}\|^2}{(g_k^{\top}d_k)^2}+\frac{1}{\|g_k\|^2}-(\frac{1}{\|g_k\|}+\frac{\|g_k\|}{g_k^{\top}d_k})^2\\&\leq&\frac{(\beta_k^{\rm EHS2})^2\|d_{k-1}\|^2}{(g_k^{\top}d_k)^2}+\frac{1}{\|g_k\|^2}.\end{matrix}$
另一方面, 利用 $g_{k-1}^{\top}d_{k-1}<0$ , 由(1.4)式第二个不等式知
$d_{k-1}^{\top}y_{k-1} = d_{k-1}^{\top}(g_k-g_{k-1})\geq(\sigma-1)g_{k-1}^{\top}d_{k-1}>0,$
结合 $g_k^{\top}d_{k-1}\geq0$ , 有
$\beta_k^{\rm EHS2} =\frac{\|g_k\|^2-\frac{(g_k^{\top}y_{k-1})^2}{\|y_{k-1}\|^2}}{d_{k-1}^{\top}y_{k-1} +\mu_2g_k^{\top}d_{k-1}} \geq 0 $
$\begin{matrix}g_k^{\top}d_k&=&-\|g_k\|^2+\beta_k^{\rm EHS2}g_k^{\top}d_{k-1}\\&=&-\|g_k\|^2+\frac{\|g_k\|^2-\frac{(g_k^{\top}y_{k-1})^2}{\|y_{k-1}\|^2}}{d_{k-1}^{\top}y_{k-1} +\mu_2g_k^{\top}d_{k-1}} g_k^{\top}d_{k-1}\\&=&-\|g_k\|^2+\frac{\|g_k\|^2-\frac{(g_k^{\top}y_{k-1})^2}{\|y_{k-1}\|^2}}{d_{k-1}^{\top}y_{k-1} +\mu_2g_k^{\top}d_{k-1}} (d_{k-1}^{\top}y_{k-1}+\mu_2g_k^{\top}d_{k-1})\\& &+\frac{\|g_k\|^2-\frac{(g_k^{\top}y_{k-1})^2}{\|y_{k-1}\|^2}}{d_{k-1}^{\top}y_{k-1} +\mu_2g_k^{\top}d_{k-1}} g_{k-1}^{\top}d_{k-1} - \frac{\|g_k\|^2-\frac{(g_k^{\top}y_{k-1})^2}{\|y_{k-1}\|^2}}{d_{k-1}^{\top}y_{k-1} +\mu_2g_k^{\top}d_{k-1}} \mu_2g_k^{\top}d_{k-1}\\& \leq& \frac{\|g_k\|^2-\frac{(g_k^{\top}y_{k-1})^2}{\|y_{k-1}\|^2}}{d_{k-1}^{\top}y_{k-1} +\mu_2g_k^{\top}d_{k-1}} g_{k-1}^{\top}d_{k-1} \\&=& \beta_k^{\rm EHS2}g_{k-1}^{\top}d_{k-1}\end{matrix}$
$0\leq\beta_k^{\rm EHS2} \leq \frac{g_k^{\top}d_k}{g_{k-1}^{\top}d_{k-1}}.$
$\frac{\|d_k\|^2}{(g_k^{\top}d_k)^2} \leq\frac{(\beta_k^{\rm EHS2})^2\|d_{k-1}\|^2}{(g_k^{\top}d_k)^2}+\frac{1}{\|g_k\|^2} \leq\frac{\|d_{k-1}\|^2}{(g_{k-1}^{\top}d_{k-1})^2}+\frac{1}{\|g_k\|^2}.$
(iii) 若 $k\in N_{3}$ , 则 $d_k=-g_k+\xi_2\frac{g_k^{\top}d_{k-1}}{\|d_{k-1}\|^2}d_{k-1}$ , $\xi_2 \in [0,1)$ ,从而
(3.2) $\begin{matrix}\|d_k\|^2&=&\|g_k\|^2-2\xi_2\frac{(g_k^{\top}d_{k-1})^2}{\|d_{k-1}\|^2}+\xi_2^2\frac{(g_k^{\top}d_{k-1})^2}{\|d_{k-1}\|^4}\|d_{k-1}\|^2\\&=&\|g_k\|^2-(2\xi_2- \xi_2^2)\frac{(g_k^{\top}d_{k-1})^2}{\|d_{k-1}\|^2}\\&\leq&\|g_k\|^2\end{matrix}$
又由于 $- g_k^{\top}d_k\geq (1-\xi_2)\|g_k\|^2$ , 进而 $(g_k^{\top}d_k)^2\geq(1-\xi_2)^2\|g_k\|^4$ . 此结合 (3.2) 式有
$\frac{\|d_k\|^2}{(g_k^{\top}d_k)^2}\leq\frac{\|d_k\|^2}{(1-\xi_2)^2\|g_k\|^4}\leq\frac{\|g_k\|^2}{(1-\xi_2)^2\|g_k\|^4}=\frac{1}{(1-\xi_2)^2\|g_k\|^2}.$
$\begin{matrix}\frac{\|d_k\|^2}{(g_k^{\top}d_k)^2}&\leq&\frac{\|d_{k-1}\|^2}{(g_{k-1}^{\top}d_{k-1})^2}+\max \left\{1,\frac{1}{(1-\xi_2)^2}\right\}\frac{1}{\|g_k\|^2}\\&=&\frac{\|d_{k-1}\|^2}{(g_{k-1}^{\top}d_{k-1})^2}+\frac{1}{(1-\xi_2)^2}\frac{1}{\|g_k\|^2}\\&\leq&\frac{1}{(1-\xi_2)^2}\sum\limits_{i=1}^{k}\frac{1}{\|g_i\|^2}\\&\leq&\frac{1}{(1-\xi_2)^2} \cdot \frac{k}{\gamma}\end{matrix}$
于是 $\frac{(g_k^{\top}d_k)^2}{\|d_k\|^2} \geq \frac{(1-\xi_2)^2 \gamma}{k}$ . 从而$\sum\limits_{k=1}^{\infty} \frac{(g_k^{\top}d_k)^2}{\|d_k\|^2}\geq(1-\xi_2)^2 \gamma \sum\limits_{k=1}^{\infty} \frac{1}{k}= \infty$ ,与 Zoutendijk 条件矛盾, 因此结论获证.
4 数值试验
该节进行两组试验分别验证 EHS-RD1 方法和 EHS-RD2 方法的数值性能. 所有测试均在弱 Wolfe 线搜索 (1.4) 下进行, 其参数选取与文献[9 ] 保持一致, 即 $\delta=0.01, \ \sigma=0.1$ . 测试环境为 Matlab R2007b, Windows 11 操作系统, Lenovo 笔记本 (AMD Ryzen 5 5600U, Radeon Graphics 2.30 GHz) 16 GB 内存. 出现下面 (i)-(ii) 任一种情形, 方法运行停止. (i) $\| g_k\|\leq 10^{-6}$ ; (ii) 迭代次数(Itr)$>$ 2000. 当出现 (ii) 时认为该方法对此算例无效, 并记为“F”.
第一组: 将 EHS-RD1 方法与 DDY1 方法[9 ] , IJJSL 方法[10 ] , JHJ 方法[14 ] 比较测试性能. EHS-RD1 方法中取 $\xi_1=0.05$ , $\mu_1=0.04$ , 其余方法参数选取与原文献一样. 从常用无约束问题集中选取 106 个算例, 其中前 57 个 (从 ${\rm bard}$ 到 woods) 来自 CUTEr 问题集[25 ] , 余下来自文献[26 ,27 ]. 算例维数从 2 至 1000000.
第二组: 将 EHS-RD2 方法和 DDY2 方法[9 ] , DHS 方法[12 ] , N 方法[12 ] 进行数值性能比较. EHS-RD2 方法中取 $\xi_2=0.04$ , $\mu_2=10.0$ , 其余方法参数取值与原文献一致. 98 个算例从常用无约束问题集中选取, 其中算例 1-49 (从 bard 到 watson) 来自 CUTEr 问题集[25 ] , 其余来自文献$[26 ,27 ] $ . 算例维数从 2 至 1000000.
数值试验结果对迭代次数 (Itr), 函数计算次数 (NF), 梯度计算次数 (NG), CPU 计算时间 (Tcpu) 及方法停止时梯度值 $\|g_{*}\|$ (精度) 这 5 个指标分别进行报告, 为节省篇幅, 具体数值结果的表1-4 见 https://www.cnblogs.com/888-8/p/16334426.html . 此外, 为更直观比较各方法, 采用 Dolan 和 Moré 性能图[28 ] 刻划测试结果. 图1 -4 分别对应第一组迭代次数 (Itr), 函数计算次数 (NF), 梯度计算次数 (NG) 和 CPU 计算时间 (Tcpu) 的比较结果; 图5 -8 分别对应第二组迭代次数 (Itr), 函数计算次数 (NF), 梯度计算次数 (NG) 和 CPU 计算时间 (Tcpu) 的比较结果. 性能图具体解释见文献[28 ], 总体来说, 曲线 $\rho(\tau)$ 越居上方, 其对应方法的数值性能越好. 从图 1 -8 看出, EHS-RD1 方法和 EHS-RD2 方法对应的曲线都位于性能图最上方, 其数值性能总体上均优于各组其它比较方法. 这说明, 从给定测试问题集来看, 本文构造的两种新共轭参数与其相应重启方向的结合, 是较为有效的.
图1
图2
图3
图4
图5
图6
图7
图8
参考文献
View Option
[1]
Hestenes M R , Stiefel E . Methods of conjugate gradients for solving linear systems
Journal of Research of the National Bureau of Standards , 1952 , 49 (6 ): 409 -436
DOI:10.6028/jres.049.044
URL
[本文引用: 1]
[2]
Fletcher R , Reeves C M . Function minimization by conjugate gradients
Computer Journal , 1964 , 7 (2 ): 149 -154
[本文引用: 1]
[3]
Polak E , Ribière G . Note sur la convergence de méthodes de directions conjuées
Revue Française Informatique Et De Recherche Opérationnelle , 1969 , 3 (16 ): 35 -43
[本文引用: 1]
[4]
Polyak B T . The conjugate gradient method in extremal problems. USSR Computational Mathematics and
Mathematical Physics , 1969 , 9 (4 ): 94 -112
[本文引用: 1]
[5]
Dai Y H , Yuan Y X . A nonlinear conjugate gradient method with a strong global convergence property
SIAM Journal on Optimization , 1999 , 10 (1 ): 177 -182
DOI:10.1137/S1052623497318992
URL
[本文引用: 1]
[6]
Yao S W , Wei Z X , Huang H . A note about WYL's conjugate gradient method and its application
Applied Mathematics and Computation , 2007 , 191 (2 ): 381 -388
DOI:10.1016/j.amc.2007.02.094
URL
[本文引用: 3]
[7]
Zhang L . An improved Wei-Yao-Liu nonlinear conjugate gradient method for optimization computation
Applied Mathematics and Computation , 2009 , 215 (6 ): 2269 -2274
DOI:10.1016/j.amc.2009.08.016
URL
[本文引用: 2]
[8]
江羡珍 , 马国栋 , 简金宝 . Wolfe 线搜索下一个新的全局收敛共轭梯度法
工程数学学报 , 2011 , 28 (6 ): 779 -786
[本文引用: 2]
Jiang X Z , Ma G D , Jian J B . A new globally convergent conjugate gradient method with Wolfe line search
Chinese Journal of Engineering Mathematics , 2011 , 28 (6 ): 779 -786
[本文引用: 2]
[9]
Zhu Z B , Zhang D D , Wang S . Two modified DY conjugate gradient methods for unconstrained optimization problems
Applied Mathematics and Computation , 2020 , 373 ( 15 ): 125004
[本文引用: 5]
[10]
Jiang X Z , Jian J B , Song D , Liu P J . An improved Polak-Ribière-Polyak conjugate gradient method with an efficient restart direction
Computational and Applied Mathematics , 2021 , 40 (174 ): 1 -24
DOI:10.1007/s40314-020-01383-5
[本文引用: 3]
[11]
Kou C X , Dai Y H . A modified self-scaling memoryless Broyden-Fletcher-Goldfarb-Shanno method for unconstrained optimization
Journal of Optimization Theory and Applications , 2015 , 165 : 209 -224
DOI:10.1007/s10957-014-0528-4
URL
[本文引用: 2]
[12]
Jian J B , Han L , Jiang X Z . A hybrid conjugate gradient method with descent property for unconstrained optimization
Applied Mathematical Modelling , 2015 , 39 (3/4 ): 1281 -1290
DOI:10.1016/j.apm.2014.08.008
URL
[本文引用: 3]
[13]
Dai Z F , Wen F H . Another improved Wei-Yao-Liu nonlinear conjugate gradient method with sufficient descent property
Applied Mathematics and Computation , 2012 , 218 (14 ): 7421 -7430
DOI:10.1016/j.amc.2011.12.091
URL
[本文引用: 1]
[14]
江羡珍 , 韩麟 , 简金宝 . Wolfe 线搜索下一个全局收敛的混合共轭梯度法
计算数学 , 2012 , 34 (1 ): 103 -112
DOI:10.12286/jssx.2012.1.103
[本文引用: 2]
对无约束优化问题, 本文给出了一个新的混合共轭梯度法公式. 在标准Wolfe非精确线搜索下,证明了由新公式所产生的算法具有下降性和全局收敛性, 并对算法进行了数值试验, 其结果表明该算法是有效的.
Jiang X Z , Han L , Jian J B . A new globally convergent mixed conjugate gradient method with Wolfe line search
Mathematica Numerica Sinica , 2012 , 34 (1 ): 103 -112
DOI:10.12286/jssx.2012.1.103
[本文引用: 2]
对无约束优化问题, 本文给出了一个新的混合共轭梯度法公式. 在标准Wolfe非精确线搜索下,证明了由新公式所产生的算法具有下降性和全局收敛性, 并对算法进行了数值试验, 其结果表明该算法是有效的.
[15]
简金宝 , 刘鹏杰 , 江羡珍 . 一个充分下降的谱三项共轭梯度法
应用数学学报 , 2020 , 43 (6 ): 1000 -1012
DOI:10.12387/C2020073
[本文引用: 1]
谱三项共轭梯度法作为共轭梯度法的一种重要推广,在求解大规模无约束优化问题方面具有较好的理论特征与数值效果.本文运用强Wolfe非精确线搜索条件设计产生一个新的谱参数,结合修正Polak-Ribiére-Polyak共轭参数计算公式建立了一个Polak-Ribiére-Polyak型谱三项共轭梯度算法.新算法无论采用何种线搜索条件求步长,每步迭代均满足充分下降条件.在常规假设条件下,采用强Wolfe非精确线搜索条件产生步长,证明了算法的强收敛性.最后,对新算法与现有数值效果较好的共轭梯度法进行比对试验,并采用性能图对数值结果进行直观展示,结果表明新算法是有效的.
Jian J B , Liu P J , Jiang X Z . A spectral three-term conjugate gradient method with sufficient descent property
Acta Mathematicae Applicatae Sinica , 2012 , 43 (6 ): 1000 -1012
DOI:10.12387/C2020073
[本文引用: 1]
谱三项共轭梯度法作为共轭梯度法的一种重要推广,在求解大规模无约束优化问题方面具有较好的理论特征与数值效果.本文运用强Wolfe非精确线搜索条件设计产生一个新的谱参数,结合修正Polak-Ribiére-Polyak共轭参数计算公式建立了一个Polak-Ribiére-Polyak型谱三项共轭梯度算法.新算法无论采用何种线搜索条件求步长,每步迭代均满足充分下降条件.在常规假设条件下,采用强Wolfe非精确线搜索条件产生步长,证明了算法的强收敛性.最后,对新算法与现有数值效果较好的共轭梯度法进行比对试验,并采用性能图对数值结果进行直观展示,结果表明新算法是有效的.
[16]
Jiang X Z , Jian J B . Improved Fletcher-Reeves and Dai-Yuan conjugate gradient methods with the strong Wolfe line search
Journal of Computational and Applied Mathematics , 2019 , 348 : 525 -534
DOI:10.1016/j.cam.2018.09.012
URL
[本文引用: 1]
[17]
Liu Y F , Zhu Z B , Zhang B X . Two sufficient descent three-term conjugate gradient methods for unconstrained optimization problems with applications in compressive sensing
Journal of Applied Mathematics and Computing , 2022 , 68 : 1787 -1816
DOI:10.1007/s12190-021-01589-8
[本文引用: 1]
[18]
Jiang X Z , Liao W , Yin J H , Jian J B . A new family of hybrid three-term conjugate gradient methods with applications in image restoration
Numerical Algorithms , 2022 , 91 : 161 -191
DOI:10.1007/s11075-022-01258-2
[本文引用: 1]
[19]
朱志斌 , 耿远航 . 一个改进的 WYL 型三项共轭梯度法
数学物理学报 , 2021 , 41A (6 ): 1871 -1879
[本文引用: 1]
Zhu Z B , Geng Y H . An modified three-term WYL conjugate gradient method
Acta Mathematica Scientia , 2021 , 41A (6 ): 1871 -1879
[本文引用: 1]
[20]
马国栋 . 强 Wolfe 线搜索下的修正 PRP 和 HS 共轭梯度法
数学物理学报 , 2021 , 41A (3 ): 837 -847
[本文引用: 1]
Ma G D . Improved PRP and HS conjugate gradient methods with strong Wolfe line search
Acta Mathematica Scientia , 2021 , 41A (3 ): 837 -847
[本文引用: 1]
[21]
江羡珍 , 廖伟 , 简金宝 , 毋晓迪 . 一个带重启步的改进 PRP 型谱共轭梯度法
数学物理学报 , 2022 , 42A (1 ): 216 -227
[本文引用: 1]
Jiang X Z , Liao W , Jian J B , Wu X D . An improved PRP type spectral conjugate gradient method with restart steps
Acta Mathematica Scientia , 2022 , 42A (1 ): 216 -227
[本文引用: 1]
[22]
袁功林 , 吴宇伦 , Pham H . 基于非单调线搜索的 HS-DY 形共轭梯度方法及在图像恢复中的应用
数学物理学报 , 2022 , 42A (2 ): 605 -620
[本文引用: 1]
Yuan G L , Wu Y L , Pham H . A modified HS-DY-type method with nonmonotone line search for image restoration and unconstrained optimization problems
Acta Mathematica Scientia , 2022 , 42A (2 ): 605 -620
[本文引用: 1]
[23]
Yuan G L , Zhou Y J , Zhang M X . A hybrid conjugate gradient algorithm for nonconvex functions and its applications in image restoration problems
Journal of the Operations Research Society of China , 2022 , https://doi.org/10.1007/s40305-022-00424-6
URL
[本文引用: 1]
[24]
Zoutendijk G . Nonlinear programming computational methods//Abadie J . ed Integer and Nonlinear Programming . Amsterdam: North-Holland , 1970 : 37 -86
[本文引用: 2]
[25]
Gould N I M , Orban D , Toint P L . CUTEr and SifDec: A constrained and unconstrained testing environment, revisited
ACM Transactions on Mathematical Software , 2003 , 29 (4 ): 373 -394
DOI:10.1145/962437.962439
URL
[本文引用: 2]
The initial release of CUTE, a widely used testing environment for optimization software, was described by Bongartz, et al. [1995]. A new version, now known as CUTEr, is presented. Features include reorganisation of the environment to allow simultaneous multi-platform installation, new tools for, and interfaces to, optimization packages, and a considerably simplified and entirely automated installation procedure for unix systems. The environment is fully backward compatible with its predecessor, and offers support for Fortran 90/95 and a general C/C++ Application Programming Interface. The SIF decoder, formerly a part of CUTE, has become a separate tool, easily callable by various packages. It features simple extensions to the SIF test problem format and the generation of files suited to automatic differentiation packages.
[26]
Moré J J , Garbow B S , Hillstrome K E . Testing unconstrained optimization software
ACM Transactions on Mathematical Software , 1981 , 7 : 17 -41
DOI:10.1145/355934.355936
URL
[本文引用: 2]
[27]
Andrei N . An unconstrained optimization test functions collection
Advanced Modeling and Optimization , 2008 , 10 (1 ): 147 -161
[本文引用: 2]
[28]
Dolan E D , Moré J J . Benchmarking optimization software with performance profiles
Mathematical Programming , 2002 , 91 (2 ): 201 -213
DOI:10.1007/s101070100263
URL
[本文引用: 2]
Methods of conjugate gradients for solving linear systems
1
1952
... 其中 $\alpha_k$ 为某一线搜索产生的步长, 不同搜索方向 $d_k$ 由共轭参数 $\beta_k$ 决定. 经典共轭参数包括[1 ⇓ ⇓ ⇓ -5 ] ...
Function minimization by conjugate gradients
1
1964
... 其中 $\alpha_k$ 为某一线搜索产生的步长, 不同搜索方向 $d_k$ 由共轭参数 $\beta_k$ 决定. 经典共轭参数包括[1 ⇓ ⇓ ⇓ -5 ] ...
Note sur la convergence de méthodes de directions conjuées
1
1969
... 其中 $\alpha_k$ 为某一线搜索产生的步长, 不同搜索方向 $d_k$ 由共轭参数 $\beta_k$ 决定. 经典共轭参数包括[1 ⇓ ⇓ ⇓ -5 ] ...
The conjugate gradient method in extremal problems. USSR Computational Mathematics and
1
1969
... 其中 $\alpha_k$ 为某一线搜索产生的步长, 不同搜索方向 $d_k$ 由共轭参数 $\beta_k$ 决定. 经典共轭参数包括[1 ⇓ ⇓ ⇓ -5 ] ...
A nonlinear conjugate gradient method with a strong global convergence property
1
1999
... 其中 $\alpha_k$ 为某一线搜索产生的步长, 不同搜索方向 $d_k$ 由共轭参数 $\beta_k$ 决定. 经典共轭参数包括[1 ⇓ ⇓ ⇓ -5 ] ...
A note about WYL's conjugate gradient method and its application
3
2007
... 近些年, 为寻求数值效果好且有收敛性的共轭梯度法, 许多学者对上述四种著名方法进行改进. 例如, 为取得 HS 方法理论上的相关性质, Yao 等[6 ] 给出一个改进 $\beta_k^{\rm HS}$ 的共轭参数 ...
... 上述 NHS 方法不仅像 HS 方法具有良好计算效果, 且和 DY 方法一样使用弱 Wolfe 线搜索有其下降性与收敛性. 基于文献[6 ,7 ], 江等[8 ] 给出另一种改进 $\beta_k^{ HS}$ 的版本, 即 ...
... 启发于文献[6 ,8 ], 本文首先给出一个改进 $\beta_k^{HS}$ 的新共轭参数 ...
An improved Wei-Yao-Liu nonlinear conjugate gradient method for optimization computation
2
2009
... 结果表明, 强 Wolfe 线搜索下对应的 YWH 方法能产生下降方向并具有全局收敛性. Zhang[7 ] 对 YWH 方法稍作调整, 有 ...
... 上述 NHS 方法不仅像 HS 方法具有良好计算效果, 且和 DY 方法一样使用弱 Wolfe 线搜索有其下降性与收敛性. 基于文献[6 ,7 ], 江等[8 ] 给出另一种改进 $\beta_k^{ HS}$ 的版本, 即 ...
Wolfe 线搜索下一个新的全局收敛共轭梯度法
2
2011
... 上述 NHS 方法不仅像 HS 方法具有良好计算效果, 且和 DY 方法一样使用弱 Wolfe 线搜索有其下降性与收敛性. 基于文献[6 ,7 ], 江等[8 ] 给出另一种改进 $\beta_k^{ HS}$ 的版本, 即 ...
... 启发于文献[6 ,8 ], 本文首先给出一个改进 $\beta_k^{HS}$ 的新共轭参数 ...
Wolfe 线搜索下一个新的全局收敛共轭梯度法
2
2011
... 上述 NHS 方法不仅像 HS 方法具有良好计算效果, 且和 DY 方法一样使用弱 Wolfe 线搜索有其下降性与收敛性. 基于文献[6 ,7 ], 江等[8 ] 给出另一种改进 $\beta_k^{ HS}$ 的版本, 即 ...
... 启发于文献[6 ,8 ], 本文首先给出一个改进 $\beta_k^{HS}$ 的新共轭参数 ...
Two modified DY conjugate gradient methods for unconstrained optimization problems
5
2020
... 最近, Zhu 等[9 ] 借助重启条件, 引入如下两个共轭参数 ...
... 其中 $0<\delta < \sigma<1$ , DY 方法具有下降性和全局收敛性, 而 YWH 方法和 EHS 方法不一定有. 基于上述分析, 该文拟借鉴文献[9 ] 的重启条件及文献[10 ,11 ]的重启方向, 对上述 EHS 方法改进, 使其有与 DY 方法类似的良好理论性质, 同时亦继承 HS 方法较好的数值计算表现. 为此, 基于方向 (1.3)和参数 $\beta_k^{\rm EHS}$ , 构造如下两个新的搜索方向 ...
... 该节进行两组试验分别验证 EHS-RD1 方法和 EHS-RD2 方法的数值性能. 所有测试均在弱 Wolfe 线搜索 (1.4) 下进行, 其参数选取与文献[9 ] 保持一致, 即 $\delta=0.01, \ \sigma=0.1$ . 测试环境为 Matlab R2007b, Windows 11 操作系统, Lenovo 笔记本 (AMD Ryzen 5 5600U, Radeon Graphics 2.30 GHz) 16 GB 内存. 出现下面 (i)-(ii) 任一种情形, 方法运行停止. (i) $\| g_k\|\leq 10^{-6}$ ; (ii) 迭代次数(Itr)$>$ 2000. 当出现 (ii) 时认为该方法对此算例无效, 并记为“F”. ...
... 第一组: 将 EHS-RD1 方法与 DDY1 方法[9 ] , IJJSL 方法[10 ] , JHJ 方法[14 ] 比较测试性能. EHS-RD1 方法中取 $\xi_1=0.05$ , $\mu_1=0.04$ , 其余方法参数选取与原文献一样. 从常用无约束问题集中选取 106 个算例, 其中前 57 个 (从 ${\rm bard}$ 到 woods) 来自 CUTEr 问题集[25 ] , 余下来自文献[26 ,27 ]. 算例维数从 2 至 1000000. ...
... 第二组: 将 EHS-RD2 方法和 DDY2 方法[9 ] , DHS 方法[12 ] , N 方法[12 ] 进行数值性能比较. EHS-RD2 方法中取 $\xi_2=0.04$ , $\mu_2=10.0$ , 其余方法参数取值与原文献一致. 98 个算例从常用无约束问题集中选取, 其中算例 1-49 (从 bard 到 watson) 来自 CUTEr 问题集[25 ] , 其余来自文献$[26 ,27 ] $ . 算例维数从 2 至 1000000. ...
An improved Polak-Ribière-Polyak conjugate gradient method with an efficient restart direction
3
2021
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
... 其中 $0<\delta < \sigma<1$ , DY 方法具有下降性和全局收敛性, 而 YWH 方法和 EHS 方法不一定有. 基于上述分析, 该文拟借鉴文献[9 ] 的重启条件及文献[10 ,11 ]的重启方向, 对上述 EHS 方法改进, 使其有与 DY 方法类似的良好理论性质, 同时亦继承 HS 方法较好的数值计算表现. 为此, 基于方向 (1.3)和参数 $\beta_k^{\rm EHS}$ , 构造如下两个新的搜索方向 ...
... 第一组: 将 EHS-RD1 方法与 DDY1 方法[9 ] , IJJSL 方法[10 ] , JHJ 方法[14 ] 比较测试性能. EHS-RD1 方法中取 $\xi_1=0.05$ , $\mu_1=0.04$ , 其余方法参数选取与原文献一样. 从常用无约束问题集中选取 106 个算例, 其中前 57 个 (从 ${\rm bard}$ 到 woods) 来自 CUTEr 问题集[25 ] , 余下来自文献[26 ,27 ]. 算例维数从 2 至 1000000. ...
A modified self-scaling memoryless Broyden-Fletcher-Goldfarb-Shanno method for unconstrained optimization
2
2015
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
... 其中 $0<\delta < \sigma<1$ , DY 方法具有下降性和全局收敛性, 而 YWH 方法和 EHS 方法不一定有. 基于上述分析, 该文拟借鉴文献[9 ] 的重启条件及文献[10 ,11 ]的重启方向, 对上述 EHS 方法改进, 使其有与 DY 方法类似的良好理论性质, 同时亦继承 HS 方法较好的数值计算表现. 为此, 基于方向 (1.3)和参数 $\beta_k^{\rm EHS}$ , 构造如下两个新的搜索方向 ...
A hybrid conjugate gradient method with descent property for unconstrained optimization
3
2015
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
... 第二组: 将 EHS-RD2 方法和 DDY2 方法[9 ] , DHS 方法[12 ] , N 方法[12 ] 进行数值性能比较. EHS-RD2 方法中取 $\xi_2=0.04$ , $\mu_2=10.0$ , 其余方法参数取值与原文献一致. 98 个算例从常用无约束问题集中选取, 其中算例 1-49 (从 bard 到 watson) 来自 CUTEr 问题集[25 ] , 其余来自文献$[26 ,27 ] $ . 算例维数从 2 至 1000000. ...
... [12 ] 进行数值性能比较. EHS-RD2 方法中取 $\xi_2=0.04$ , $\mu_2=10.0$ , 其余方法参数取值与原文献一致. 98 个算例从常用无约束问题集中选取, 其中算例 1-49 (从 bard 到 watson) 来自 CUTEr 问题集[25 ] , 其余来自文献$[26 ,27 ] $ . 算例维数从 2 至 1000000. ...
Another improved Wei-Yao-Liu nonlinear conjugate gradient method with sufficient descent property
1
2012
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
Wolfe 线搜索下一个全局收敛的混合共轭梯度法
2
2012
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
... 第一组: 将 EHS-RD1 方法与 DDY1 方法[9 ] , IJJSL 方法[10 ] , JHJ 方法[14 ] 比较测试性能. EHS-RD1 方法中取 $\xi_1=0.05$ , $\mu_1=0.04$ , 其余方法参数选取与原文献一样. 从常用无约束问题集中选取 106 个算例, 其中前 57 个 (从 ${\rm bard}$ 到 woods) 来自 CUTEr 问题集[25 ] , 余下来自文献[26 ,27 ]. 算例维数从 2 至 1000000. ...
Wolfe 线搜索下一个全局收敛的混合共轭梯度法
2
2012
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
... 第一组: 将 EHS-RD1 方法与 DDY1 方法[9 ] , IJJSL 方法[10 ] , JHJ 方法[14 ] 比较测试性能. EHS-RD1 方法中取 $\xi_1=0.05$ , $\mu_1=0.04$ , 其余方法参数选取与原文献一样. 从常用无约束问题集中选取 106 个算例, 其中前 57 个 (从 ${\rm bard}$ 到 woods) 来自 CUTEr 问题集[25 ] , 余下来自文献[26 ,27 ]. 算例维数从 2 至 1000000. ...
一个充分下降的谱三项共轭梯度法
1
2012
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
一个充分下降的谱三项共轭梯度法
1
2012
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
Improved Fletcher-Reeves and Dai-Yuan conjugate gradient methods with the strong Wolfe line search
1
2019
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
Two sufficient descent three-term conjugate gradient methods for unconstrained optimization problems with applications in compressive sensing
1
2022
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
A new family of hybrid three-term conjugate gradient methods with applications in image restoration
1
2022
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
一个改进的 WYL 型三项共轭梯度法
1
2021
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
一个改进的 WYL 型三项共轭梯度法
1
2021
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
强 Wolfe 线搜索下的修正 PRP 和 HS 共轭梯度法
1
2021
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
强 Wolfe 线搜索下的修正 PRP 和 HS 共轭梯度法
1
2021
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
一个带重启步的改进 PRP 型谱共轭梯度法
1
2022
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
一个带重启步的改进 PRP 型谱共轭梯度法
1
2022
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
基于非单调线搜索的 HS-DY 形共轭梯度方法及在图像恢复中的应用
1
2022
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
基于非单调线搜索的 HS-DY 形共轭梯度方法及在图像恢复中的应用
1
2022
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
A hybrid conjugate gradient algorithm for nonconvex functions and its applications in image restoration problems
1
2022
... 其中扰动参数 $\nu_{1} \in [01]$ , $\nu_{2} > 0$ . 弱 Wolfe 线搜索条件下$\!,$ DDY1 方法和 DDY2 方法具有很好的数值性能表现, 且获得全局收敛性. 更多数值高效且收敛的改进共轭梯度法$\!,$ 参见[10 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ -23 ] 及相关参考文献. ...
2
1970
... 下面给出共轭梯度法收敛性分析中常用假设 (A1)-(A2) 及 Zoutendijk 条件[24 ] . ...
... 引理1.1 [24 ] 设假设 (A1)-(A2) 成立, 考虑迭代点 $x_{k+1}=x_{k}+\alpha_{k}d_{k},$ 步长 $\alpha_k$ 由弱 Wolfe 线搜索 (1.4) 式产生. 若搜索方向 $d_k$ 满足下降条件 $g_{k}^{\top} d_{k}<0$ , 则 $\sum\limits_{k=1}^{\infty}\frac{(g_{k}^{\top} d_{k})^2}{\|d_{k}\|^2}< \infty.$ ...
CUTEr and SifDec: A constrained and unconstrained testing environment, revisited
2
2003
... 第一组: 将 EHS-RD1 方法与 DDY1 方法[9 ] , IJJSL 方法[10 ] , JHJ 方法[14 ] 比较测试性能. EHS-RD1 方法中取 $\xi_1=0.05$ , $\mu_1=0.04$ , 其余方法参数选取与原文献一样. 从常用无约束问题集中选取 106 个算例, 其中前 57 个 (从 ${\rm bard}$ 到 woods) 来自 CUTEr 问题集[25 ] , 余下来自文献[26 ,27 ]. 算例维数从 2 至 1000000. ...
... 第二组: 将 EHS-RD2 方法和 DDY2 方法[9 ] , DHS 方法[12 ] , N 方法[12 ] 进行数值性能比较. EHS-RD2 方法中取 $\xi_2=0.04$ , $\mu_2=10.0$ , 其余方法参数取值与原文献一致. 98 个算例从常用无约束问题集中选取, 其中算例 1-49 (从 bard 到 watson) 来自 CUTEr 问题集[25 ] , 其余来自文献$[26 ,27 ] $ . 算例维数从 2 至 1000000. ...
Testing unconstrained optimization software
2
1981
... 第一组: 将 EHS-RD1 方法与 DDY1 方法[9 ] , IJJSL 方法[10 ] , JHJ 方法[14 ] 比较测试性能. EHS-RD1 方法中取 $\xi_1=0.05$ , $\mu_1=0.04$ , 其余方法参数选取与原文献一样. 从常用无约束问题集中选取 106 个算例, 其中前 57 个 (从 ${\rm bard}$ 到 woods) 来自 CUTEr 问题集[25 ] , 余下来自文献[26 ,27 ]. 算例维数从 2 至 1000000. ...
... 第二组: 将 EHS-RD2 方法和 DDY2 方法[9 ] , DHS 方法[12 ] , N 方法[12 ] 进行数值性能比较. EHS-RD2 方法中取 $\xi_2=0.04$ , $\mu_2=10.0$ , 其余方法参数取值与原文献一致. 98 个算例从常用无约束问题集中选取, 其中算例 1-49 (从 bard 到 watson) 来自 CUTEr 问题集[25 ] , 其余来自文献$[26 ,27 ] $ . 算例维数从 2 至 1000000. ...
An unconstrained optimization test functions collection
2
2008
... 第一组: 将 EHS-RD1 方法与 DDY1 方法[9 ] , IJJSL 方法[10 ] , JHJ 方法[14 ] 比较测试性能. EHS-RD1 方法中取 $\xi_1=0.05$ , $\mu_1=0.04$ , 其余方法参数选取与原文献一样. 从常用无约束问题集中选取 106 个算例, 其中前 57 个 (从 ${\rm bard}$ 到 woods) 来自 CUTEr 问题集[25 ] , 余下来自文献[26 ,27 ]. 算例维数从 2 至 1000000. ...
... 第二组: 将 EHS-RD2 方法和 DDY2 方法[9 ] , DHS 方法[12 ] , N 方法[12 ] 进行数值性能比较. EHS-RD2 方法中取 $\xi_2=0.04$ , $\mu_2=10.0$ , 其余方法参数取值与原文献一致. 98 个算例从常用无约束问题集中选取, 其中算例 1-49 (从 bard 到 watson) 来自 CUTEr 问题集[25 ] , 其余来自文献$[26 ,27 ] $ . 算例维数从 2 至 1000000. ...
Benchmarking optimization software with performance profiles
2
2002
... 数值试验结果对迭代次数 (Itr), 函数计算次数 (NF), 梯度计算次数 (NG), CPU 计算时间 (Tcpu) 及方法停止时梯度值 $\|g_{*}\|$ (精度) 这 5 个指标分别进行报告, 为节省篇幅, 具体数值结果的表1-4 见 https://www.cnblogs.com/888-8/p/16334426.html . 此外, 为更直观比较各方法, 采用 Dolan 和 Moré 性能图[28 ] 刻划测试结果. 图1 -4 分别对应第一组迭代次数 (Itr), 函数计算次数 (NF), 梯度计算次数 (NG) 和 CPU 计算时间 (Tcpu) 的比较结果; 图5 -8 分别对应第二组迭代次数 (Itr), 函数计算次数 (NF), 梯度计算次数 (NG) 和 CPU 计算时间 (Tcpu) 的比较结果. 性能图具体解释见文献[28 ], 总体来说, 曲线 $\rho(\tau)$ 越居上方, 其对应方法的数值性能越好. 从图 1 -8 看出, EHS-RD1 方法和 EHS-RD2 方法对应的曲线都位于性能图最上方, 其数值性能总体上均优于各组其它比较方法. 这说明, 从给定测试问题集来看, 本文构造的两种新共轭参数与其相应重启方向的结合, 是较为有效的. ...
... 分别对应第二组迭代次数 (Itr), 函数计算次数 (NF), 梯度计算次数 (NG) 和 CPU 计算时间 (Tcpu) 的比较结果. 性能图具体解释见文献[28 ], 总体来说, 曲线 $\rho(\tau)$ 越居上方, 其对应方法的数值性能越好. 从图 1 -8 看出, EHS-RD1 方法和 EHS-RD2 方法对应的曲线都位于性能图最上方, 其数值性能总体上均优于各组其它比较方法. 这说明, 从给定测试问题集来看, 本文构造的两种新共轭参数与其相应重启方向的结合, 是较为有效的. ...