数学物理学报, 2024, 44(4): 1012-1036

特征提取中一类矩阵迹函数极值问题的黎曼优化算法

李姣芬, 孔鲁源, 宋佳铄, 文娅琼,*

桂林电子科技大学数学与计算科学学院, 广西高校数据分析与计算重点实验室 广西桂林 541004; 广西应用数学中心 (桂林电子科技大学) 广西桂林 541004

A Riemannian Optimization Approach for a Class of Matrix Trace Function Extremum Problem in Feature Extraction

Li Jiaofen, Kong Lvyuan, Song Jiashuo, Wen Yaqiong,*

School of Mathematics and Computational Science, Guangxi Colleges and Universities Key Laboratory of Data Analysis and Computation, Guilin University of Electronic Technology, Guangxi Guilin 541004; Center for Applied Mathematics of Guangxi (GUET), Guangxi Guilin 541004

通讯作者: *文娅琼, E-mail: pmxdgmcdsy@163.com

收稿日期: 2023-10-10   修回日期: 2023-12-22  

基金资助: 国家自然科学基金(12261026)
国家自然科学基金(12361079)
国家自然科学基金(11961012)
国家自然科学基金(12201149)
广西自然科学基金(2023GXNSFAA026067)
桂林电子科技大学研究生教育创新计划项目(2022YXW01)
桂林电子科技大学研究生教育创新计划项目(2022YCXS142)
广西研究生教育创新计划项目(YCSW2023316)
广西自动检测技术与仪器重点实验室基金(YQ23104)
广西自动检测技术与仪器重点实验室基金(YQ24105)

Received: 2023-10-10   Revised: 2023-12-22  

Fund supported: National Natural Science Foundation of China(12261026)
National Natural Science Foundation of China(12361079)
National Natural Science Foundation of China(11961012)
National Natural Science Foundation of China(12201149)
Natural Science Foundation of Guangxi(2023GXNSFAA026067)
Innovation Project of GUET Graduate Education(2022YXW01)
Innovation Project of GUET Graduate Education(2022YCXS142)
Innovation Project of Guangxi Graduate Education(YCSW2023316)
Guangxi Key Laboratory of Automatic Detecting Technology and Instruments(YQ23104)
Guangxi Key Laboratory of Automatic Detecting Technology and Instruments(YQ24105)

摘要

研究来源于特征提取中的一类鲁棒判别回归模型, 该模型问题可以重构为 Stiefel 流形和线性流形组成的乘积流形约束下的一类矩阵迹函数极小化问题. 整合紧流形和线性流形, 结合乘积流形几何性质, 本文设计适用于求解重构问题简化版本的一类基于 Zhang-Hager 技术拓展的乘积流形黎曼非线性共轭梯度法, 并给出算法全局收敛性分析. 数据实验表明所提算法对于问题求解是高效可行的, 且与已有算法、其它黎曼梯度类算法及黎曼优化工具箱中已有的黎曼一阶和二阶算法相比在迭代解精度或迭代效率上有一定优势.

关键词: 特征提取; 矩阵迹函数; 乘积流形; 黎曼共轭梯度法

Abstract

The present study focuses on robust discriminant regression models for feature extraction, which can be rephrased as minimizing matrix trace function subject to product manifold constraints. By building upon the Zhang-Hager technique, the authors develop a Riemannian nonlinear conjugate gradient method for solving a simplified version of the reconstruction problem. The method exploits the geometric properties of the product manifold, and the global convergence analysis of the proposed algorithm is provided. Empirical results demonstrate that the proposed algorithm is effective and feasible for solving the underlying problem. In terms of iteration efficiency, the proposed algorithm outperforms the existing method, other Riemannian gradient-like algorithms and Riemannian first-order and second-order algorithms available in the MATLAB toolbox Manopt.

Keywords: Feature extraction; Matrix trace function; Product manifold; Riemannian conjugate gradient method

PDF (15444KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李姣芬, 孔鲁源, 宋佳铄, 文娅琼. 特征提取中一类矩阵迹函数极值问题的黎曼优化算法[J]. 数学物理学报, 2024, 44(4): 1012-1036

Li Jiaofen, Kong Lvyuan, Song Jiashuo, Wen Yaqiong. A Riemannian Optimization Approach for a Class of Matrix Trace Function Extremum Problem in Feature Extraction[J]. Acta Mathematica Scientia, 2024, 44(4): 1012-1036

1 引言

特征提取一直是图像处理和计算机视觉研究领域中一个值得探讨的问题, 在计算机科学、医疗辅助诊断、军事、工业测量等众多领域应用广泛. 在计算机视觉和模式识别中, 如何准确定位和提取关键特征是其中首先需要解决的问题之一. 最小二乘回归是一种最简单有效的特征提取和数据降维方法. 经典的最小二乘回归方法, 即岭回归 (ridge regression, RR), 可由如下优化问题得到[1,2]

$\begin{equation} \min _f \sum_i \operatorname{loss}\left(f\left(x_i\right), y_i\right)+\psi R(f),\end{equation}$

其中 $ \operatorname{loss}(\cdot) $ 为损失函数, $ {y_i} $ 为样本 $ {x_i} $ 的标签, $ R(f) $$ f $ 上的正则化函数, $ \psi>0 $ 为正则化参数. 然而 RR 方法具有潜在的缺点, 因其使用 $ L_2 $ 范数或 Frobenius 范数作为度量, 对含有异常值的数据较敏感, 同时该方法也只能获得有限数量的投影. 为解决这一问题, 通用处理方法为在回归模型中放弃使用标记指示矩阵, 同时引用数据集函数 $ g\left(x_j\right) $, 得到如下修正的正则化回归模型

$\begin{equation} \min _{f, g} \sum_i \sum_j \operatorname{loss}\left(f\left(g\left(x_j\right)\right), x_i\right)+\psi R(f).\end{equation}$

文献 [1,3,4] 都可以用上述模型进行总结. 文献 [5-8] 指出, 局部几何结构在低维子空间的学习中起着重要的作用, 而几何结构或类特定结构在降维中非常重要, 这些信息可以帮助我们找到有意义的低维表征, 增强表征能力. 其核心思想是先定义一个类内相似图, 然后在低维子空间中保存该图所表征的信息. 遵循这一思路, Lai[9] 提出的 RDR(robust discriminant regression) 模型中引入类内相似图, 将局部几何结构整合进回归模型, 同时使用鲁棒范数作为主要度量, 利用正交约束回归模型得到 RDR 的如下目标函数

$\begin{equation} \min _{f, g} \sum_i \sum_j \operatorname{loss}\left(f\left(g\left(x_j\right)\right), x_i, W_{i j}\right)+\psi R(f),\end{equation}$

其中矩阵 $ W=(W_{ij}) $ 描述了数据集的局部流形结构. 假定函数 $ f $$ g $ 为线性投影算子, 基于 $ L_{2,1} $ 范数定义

$\|A\|_{2,1}=\sum_{i=1}^n \sqrt{\sum_{j=1}^m a_{i j}^2}=\sum_{i=1}^n\left\|a_i\right\|_2, \forall A=[a_1^T, a_2^T,\cdots, a_n^T]^T\in \mathbb{R}^{n\times m},$

文献 [9] 为增强算法鲁棒性, 通过最小化加权 $ L_{2,1} $ 范数损失函数来保持局部几何结构, 同时对正交约束的回归模型 (1.3) 进行广义扩展, 得到 RDR 模型的具体形式如下

$\begin{equation} \begin{aligned}\min_{Q, P} J(Q, P) & =\min _{Q, P} \sum_i \sum_j\left\|x_i-x_j Q P\right\|_2 W_{i j}+\psi\|P\|_F^2 \\& =\min _{Q, P} \sum_i \sum_j\left\|x_i-x_j Q P\right\|_{2,1} W_{i j}+\psi\|P\|_F^2 \\& \text { s. t. }P \in \mathbb{R}^{d \times m}, Q \in \mathbb{R}^{m \times d}, Q^T Q=I_d.\end{aligned}\end{equation}$

其中 $ X=\left[x_1^T, x_2^T, \cdots, x_N^T\right]\in\!\! \mathbb{R}^{\!\!N\times m} $ 为包含所有训练样本 $ \left\{x_i\right\}_{i=1}^N \in \mathbb{R}^m $ 的数据矩阵, $ \|\cdot\|_F $ 为矩阵 Frobnius 范数. 文献 [9] 指出用 $ L_{2,1} $ 范数作为基本度量可以使得离群值的重要性低于 $ \left\|x_i-x_j Q P\right\|_2^2 $. 基于 $ L_{2,1} $ 范数相关性质[10], 模型 (1.4) 的目标函数可转化为

$\begin{equation} \begin{aligned}J(Q, P)= & \sum_i \sum_j\left\|x_i-x_j Q P\right\|_{2,1} W_{i j}+\psi\|P\|_F^2 \\= & \sum_i \sum_j \operatorname{tr}\left[\left(x_i-x_j Q P\right)^T G_{i j} W_{i j}\left(x_i-x_j Q P\right)\right] +\psi\|P\|_F^2 \\= & \sum_i \sum_j \operatorname{tr}\left[x_i^T G_{i j} W_{i j} x_i-2 P^T Q^T x_i^T G_{i j} W_{i j} x_j+P^T Q^T x_j^T G_{i j} W_{i j} x_j Q P\right]+\psi\|P\|_F^2,\end{aligned}\end{equation}$

其中 $ \mathrm{tr}(A) $ 表示方阵 $ A $ 的迹,

$ G_{i j}=\frac{1}{2\left\|x_i-x_j Q P\right\|_2}.$

定义

$ G=(G_{ij})\in\!\! \mathbb{R}^{\!\!N\times N}, F=G \odot W\in\!\! \mathbb{R}^{\!\!N\times N}$

和具有非负对角元的对角矩阵 $ D\in\!\! \mathbb{R}^{\!\!N\times N} $, 其中 $ \odot $ 表示矩阵 Hadamard 积, $ D $ 的对角元素定义为

$D_{i i}=\sum_{j=1}^N F_{i j}.$

模型 (1.4) 可进一步可转化为如下迹函数极小化模型

$\begin{aligned} \min _{Q, P} J(Q, P)= & \min _{Q, P} \sum_{i} \sum_{j}\left\|x_{i}-x_{j} Q P\right\|_{2,1} W_{i j}+\psi\|P\|_{F}^{2} \\ = & \min _{Q, P} \operatorname{tr}\left(X^{T} D X-2 P^{T} Q^{T} X^{T}(G \odot W) X+P^{T} Q^{T} X^{T} D X Q P+\psi P^{T} P\right) \\ = & \min _{Q, P} \operatorname{tr}\left(X^{T} D X-2 P^{T} Q^{T} X^{T} F X+P^{T} Q^{T} X^{T} D X Q P+\psi P^{T} P\right) \\ & \text { s. t. } P \in \mathbb{R}^{d \times m}, Q \in \mathbb{R}^{m \times d}, Q^{T} Q=I_{d}. \end{aligned}$

模型 (1.6) 中, 因为目标函数的复杂性且双未知变量 $ Q,P $ 互相耦合, 同时矩阵 $ F $$ D $ 依赖于变量 $ Q,P $, 故其关于无约束变量 $ P $ 和列正交约束变量 $ Q $ 没有明确的解析表达式. 文献 [9] 设计了基于近似交替最小二乘思想的求解方案: (1) 固定$ (Q,F,D) $, 更新 $ P $; (2) 固定 $ (P,F,D) $, 更新 $ Q $; (3) 更新 $ (F,D) $. 但在每次迭代中, 关于变量 $ P $ 的子问题需要利用到矩阵逆运算得到解析表达式, 增加了算法的数值不稳定性; 关于变量 $ Q $ 的子问题没有精确解析表达式, 文献 [9] 给出近似的解析表达式, 但需要计算矩阵的完整特征值分解, 这导致该算法计算复杂度较高 (具体见 5.1 节). 同时注意到交替最小二乘方法缺乏完整的全局收敛性分析, 其迭代速度和满足迭代终止条件的迭代解精度并不理想. 为更有效地求解模型 (1.6), 本文在 $ (F,D) $ 取为固定值的前提下, 对于变量 $ Q,P $ 的更新, 整合紧流形和线性流形, 从黎曼优化的角度设计基于乘积流形的黎曼一阶优化算法进行求解. 注意到变量 $ Q $ 的可行集 $ \left\{Q \in \mathbb{R}^{m \times d} \mid Q^T Q=I_d\right\} $, 通常被称为 Stiefel 流形并记为 $ \mathrm{St}(m, d) $, 是向量空间 $ \mathbb{R}^{m \times d} $ 中的一个维数为 $ m p-\frac{1}{2} d(d+1) $ 的嵌入子流形, 而向量空间$ \mathcal{P}:=\mathbb{R}^{d \times m} $ 也可视为线性流形. 若记

$f(Q, P)=\operatorname{tr}\left(X^T D X-2 P^T Q^T X^T F X+P^T Q^T X^T D X Q P+\psi P^T P\right),$

假定 $ F, D $ 取为固定矩阵, 模型 (1.6) 可简化为如下乘积流形约束下的矩阵优化问题

$\begin{equation} \begin{array}{c} \min f(Q, P) \text { s. t. }(Q, P) \in \operatorname{St}(m, d) \times \mathcal{P}.\end{array}\end{equation}$

传统上在欧氏空间中处理一些具有约束的问题常使用拉格朗日法或贪婪算法, 而这些方法往往会导致次优解的生成. 为了在数值计算中获得更精确的数值解, 黎曼流形优化开辟了一个新的方向. 采用黎曼流形优化有两个显著的优势: 第一, 对于许多具有黎曼几何结构约束的优化问题, 通过黎曼流形上的优化可以更好地利用约束空间的几何结构, 转化为黎曼流形上的无约束优化问题, 以获得更精确的数值解. 第二, 通过引入适当的度量, 可以将某些欧氏空间中的非凸问题转化为黎曼流形上的凸问题, 进而改善数值计算方法, 获得全局最优解.

黎曼流形优化问题目前已广泛应用于机器学习, 数据挖掘, 计算机视觉, 材料科学等领域. 如果将可行集限制在流形上, 流形优化问题就是一个流形上的无约束优化问题. 因此只要保证迭代点在流形上, 各种无约束优化算法都对应着流形上的优化算法, 如梯度类方法, 共轭梯度法, 信赖域方法, 牛顿法, 拟牛顿法和阻尼牛顿法等. 乘积流形黎曼优化近年来也得到了国内外学者的大量关注, 并应用于实际问题获得了一系列的研究成果. 理论和实践证明, 将具有约束的多变量矩阵优化问题转化为相应乘积流形上的无约束优化问题, 引入黎曼流形优化算法可以获得更有效的数值解. 如 Sato 和 Sato[11]提出了基于乘积流形 $ \textrm{Sym}_{+}(r) \times \mathrm{St}(n, r) \times \mathbb{R}^{m \times r} $ (其中 $ \textrm{Sym}_{+}(r) $ 为对称正定矩阵构成的流形) 上的黎曼信赖域算法研究了保结构 $ H^2 $ 最优模型缩减问题; 同时将对称线性连续时间系统的在线最优辨识问题转化为乘积流形 $ \textrm{Sym}_{+}(r) \times \mathbb{R}^{n \times m} \times \mathbb{R}^{p \times m} $ 上的矩阵优化模型, 并提出了基于乘积流形的黎曼梯度类求解算法[12]. Sato[13,14] 将线性稳定 port Hamiltonian 系统模型缩减问题转化为乘积流形 $ \textrm{Skew}(r) \times \textrm{Sym}_{+}(r) \times \mathbb{R}^{r \times m} $ (其中 $ \textrm{Skew}(r) $ 表示 $ {r} $ 阶反对称矩阵构成的线性流形)上的矩阵优化模型, 并分别提出了基于乘积流形的黎曼最速下降法和黎曼信赖域求解算法. Sato, Sato 和 Damm[15]将源于电气网络系统, 多代理网络系统, 建筑物温度动态系统中的三类线性连续时间对称系统辨识问题分别转化为乘积流形 $ \textrm{Sym}_{+}(r) \times \mathbb{R}^{n \times m} \times \mathbb{R}^{p \times m} $、商流形 $ N / O(n) $$ \textrm{Diag}_{+}(n) \times \mathbb{R}^{n \times m} \times \mathbb{R}^{p \times m} $ (其中 $ \textrm{Diag}_{+}(n) $ 为具有正对角元对角阵构成的流形) 上的矩阵优化模型, 并提出了基于相应乘积流形上的黎曼共轭梯度类求解算法. 更多关于乘积流形黎曼优化及其应用的文献见 [16-25].

黎曼共轭梯度法是欧式空间非线性共轭梯度法在流形上的推广, 由于其良好的收敛特性, 目前已成为黎曼可行一阶优化方法中较常用的算法, 近年来各类黎曼非线性共轭梯度法得到了国内外学者的持续关注, 并应用于具体问题获得了相当丰富的研究成果[26-33]. 本文结合乘积流形 $ \mathrm{St}(m, d) \times \mathcal{P} $ 的几何性质, 基于 Zhang-Hager 技术[34] 拓展, 将黎曼共轭梯度法进一步推广到求解模型 (1.7) 上, 设计一类自适应问题的黎曼非线性共轭梯度法, 并给出算法全局收敛性分析. 数值实验验证所提算法对于求解问题是可行有效的, 与其他黎曼梯度算法及黎曼优化工具箱中已有的黎曼一阶和二阶算法相比在迭代效率上有一定优势.

本文余下内容组织如下: 第 2 节讨论乘积流形 $ \mathrm{St}(m, d) \times \mathcal{P} $ 的几何性质, 给出 (1.7) 中目标函数黎曼梯度和黎曼海塞的具体计算公式; 第 3 节给出求解问题 (1.7) 的黎曼非线性共轭梯度法的算法框架; 第 4 节进而给出算法全局收敛性分析; 第 5 节给出了数值实验和数值比较验证所提出的算法对于问题 (1.7) 的有效性; 最后第 6 节进行总结.

2 乘积流形 $ \mathrm{St}(m, d) \times \mathcal{P} $ 几何性质以及目标函数的黎曼梯度、黎曼海塞

首先给出乘积流形 $ \mathrm{St}(m, d) \times \mathcal{P} $ 若干几何性质, 关于 Stiefel 流形 $ \mathrm{St}(m, d) $ 的更多性质读者可参考文献 [35]. 因为 $ \mathrm{St}(m, d) $ 的维数 $ \operatorname{dim}(\mathrm{St}(m, d))=m p-\frac{1}{2} d(d+1) $, 故有

$\operatorname{dim}(\mathrm{St}(m, d) \times \mathcal{P}):=\operatorname{dim}(\mathrm{St}(m, d))+\operatorname{dim}(\mathcal{P})=2 m p-\frac{1}{2} d(d+1).$

由于 Stiefel 流形 $ \mathrm{St}(m, d) $ 在点 $ Q \in \mathrm{St}(m, d) $ 的切空间 $ \mathcal{T}_{Q} \mathrm{St}(m, d) $ 可表示为

$\mathcal{T}_Q \mathrm{St}(m, d)=\left\{\eta \in \mathbb{R}^{n \times d} \mid \eta^T Q+Q^T \eta=0\right\},$

同时线性流形 $ \mathcal{P} $ 在点 $ P \in \mathcal{P} $ 处的切空间

$\mathcal{T}_P \mathcal{P}=\mathcal{P},$

故乘积流形 $ \mathrm{St}(m, d) \times \mathcal{P} $$ (Q, P) \in \mathrm{St}(m, d) \times \mathcal{P} $ 处的切空间可表示为

$\mathcal{T}_{(Q, P)} \mathrm{St}(m, d) \times \mathcal{P}=\left(\mathcal{T}_Q \mathrm{St}(m, d), \mathcal{T}_P \mathcal{P}\right).$

令在欧式空间 $ \mathbb{R}^{n \times d} \times \mathbb{R}^{d \times m} $ 上有如下标准内积

$\left\langle\left(X_1, Y_1\right),\left(X_2, Y_2\right)\right\rangle=\operatorname{tr}\left(X_1^T X_2\right)+\operatorname{tr}\left(Y_1^T Y_2\right),\ \ \forall\left(X_1, Y_1\right),\left(X_2, Y_2\right) \in \mathbb{R}^{m \times d} \times \mathbb{R}^{d \times m}.$

由于乘积流形 $ \mathrm{St}(m, d) \times \mathcal{P} $$ \mathbb{R}^{m \times d} \times \mathbb{R}^{d \times m} $ 的嵌入子流形, 故对于 $ \forall(Q, P) \in \mathrm{St}(m, d) \times \mathcal{P} $$ \left(\eta_1, \xi_1\right) $, $ \left(\eta_2, \xi_2\right) \in \mathcal{T}_{(Q, P)} \mathrm{St}(m, d) \times \mathcal{P} $, 乘积流形上的黎曼度量可定义为

$\begin{equation} \left\langle\left(\eta_1, \xi_1\right),\left(\eta_2, \xi_2\right)\right\rangle_{(Q, P)}=\operatorname{tr}\left(\eta_1^T \eta_2\right)+\operatorname{tr}\left(\xi_1^T \xi_2\right),\end{equation}$

其诱导范数为 $ \|(\eta_1, \xi_1)\|_{(Q, P)}:=\sqrt{\|\eta_1\|_F^2+\|\xi_1\|_F^2} $. 为讨论方便, 下文分别用 $ \langle\cdot,\cdot\rangle $$ \|\cdot\| $ 表示 $ \mathrm{St}(m, d) \times \mathcal{P} $ 上的黎曼度量及其诱导范数. 在黎曼度量 (2.1) 式下, $ \forall(E,F)\in \mathbb{R}^{m \times d}\times \mathbb{R}^{d \times m} $, 其在切空间 $ \mathcal{T}_{(Q, P)} \mathrm{St}(m, d) \times \mathcal{P} $ 的正交投影为

$\begin{equation} \mathbf{P}_{(Q, P)}(E, F)=\left(\mathbf{P}_Q E,\ \mathbf{P}_P F\right),\end{equation}$

其中

$\begin{equation} \begin{aligned}\mathbf{P}_Q E=E-Q \operatorname{sym}\left(Q^T E\right),\ \ \ \mathbf{P}_P F=F,\end{aligned}\end{equation}$

分别表示 $ E $$ F $ 在切空间 $ \mathcal{T}_{(Q, P)} \mathrm{St}(m, d) $$ \mathcal{P} $ 上的正交投影, 其中 $ \mathrm{sym}(M)=\frac{1}{2}(M+M^T) $, $ \forall M\in\!\! \mathbb{R}^{\!\!d\times d} $.

对于乘积流形 $ \mathrm{St}(m, d) \times \mathcal{P} $ 上的黎曼优化方法, 其一般迭代框架为

$\begin{equation} \left(Q^{(k+1)}, P^{(k+1)}\right)=\mathcal{R}_{\left(Q^{(k)}, P^{(k)}\right)}\left(\alpha_k\left(\eta^{(k)}, \xi^{(k)}\right)\right),\end{equation}$

其中 $ \left(Q^{(k)}, P^{(k)}\right) $ 为当前迭代步, $ \alpha_k $ 为迭代步长, $ \left(\eta^{(k)}, \xi^{(k)}\right) $ 为切空间 $ \mathcal{T}_{\left(Q^{(k)}, P^{(k)}\right)} \mathrm{St}(m, d) \times \mathcal{P} $ 内的搜索方向,

$ \mathcal{R}_{\left(Q^{(k)}, P^{(k)}\right)}: \mathcal{T}_{\left(Q^{(k)}, P^{(k)}\right)} \mathrm{St}(m, d) \times \mathcal{P} \rightarrow \mathrm{St}(m, d) \times \mathcal{P}$

表示限制在乘积流形上点 $ \left(Q^{(k)}, P^{(k)}\right) $ 对应切空间即$ \mathcal{T}_{\left(Q^{(k)}, P^{(k)}\right)} \mathrm{St}(m, d) \times \mathcal{P} $ 上的收缩算子. $ \forall \alpha \in \mathbb{R}, (Q, P) \in \mathrm{St}(m, d) \times \mathcal{P}, (\eta, \xi) \in \mathcal{T}_{(Q, P)} \mathrm{St}(m, d) \times \mathcal{P} $, 乘积流形 $ \mathrm{St}(m, d) \times \mathcal{P} $ 上的收缩算子定义为

$\begin{equation} \mathcal{R}_{(Q, P)}(\alpha(\eta, \xi)):=\left(\mathcal{R}_Q(\alpha \eta), \mathcal{R}_p(\alpha \xi)\right),\end{equation}$

其中, $ \mathcal{R}_P(\alpha \xi)=P+\alpha \xi$ 为定义在线性流形 $ \mathcal{P} $ 上的收缩算子, $ \mathcal{R}_Q(\alpha \eta) $ 为 Stiefel 流形 $ \mathrm{St}(m, d) $ 上的收缩算子. 对于 Stiefel 流形 $ \mathrm{St}(m, d) $, 目前常用的收缩算子有基于指数映射, $ QR $ 分解, 极分解, 流形投影, Cayley 变换等. 本文采用基于 $ QR $ 分解的收缩算子, 其具体计算公式为

$\begin{equation} \mathcal{R}_Q(\alpha \eta):=\mathrm{qf}\left(Q+\alpha \eta\right),\end{equation}$

其中对于给定的列满秩矩阵 $ A \in \mathbb{R}^{m \times d} $, $ \mathrm{qf}(A)\in\!\! \mathbb{R}^{\!\!m \times d} $ 表示 $ A $ 的简洁版 $ QR $ 分解中的 $ Q $ 因子, 其形式为 $ A=\widetilde{Q} \widetilde{R} $, 其中 $ \widetilde{Q} \in \mathrm{St}(m, d) $, $ \widetilde{R}\in \!\!\mathbb{R}^{\!\!d \times d} $ 为具有严格正对角元素的上三角矩阵.

$ \forall\left(\eta_1,\xi_1 \right),\left(\eta_2,\xi_2 \right) \in \mathcal{T}_{(Q, P)} S t(m, d) \times \mathcal{P} $, 基于切空间正交投影的向量转移定义为

$\begin{equation} \mathbf{T}_{\left(\eta_1, \xi_1\right)}\left(\eta_2, \xi_2\right):=\left(\mathbf{T}_{\eta_1}\eta_2, \ \mathbf{T}_{\xi_1}\xi_2\right)\end{equation}$

其中

$\begin{equation} \mathbf{T}_{\eta_1}\eta_2:=\mathbf{P}_{\mathcal{R}_Q\left(\eta_1\right)}\eta_2=\eta_2-\mathcal{R}_Q\left(\eta_1\right)\textrm{sym}\left(\mathcal{R}_Q\left(\eta_1\right)^T\eta_2\right),\end{equation}$
$\begin{equation} \mathbf{T}_{\xi_1}\xi_2:=\mathbf{P}_{\mathcal{R}_P\left(\xi_1\right)}\xi_2=\xi_2 \end{equation}$

分别为 $ \eta_2 $ 在点 $ \mathcal{R}_Q\left(\eta_1\right) $ 处切平面 $ \mathcal{T}_{\mathcal{R}_Q\left(\eta_1\right)} $ 上的正交投影和 $ \xi_2 $ 在点 $ \mathcal{R}_P\left(\xi_1\right) $ 处切平面 $ \mathcal{T}_{\mathcal{R}_P\left(\xi_1\right)} $ 上的正交投影. 易知基于切空间正交投影的向量转移算子满足 Ring-Wirth 非扩张条件[36]

$ \|\mathbf{T}_{\left(\eta_1, \xi_1\right)}\left(\eta_2, \xi_2\right)\|\leq \|\left(\eta_2, \xi_2\right)\|.$

接下来推导问题 (1.7) 中目标函数 $ f $ 关于 $ Q, P $ 的黎曼梯度和黎曼海塞具体计算公式. 为此定义映射 $ \bar{f}: \mathbb{R}^{m \times d} \times \mathbb{R}^{d \times m} \rightarrow\!\! \mathbb{R} $

$\begin{equation} \bar{f}(Q, P)=\mathrm{tr} \left(X^T D X-2 P^T Q^T X^T F X+P^T Q^T X^T D X Q P+\psi P^T P\right).\end{equation}$

易知 $ f(Q, P) $$ \bar{f}(Q, P) $ 在乘积流形 $ \mathrm{St}(m, d) \times \mathcal{P} $ 上的限制函数.

引理 2.1 $ f $$ (Q, P) \in \mathrm{St}(m, d) \times \mathcal{P} $ 处的黎曼梯度

$\begin{equation} \operatorname{grad} f(Q, P)=2\Big(\mathbf{P}_Q\left(X^T D X Q P P^T-X^T F X P^T\right),\ \ \psi P+Q^T X^T D X Q P-Q^T X^T F X\Big).\end{equation}$

因为 $ \mathrm{St}(m, d) \times \mathcal{P} $ 是欧式空间 $ \mathbb{R}^{m \times d} \times \mathbb{R}^{d \times m} $ 的嵌入子流形, 目标函数 $ f $ 关于 $ (Q, P) $ 的黎曼梯度等于 $ \bar{f} $ 关于 $ (Q, P) $ 的欧式梯度在切空间 $ \mathcal{T}_{(Q, P)} \mathrm{St}(m, d) \times \mathcal{P} $ 上的正交投影. 基于迹微分并通过简单计算可知 $ \bar{f} $ 关于 $ Q $$ P $ 处的欧式梯度分别为

$\begin{equation} \nabla_Q \bar{f}(Q, P)=\frac{\partial \bar{f}(Q, P)}{\partial Q}=2\left(X^T D X Q P P^T-X^T F X P^T\right),\end{equation}$
$\begin{equation} \nabla_P \bar{f}(Q, P)=\frac{\partial \bar{f}(Q, P)}{\partial P}=2\left(\psi P+Q^T X^T D X Q P-Q^T X^T F X\right).\end{equation}$

$ \bar{f} $$ (Q, P) \in \mathbb{R}^{m \times d} \times \mathbb{R}^{d \times m} $ 的欧式梯度可表示为

$\begin{equation} \nabla \bar{f}(Q, P):=\left(\nabla_Q \bar{f}(Q, P),\ \nabla_P \bar{f}(Q, P)\right).\end{equation}$

利用切空间 $ \mathcal{T}_{(Q, P)} \mathrm{St}(m, d) \times \mathcal{P} $ 上的正交投影表达式 (2.2)-(2.3), 得

$\begin{align*}\operatorname{grad} f(Q, P) & =\mathbf{P}_{(Q, P)}(\nabla \bar{f}(Q, P))=\mathbf{P}_{(Q, P)}\left(\nabla_Q \bar{f}(Q, P),\ \nabla_P \bar{f}(Q, P)\right) \\& =\left(\mathbf{P}_Q\left(\nabla_Q \bar{f}(Q, P)\right),\ \mathbf{P}_P\left(\nabla_P \bar{f}(Q, P)\right)\right) \\& =2\Big(\mathbf{P}_Q\left(X^T D X Q P P^T-X^T F X P^T\right),\ \psi P+Q^T X^T D X Q P-Q^T X^T F X\Big).\end{align*}$

证毕.

引理 2.2 $ \forall(Q, P) \in \mathrm{St}(m, d) \times \mathcal{P} $$ (\eta, \xi) \in \mathcal{T}_{(Q, P)} \mathrm{St}(m, d) \times \mathcal{P} $, $ f $$ (Q, P) $ 的黎曼海塞为切空间 $ \mathcal{T}_{(Q, P)} \mathrm{St}(m, d) \times \mathcal{P} $ 上的线性变换, 且

$\begin{align*} \text { Hess } f(Q, P)[(\eta, \xi)]=\ &2\bigg(\mathbf{P} _ { Q } \Big(X^T D X Q \xi P^T+X^T D X Q P \xi^T-X^T F X \xi^T+X^T D X \eta P P^T \\&-\eta \operatorname{sym}\left(Q^T\left(X^T D X Q P P^T-X^T F X P^T\right)\right)\Big), \psi \xi+Q^T X^T D X Q \xi\\&+Q^T X^T D X \eta P+\eta^T X^T D X Q P-\eta^T X^T F X\bigg).\end{align*}$

$ \forall(\eta, \xi) \in \mathbb{R}^{m \times d} \times \mathbb{R}^{d \times m} $, 经简单计算 $ \bar{f} $ 关于 $ (Q, P) \in \mathbb{R}^{m \times d} \times \mathbb{R}^{d \times m} $ 的欧式海塞

$\begin{align*} &\nabla^2 \bar{f}(Q, P)[(\eta, \xi)]\\=\ & \displaystyle\lim_{t\rightarrow \infty} \dfrac{\nabla \bar{f}(Q+t \eta, P+t \xi)-\nabla \bar{f}(Q, P)}{t} \\ =\ &2\left(X^T D X Q \xi P^T+X^T D X Q P \xi^T-X^T F X \xi^T+X^T D X \eta P P^T,\right. \\& \left.\psi \xi+Q^T X^T D X Q \xi+Q^T X^T D X \eta P+\eta^T X^T D X Q P-\eta^T X^T F X\right).\end{align*}$

结合 $ \nabla^2 \bar{f} $ 和切空间 $ \mathcal{T}_{(Q, P)} \mathrm{St}(m, d) \times \mathcal{P} $上的正交投影公式 (2.2)-(2.3), $ f $ 关于 $ (Q, P) $的黎曼海塞可通过如下方式计算[37]

$\begin{equation} \text { Hess } f(Q, P)[(\eta, \xi)]=\mathbf{P}_{(Q, P)}(\mathcal{D}(\text { grad } f)(Q, P)[(\eta, \xi)]).\end{equation}$

注意到 $ \operatorname{grad} f(Q, P)=\mathbf{P}_{(Q, P)}(\nabla \bar{f}(Q, P)) $, 参考文献 [37], (2.17) 式可进一步表示为

$\begin{align*} \text { Hess }f(Q, P)[(\eta, \xi)] & =\mathbf{P}_{(Q, P)}(\mathcal{D}(\text { grad } f)(Q, P)[(\eta, \xi)]) \\& =\mathbf{P}_{(Q, P)}\left(\mathcal{D}\left(\mathbf{P}_{(Q, P)}(\nabla \bar{f})\right)(Q, P)[(\eta, \xi)]\right) \\& =\mathbf{P}_{(Q, P)}\left(\mathcal{D} \mathbf{P}_{(Q, P)}[(\eta, \xi)](\nabla \bar{f}(Q, P))+\mathbf{P}_{(Q, P)}(\mathcal{D}(\bar{f})(Q, P)[(\eta, \xi)])\right) \\& =\mathbf{P}_{(Q, P)}\left(\mathcal{D} \mathbf{P}_{(Q, P)}[(\eta, \xi)](\nabla \bar{f}(Q, P))+\nabla^2 \bar{f}(Q, P)[(\eta, \xi)]\right),\end{align*}$

(2.18) 式的最后一个等式中用到了 $ \mathbf{P}_{(Q, P)}^2=\mathbf{P}_{(Q, P)} $. 又因为

$\begin{align*} \mathcal{D} \mathbf{P}_{(Q, P)}[(\eta, \xi)](\nabla \bar{f}(Q, P)) & =\mathcal{D} \mathbf{P}_{(Q, P)}[(\eta, \xi)]\left(\nabla_Q \bar{f}(Q, P), \nabla_P \bar{f}(Q, P)\right) \\& =\mathcal{D}\left(\nabla_Q \bar{f}(Q, P)-{Q \operatorname{sym}\left(Q^T \nabla_Q \bar{f}(Q, P)\right)}, \nabla_P \bar{f}(Q, P)\right)[(\eta, \xi)] \\& =\left(-Q \operatorname{sym}\left(\eta^T \nabla_Q \bar{f}(Q, P)\right)-\eta \operatorname{sym}\left(Q^T \nabla_Q \bar{f}(Q, P)\right), 0\right).\end{align*}$

注意到若 $ S $$ p \times p $ 阶对称矩阵, 则有

$\begin{equation*}\mathbf{P}_Q(Q S)=Q S-Q \operatorname{sym}\left(Q^T Q S\right)=Q S-Q S=0.\end{equation*}$

上式可以简化 (2.18) 式中 $ Q $ 因子部分的正交投影计算. 事实上结合上式可得

$\begin{equation} \mathbf{P}_{Q}\left(-Q \operatorname{sym}\left(\eta^T \nabla_Q \bar{f}(Q, P)\right)-\eta \operatorname{sym}\left(Q^T \nabla_Q \bar{f}(Q, P)\right)\right)=-\mathbf{P}_{Q}\left(\eta \operatorname{sym}\left(Q^T \nabla_Q \bar{f}(Q, P)\right)\right).\end{equation}$

将 (2.19) 式代入 (2.18) 式, 并结合 (2.20) 式, 可得 $ \mathrm{Hess} f(Q, P)[(\eta, \xi)] $ 作用于 $ (\eta, \xi) $ 的表达式

$\begin{equation} \text { Hess } f(Q, P)[(\eta, \xi)]=\mathbf{P}_{(Q, P)}\left(\nabla^2 \bar{f}(Q, P)[(\eta, \xi)]-\left(\eta \operatorname{sym}\left(Q^T \nabla \bar{f}(Q, P)\right), 0\right)\right).\end{equation}$

将 (2.16) 和 (2.12) 式代入 (2.21) 式可得 (2.15) 式.

3 黎曼非线性共轭梯度

给定当前迭代点 $ x_k \in \mathcal{M} $, 黎曼优化通常按如下方式计算更新迭代点

$\begin{equation} x_{k+1}=\mathcal{R}_{x_k}\left(\alpha_k \eta_k\right),\end{equation}$

其中 $ \eta_k $$ x_k \in \mathcal{M} $ 所对应切平面 $ \mathcal{T}_{x_k} \mathcal{M} $ 上的搜索方向, $ \mathcal{R} $ 表示 $ \mathcal{T}_{x_k} \mathcal{M} \rightarrow \mathcal{M} $ 的收缩映射. 注意到迭代格式 (3.1) 需要三个要素: 步长 $ \alpha_k>0 $, 搜索方向 $ \eta_k \in \mathcal{T}_{x_k} \mathcal{M} $ 和一个保证下一个迭代点是可行点的收缩映射, 也即 $ x_{k+1} \in \mathcal{M} $. 黎曼线搜索方法通过迭代的形式构造一个可行点序列 $ \left\{x_k\right\} $, 并希望该序列可以收敛到问题的局部极小点或者至少收敛到一个平稳点. 合适步长的选择对线搜索方法的鲁棒性和迭代效率至关重要. 为了保证目标函数值的减小, 关键是选择一个合适的步长, 使其既不能太大也不能太小. 目前常用的步长选取方法包括单调线搜索和非单调线搜索. 常用的单调线性搜索包括 Armijo 方法, 强 (弱) Wolfe 方法和 Goldstein 方法等[38], 而常用的非单调搜索技术包括在文献 [39] 中引入的基于全局化策略的 Max 型非单调线搜索和文献 [34] 引入的 Zhang-Hager 非单调搜索技术.

本文将 Zhang-Hager 技术与文献 [40] 提出的 Armijo 型线搜索相结合, 针对本文具体模型, 按如下方式选取步长: 给定 $ {\rho _1}\in ( {0,1} ) $, $ {\rho _2}>0 $$ \tau \in[0,1) $, 选择步长 $ \alpha_k=\bar{\alpha}_k \rho^{h_k} $, 其中 $ \bar{\alpha}_k $ 为当前迭代步 $ \left(Q_k, P_k\right) $ 对应的试验步长, $ h_k $ 为满足下列不等式的最大整数

$\begin{equation} f\left(\mathcal{R}_{\left(Q_k, P_k\right)}\left(\alpha_k\left(\eta_k, \xi_k\right)\right)\right) \leq C_k+\rho_1 \alpha_k\left\langle\operatorname{grad} f\left(Q_k, P_k\right),\left(\eta_k, \xi_k\right)\right\rangle-\rho_2 \alpha_k^2\left\|\left(\eta_k, \xi_k\right)\right\|^2,\end{equation}$

其中迭代参考值 $ C_k $$ C_{k-1} $$ f\left(Q_k, P_k\right) $ 的凸组合, 即

$C_k=\frac{\tau O_{k-1} C_{k-1}+f\left(Q_k, P_k\right)}{O_k},$

$ O_k=\tau O_{k-1}+1, O_0=1, C_0=f\left(Q_0, P_0\right) $.

对于不等式 (3.2) 中的步长 $ {\alpha _k} $, 首先说明其存在性, 即对 $ \forall {\rho _1}\in ( {0,1} ) $, $ {\rho _2}>0 $$ \forall k \geqslant 1 $, 存在 $ {\alpha}>0 $ 满足不等式

$\begin{equation} f( {{\mathcal{R}_{( {{Q_k},{P_k}} )}}( {{\alpha}( {{\eta _k},{\xi _k}} )} )} )- {C_k} - {\rho _1}{\alpha}\langle {\mathrm{grad}\ f( {{Q_k},{P_k}} ), ({{\eta _k},{\xi _k}} )} \rangle + {\rho _2}\alpha^2{\| {( {{\eta _k},{\xi _k}} )} \|^2}\leq 0. \end{equation}$

事实上, 由 $ {f\big({\mathcal{R}_{(Q_k, P_k)}}({\alpha}(\eta _k, \xi _k))\big)} $ 的一阶泰勒展开式[35]

$ f( {{\mathcal{R}_{( {{Q_k},{P_k}} )}}( {{\alpha}( {{\eta _k},{\xi _k}} )} )} )=f(Q_k, P_k)+\alpha\langle\text{grad}\ f(Q_k, P_k),\ (\eta _k, \xi _k)\rangle+o(\alpha),\ \ \alpha\rightarrow 0,$

结合下文引理 4.3 的结论 $ f(Q_k, P_k)\leq C_k, \forall k\geq 0 $, 有

$\begin{eqnarray*}&&\lim\limits_{\alpha\rightarrow 0^+}\dfrac{ f \big({\mathcal{R}_{(Q_k, P_k)}}({\alpha}(\eta _k, \xi _k )) \big) -C_k-{\rho _1}{\alpha}\left\langle {{\text{grad}}\ f(Q_k, P_k),\ (\eta _k, \xi _k )} \right\rangle+{\rho _2}\alpha^2{\left\| {(\eta _k, \xi _k )} \right\|^2}}{\alpha}\\&\leq&\lim\limits_{\alpha\rightarrow 0^+}\dfrac{ f \big({\mathcal{R}_{(Q_k, P_k)}}({\alpha}(\eta _k, \xi _k )) \big) \!-\! f(Q_k, P_k)\!-\!{\rho _1}{\alpha}\left\langle {{\text{grad}} f(Q_k, P_k), (\eta _k, \xi _k )} \right\rangle\!+\!{\rho_2}\alpha^2{\left\| {(\eta _k, \xi _k )} \right\|^2}}{\alpha}\\&=&\lim\limits_{\alpha\rightarrow 0^+}\dfrac{\alpha\langle\text{grad} f(Q_k, P_k), (\eta _k, \xi _k)\rangle+o(\alpha)\!-\!{\rho _1}{\alpha}\left\langle {{\text{grad}}f(Q_k, P_k), (\xi _k, \eta_k)} \right\rangle\!+\!{\rho _2}\alpha^2{\left\| {(\xi _k, \eta_k)} \right\|^2}}{\alpha}\\&=&\lim\limits_{\alpha\rightarrow 0^+}(1-\rho_1)\langle\text{grad}\ f(Q_k, P_k),\ (\xi _k, \eta_k)\rangle+{\rho_2}\alpha{\left\| {(\xi _k, \eta_k)} \right\|^2}+\dfrac{o(\alpha)}{\alpha}\\&=&(1-\rho_1)\langle\text{grad}\ f(Q_k, P_k),\ (\xi _k, \eta_k)\rangle<0.\end{eqnarray*}$

由极限保号性, 存在 $ \breve{\alpha}>0 $, 当 $ \alpha\in (0, \breve{\alpha}) $ 时, (3.3) 式成立.

3.1 求解问题 (1.7) 的黎曼非线性共轭梯度法及全局收敛性

结合上文中给出的乘积流形收缩映射、向量转移具体计算公式, 目标函数黎曼梯度及非单调线搜索公式, 下面给出求解问题 (1.7) 的一类非单调黎曼非线性共轭梯度法的具体迭代格式.

算法 1 求解问题 (1.7) 的黎曼非线性共轭梯度法

给定初始点 $ \left(Q_0, P_0\right) \in \mathrm{St}(m, d) \times \mathcal{P} $, 参数 $ 0<\mu_k<\mu_{\max }, 0<\alpha_m<\alpha_M<\infty $, $ \rho_1, \varepsilon, \rho\in (0,1), \rho_2>0, \tau \in [0,1), O_0=1, C_0=f\left(Q_0, P_0\right),\left(\eta_0, \xi_0\right)=-\operatorname{grad} f\left(Q_0, P_0\right), k:=0 $.

1. 当 $ \left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|>\varepsilon $ 时, 执行下面的步骤.

2. 选择 $ \bar{\alpha}_k \in\left[\alpha_m, \alpha_M\right] $, 计算最小正整数 $ h_k $ 使得步长 $ \alpha_k=\bar{\alpha}_k \rho^{h_k} $ 满足

$\begin{equation} f\left(\mathcal{R}_{\left(Q_k, P_k\right)}\left(\alpha_k\left(\eta_k, \xi_k\right)\right)\right) \leq C_k+\rho_1 \alpha_k\left\langle\operatorname{grad} f\left(Q_k, P_k\right),\left(\eta_k, \xi_k\right)\right\rangle-\rho_2 \alpha_k^2\left\|\left(\eta_k, \xi_k\right)\right\|^2.\end{equation}$

3. 更新

$\begin{equation} \left(Q_{k+1}, P_{k+1}\right)=\mathcal{R}_{\left(Q_k, P_k\right)}\left(\alpha_k\left(\eta_k, \xi_k\right)\right).\end{equation}$

4. 令

$\begin{equation} \left(\eta_{k+1}, \xi_{k+1}\right)=-\operatorname{grad} f\left(Q_{k+1}, P_{k+1}\right)+\beta_k \mathbf{T}_{\alpha_{k}\left(\eta_{k}, \xi_{k}\right)}\left(\eta_{k}, \xi_{k}\right).\end{equation}$

其中

$\begin{equation} \beta_k=\frac{\mu_k\left\langle\operatorname{grad} f\left(Q_{k+1}, P_{k+1}\right), \mathbf{T}_{\alpha_k\left(\eta_k, \xi_k\right)}\left(\eta_k, \xi_k\right)\right\rangle}{-\left\|\left(\eta_k, \xi_k\right)\right\|^2}.\end{equation}$

5. 更新 $ O_{k+1}=\tau O_k+1 $

$C_k=\frac{\tau O_k C_k+f\left(\mathcal{R}_{\left(Q_k, P_k\right)}\left(\alpha_k\left(\eta_k, \xi_k\right)\right)\right)}{O_{k+1}}.$

6. 令 $ k\leftarrow k+1 $.

注 3.1 由 (3.7) 式中参数 $ {\mu _k} $ 构成的序列 $ \{\mu_k\} $ 是一个正实数有界序列, 即对 $ \forall k $, 都有 $ 0 < {\mu _k} \le {\mu _{\max }} $, 其中 $ {\mu _{\max }} \in \mathbb{R} $. 在本文具体计算中, 序列 $ \{\mu_k\} $ 取为每次迭代的当前步长 $ \alpha_{k} $ 组成的序列 $ \{\alpha_k\} $, $ {\mu _{\max }} = \alpha_{0} $.

4 收敛性分析

本节给出算法 1 的全局收敛性分析. 记 $ \mathcal{T} \mathrm{St}(m, d) \times \mathcal{P} $ 为乘积流形 $ \mathrm{St}(m, d) \times \mathcal{P} $ 上的切向量从. 对 $ \forall(\eta, \xi) \in \mathcal{T} \mathrm{St}(m, d) \times \mathcal{P} $, 定义回调映射

$\begin{equation} \widehat{f}: \mathcal{T} \mathrm{St}(m, d) \times \mathcal{P}\rightarrow\!\! \mathbb{R}, \ \ \ \ \widehat{f}(\eta, \xi)=f(\mathcal{R}(\eta, \xi)).\end{equation}$

$ \widehat{f}_{(Q, P)} $$ \widehat{f} $$ {(Q, P)} $ 处切空间 $ \mathcal{T}_{(Q, P)} \mathrm{St}(m, d) \times \mathcal{P} $ 上的限制, 即

$\begin{equation} \widehat{f}_{(Q, P)}\left(\eta, \xi\right)=f\left(\mathcal{R}_{(Q, P)}\left(\eta, \xi\right)\right), \quad \forall (\eta, \xi) \in \mathcal{T}_{(Q, P)} \mathrm{St}(m, d) \times \mathcal{P}.\end{equation}$

由文献 [35, p56] 可知, $ f $ 的黎曼梯度与其回调函数 $ \widehat{f} $ 的欧式梯度有如下关系

$\begin{equation} \operatorname{grad} f(Q, P)=\nabla \widehat{f}_{(Q, P)}\left(0_{(Q, P)}\right) \text {, }\end{equation}$

其中 $ 0_{(Q, P)} $ 为切空间 $ \mathcal{T}_{(Q, P)} \mathrm{St}(m, d) \times \mathcal{P} $ 的原点.

引理 4.1$ \forall\left(Q_0, P_0\right) \in \mathrm{St}(m, d) \times \mathcal{P} $, 水平集

$\begin{equation} \mathcal{Z}=\left\{(Q, P) \in \operatorname{St}(m, d) \times \mathcal{P} \mid f(Q, P) \leq f\left(Q_0, P_0\right)\right\}\end{equation}$

是紧集.

$ \forall\left(Q_0, P_0\right) \in S t(m, d) \times \mathcal{P} $.$ \forall(Q, P) \in \mathcal{Z} $, 有 $ \|Q\|=\sqrt{\operatorname{tr}\left(Q^T Q\right)}=\sqrt{d}. $ 又由

$f(Q, P)=\operatorname{tr}\left(P^{\mathrm{T}}\left(\psi I+Q^{\mathrm{T}} X^{\mathrm{T}} D X Q\right) P\right)-2\operatorname{tr}\left(P^{\mathrm{T}}\left( Q^{\mathrm{T}} X^TF X\right)\right)+\operatorname{tr}\left(X^{\mathrm{T}} D X\right),$

若记 $ P \in\!\! \mathbb{R}^{\!\!d \times m}(m \geq d) $ 的奇异值为 $ \delta_1\geq \delta_2\geq \cdots\geq \delta_d\geq 0 $, $ Q^{\mathrm{T}}X^TFX \in\!\! \mathbb{R}^{\!\!d \times m} $ 的奇异值 $ \gamma_1\geq\gamma_2\geq \cdots \gamma_d\geq 0 $, 由文献 [41] 中 Neumann 不等式的推论 6.4.3 及柯西-施瓦茨不等式有

$\begin{aligned}-\mathrm{tr}\left(P^{\mathrm{T}}\left(Q^{\mathrm{T}} X^TF X\right)\right) & \geq-\sum_{i=1}^d \delta_i \gamma_i \geq-\sqrt{\left(\delta_1^2+\cdots +\delta_d^2\right)\left(\gamma_1^2+\cdots +\gamma_d^2\right)} \\& =-\|P\|\left\|Q^{\mathrm{T}} X^TF X\right\|.\end{aligned}$

又由 $ \psi>0 $$ D $ 为具有非负对角元的对角阵可知

$\operatorname{tr}\left(P^{\mathrm{T}}\left(\psi I+Q^{\mathrm{T}} X^{\mathrm{T}} D X Q\right) P\right) \geq \lambda_{\min }\left(\psi I+Q^{\mathrm{T}} X^{\mathrm{T}} D X Q\right)\|P\|^2 \geq \psi\|P\|^2.$

故有

$\begin{aligned}f(Q, P) & \geq \psi\|P\|^2-2\|P\|\left\|Q^{\mathrm{T}} X^TF X\right\|+\operatorname{tr}\left(X^{\mathrm{T}} D X\right) \\& \geq \psi\|P\|^2-2\sqrt{d}\|P\|\|X^TF X\|+\operatorname{tr}\left(X^{\mathrm{T}} D X\right).\end{aligned}$

$ \forall(Q, P) \in \mathcal{Z} $, 有$ f(Q, P) \leq f\left(Q_0, P_0\right) $, 即

$\psi\|P\|^2-2\sqrt{d}\|P\|\|X^T F X\|+\operatorname{tr}\left(X^{\mathrm{T}} D X\right) \leq f\left(Q_0, P_0\right),$

上式左边为关于 $ \|P\| $ 的开口向上的二次函数, 而 $ f\left(Q_0, P_0\right) $ 为有限值, 故 $ \|P\| $ 的取值一定是有界的. 因此水平集 $ \mathcal{Z} $ 是有界的, 又目标函数 $ f(Q, P) $ 关于 $ Q, P $ 是连续的, $ \mathcal{Z} $ 是闭集, 从而水平集 $ \mathcal{Z} $ 是紧集.

由于 $ \mathrm{St}(m, d) \times \mathcal{P} $$ \mathbb{R}^{m \times d} \times \mathbb{R}^{d \times m} $ 的嵌入黎曼子流形, 且对 $ \forall(Q, P) \in \mathbb{R}^{m \times d} \times \mathbb{R}^{d \times m} $ 都有 $ \mathcal{T}_{(Q, P)} \mathrm{St}(m, d) \times \mathcal{P} \subset \mathbb{R}^{m \times d} \times \mathbb{R}^{d \times m} $, 故 $ \operatorname{grad} f(Q, P) $ 可以看作是 $ \mathrm{St}(m, d) \times \mathcal{P} $$ \mathbb{R}^{m \times d} \times \mathbb{R}^{d \times m} $ 的一个连续非线性映射, 由引理 4.1 可知 $ \mathcal{Z} $ 是紧集, 故存在常数 $ \kappa>0 $ 使得

$\begin{equation} \| \text { grad } f(Q, P) \| \leq \kappa,\ \ \forall(Q, P) \in \mathcal{Z}.\end{equation}$

另外, 对 $ \forall\left(Q_1, P_1\right),\left(Q_2, P_2\right) \in \mathrm{St}(m, d) \times \mathcal{P}, \operatorname{grad} f\left(Q_1, P_1\right) $$ \operatorname{grad} f\left(Q_2, P_2\right) $ 可以看作是 $ \mathbb{R}^{m \times d} \times \mathbb{R}^{d \times m} $ 的向量, 故 $ \operatorname{grad} f\left(Q_1, P_1\right)-\operatorname{grad} f\left(Q_2, P_2\right) $ 是有意义的, 又因 $ \mathcal{Z} $ 是紧集, 故 $ \operatorname{grad} f(Q, P) $$ \mathcal{Z} $ 上 Lipschitz 连续, 即存在常数 $ \beta_L $ 使得

$\begin{equation} \left\|\operatorname{grad} f\left(Q_1, P_1\right)-\operatorname{grad} f\left(Q_2, P_2\right)\right\| \leq \beta_L \operatorname{dist}\left(\left(Q_1, P\right),\left(Q_2, P_2\right)\right) \text {, }\end{equation}$

其中 “dist” 表示 $ \mathrm{St}(m, d) \times \mathcal{P} $ 上的黎曼距离[35,p46].

引理 4.2 存在非负常数 $ c_1, c_2 $ 使得对 $ \forall k $, 有

$\begin{equation} \left\langle\operatorname{grad} f\left(Q_k, P_k\right),\left(\eta_k, \xi_k\right)\right\rangle \leq-c_1\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2,\left\|\left(\eta_k, \xi_k\right)\right\| \leq c_2\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|.\end{equation}$

$\begin{align*} &\ \left\langle\operatorname{grad} f\left(Q_k, P_k\right),\left(\eta_k, \xi_k\right)\right\rangle \\&=-\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2+\beta_{k-1}\left\langle\operatorname{grad} f\left(Q_{k-1}, P_{k-1}\right), \mathbf{T}_{\alpha_{k-1}\left(\eta_{k-1}, \xi_{k-1}\right)}\left(\eta_{k-1}, \xi_{k-1}\right)\right\rangle \\&=-\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2-\frac{\beta_{k-1}^2}{\mu_{k-1}}\left\|\left(\eta_{k-1}, \xi_{k-1}\right)\right\|^2 \\& \leq-\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2.\end{align*}$

此时 $ c_1=1 $. 另一方面, 根据基于正交投影的向量转移算子的非扩张性和柯西-施瓦茨不等式得

$\begin{align*} \left\|\left(\eta_k, \xi_k\right)\right\|^2& =\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2-2 \beta_{k-1}\left\langle\operatorname{grad} f\left(Q_{k-1}, P_{k-1}\right), \mathbf{T}_{\alpha_{k-1}\left(\eta_{k-1}, \xi_{k-1}\right)}\left(\eta_{k-1}, \xi_{k-1}\right)\right\rangle \\& \leq\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2-2 \beta_{k-1}\left\langle\operatorname{grad} f\left(Q_{k-1}, P_{k-1}\right), \mathbf{T}_{\alpha_{k-1}\left(\eta_{k-1}, \xi_{k-1}\right)}\left(\eta_{k-1}, \xi_{k-1}\right)\right\rangle\\&\ +\beta_{k-1}^2\left\|\left(\eta_{k-1}, \xi_{k-1}\right)\right\|^2 \\& =\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2+\left(\frac{2+\mu_{k-1}}{\mu_{k-1}}\right) \beta_{k-1}^2\left\|\left(\eta_{k-1}, \xi_{k-1}\right)\right\|^2 \\& =\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2+\left(\mu_{k-1}^2+2 \mu_{k-1}\right)\\&\ \times \frac{\left(\left\langle\operatorname{grad} f\left(Q_{k-1}, P_{k-1}\right), \mathbf{T}_{\alpha_{k-1}\left(\eta_{k-1}-1 \xi_{k-1}\right)}\left(\eta_{k-1}, \xi_{k-1}\right)\right\rangle\right)^2}{\left\|\left(\eta_{k-1}, \xi_{k-1}\right)\right\|^2} \\& \leq\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2+\left(\mu_{k-1}^2+2 \mu_{k-1}\right)\\&\ \times\frac{\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2 \| \mathbf{T}_{\alpha_{k-1}\left(\eta_{k-1}, \xi_{k-1}\right)}\left(\eta_{k-1}, \xi_{k-1}) \|^2\right.}{\left\|\left(\eta_{k-1}, \xi_{k-1}\right)\right\|^2}\\& \leq\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2+\left(\mu_{k-1}^2+2 \mu_{k-1}\right) \frac{\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2 \|\left(\eta_{k-1}, \xi_{k-1}) \|^2\right.}{\left\|\left(\eta_{k-1}, \xi_{k-1}\right)\right\|^2} \\& =\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2+\left(\mu_{k-1}^2+2 \mu_{k-1}\right)\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2 \\& =\left(\mu_{k-1}+1\right)^2\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2 \\& \leq\left(\mu_{\text {max }}+1\right)^2\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2.\end{align*}$

故可得

$\left\|\left(\eta_k, \xi_k\right)\right\| \leq\left(\mu_{\text {max }}\right)\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|.$

此时 $ c_2=\mu_{\text {max }}+1 $, 即引理得证.

下面给出算法 1 的全局收敛性, 为此先建立序列 $ \left\{C_k\right\} $ 的若干重要性质.

引理 4.3$ \left\{\left(Q_k, P_k\right)\right\} $ 为算法 1 生成的有限序列, 有

$f\left(Q_k, P_k\right) \leq C_k,\ \ \forall k \geq 0.$

此外, 序列 $ \left\{C_k\right\} $ 是单调递减的.

定义函数 $ \psi_{k+1}: \mathbb{R}\!\! \rightarrow\!\! \mathbb{R}\!\!$,

$\begin{equation} \psi_{k+1}(t)=\frac{t C_k+f\left(\mathcal{R}_{\left(Q_k, P_k\right)}\left(\alpha_k\left(\eta_k, \xi_k\right)\right)\right)}{t+1},\end{equation}$

$ \psi_{k+1}(t) $ 关于 $ t $ 的导数为

$\begin{equation} \psi_{k+1}^{\prime}(t)=\frac{C_k-f\left(\mathcal{R}_{\left(Q_k, P_k\right)}\left(\alpha_k\left(\eta_k, \xi_k\right)\right)\right)}{(t+1)^2},\end{equation}$

从引理 4.2 和非单调 Armijo 类条件可知

$\begin{align*} f\left(\mathcal{R}_{\left(Q_k, P_k\right)}\left(\alpha_k\left(\eta_k, \xi_k\right)\right)\right) &\leq C_k+\rho_1 \alpha_k\left\langle\operatorname{grad} f\left(Q_k, P_k\right),\left(\eta_k, \xi_k\right)\right\rangle-\rho_2 \alpha_k^2\left\|\left(\eta_k, \xi_k\right)\right\|^2\\&<C_k,\end{align*}$

这意味着对于所有的 $ t \geq 0, \psi_{k+1}^{\prime}(t) \geq 0 $. 因此, 对所有 $ t \geq 0 $,

$f\left(\mathcal{R}_{\left(\varrho_k, P_k\right)}\left(\alpha_k\left(\eta_k, \xi_k\right)\right)\right)=\psi_{k+1}(0) \leq \psi_{k+1}(t).$

$ t=\tau O_k $

$\begin{equation} f\left(\mathcal{R}_{\left(Q_k, P_k\right)}\left(\alpha_k\left(\eta_k, \xi_k\right)\right)\right)=\psi_{k+1}(0) \leq \psi_{k+1}\left(\tau O_k\right)=C_{k+1}, \quad \forall k \geq 0.\end{equation}$

另一方面, 由算法 1 和 (4.7) 式有

$\begin{equation}C_{k+1}=\frac{\tau O_k C_k+f\left(\mathcal{R}_{\left(Q_k, P_k\right)}\left(\alpha_k\left(\eta_k, \xi_k\right)\right)\right)}{O_{k+1}}<\frac{\left(\tau O_k+1\right) C_k}{O_{k+1}}=C_k.\end{equation}$

因此序列 $ \left\{C_k\right\} $ 是单调递减的.

引理 4.4 在算法 1 中, 当 $ k $ 足够大时, 存在一个常数 $ v>0 $ 使得步长 $ \alpha_k $ 满足

$\alpha_k \geq v. $

由 Zhang-Hager 条件和算法 1 可知

$\begin{align*} &\ \frac{-\rho_1 \alpha_k\left\langle\operatorname{grad} f\left(Q_k, P_k\right),\left(\eta_k, \xi_k\right)\right\rangle+\rho_2 \alpha_k^2\left\|\left(\eta_k, \xi_k\right)\right\|^2}{O_{k+1}} \\&\leq \frac{C_k-f\left(\mathcal{R}_{\left(Q_k, P_k\right)}\left(\alpha_k\left(\eta_k, \xi_k\right)\right)\right)}{O_{k+1}} \\& =\frac{C_k-f\left(\mathcal{R}_{\left(Q_k, P_k\right)}\left(\alpha_k\left(\eta_k, \xi_k\right)\right)\right)-\tau O_k C_k+\tau O_k C_k}{O_{k+1}} \\& =\frac{\left(\tau O_k+1\right) C_k-\left(\tau O_k C_k+f\left(\mathcal{R}_{\left(Q_k, P_k\right)}\left(\alpha_k\left(\eta_k, \xi_k\right)\right)\right)\right)}{O_{k+1}} =C_k-C_{k+1}.\end{align*}$

又有

$O_{k+1}=1+\tau O_k=1+\tau+\tau^2 O_{k-1}=\cdots=\sum_{i=0}^k \tau^i<\frac{1}{1-\tau},$
$(1-\tau)\left(-\rho_1 \alpha_k\left\langle\operatorname{grad} f\left(Q_k, P_k\right),\left(\eta_k, \xi_k\right)\right\rangle+\rho_2 \alpha_k^2\left\|\left(\eta_k, \xi_k\right)\right\|^2\right) \leq C_k-C_{k+1}.$

令两边取极限, 可得

$\begin{equation} \lim _{k \rightarrow \infty} \alpha_k\left|\left\langle\operatorname{grad} f\left(Q_k, P_k\right),\ \left(\eta_k, \xi_k\right)\right\rangle\right|=0,\ \ \lim _{k \rightarrow \infty} \alpha_k^2\left\|\left(\eta_k, \xi_k\right)\right\|^2=0.\end{equation}$

(4.15) 式的第二个极限意味着存在 $ N_\alpha \in N $ 使得 $\delta^{-1} \alpha_k\left\|\left(\eta_k, \xi_k\right)\right\| \leq \kappa, \forall k \geq N_\alpha$. 其中 $ \kappa $ 由 (4.5) 式确定.

$ k $ 为任意正整数使 $ k \geq N_\alpha $, 为证明该引理分析两种情况: 如果在第 $ k $ 次迭代中 $ \tilde{\alpha}_k $ 没有被改变, 那么有 $ \alpha_k=\tilde{\alpha}_k \geq \alpha_m>0 $; 另一种可能是标量 $ \tilde{\alpha}_k $ 不满足非单调 Armijo 条件, 在这种条件下$ \alpha_k=\delta^{m_k} \tilde{\alpha}_k $ 其中 $ m_k \geq 1 $ 是使 Armijo 条件成立的最小整数, 因此对于 $ \delta^{-1} \alpha_k $, Zhang-Hager 不等式不成立, 有

$\begin{equation} f\left(\mathcal{R}_{\left(Q_k, P_k\right)}\left(\delta^{-1} \alpha_k\left(\eta_k, \xi_k\right)\right)\right)-C_k>\rho_1 \delta^{-1} \alpha_k\left\langle\operatorname{grad} f\left(Q_k, P_k\right),\left(\eta_k, \xi_k\right)\right\rangle+\rho_2 \delta^{-2} \alpha_k^2\left\|\left(\eta_k, \xi_k\right)\right\|^2.\end{equation}$

结合引理 4.3 可得

$\begin{equation} \left(\mathcal{R}_{\left(Q_k, P_k\right)}\left(\delta^{-1} \alpha_k\left(\eta_k, \xi_k\right)\right)\right)-f\left(Q_k, \ P_k\right)>\rho_1 \delta^{-1} \alpha_k\left\langle\operatorname{grad} f\left(Q_k, \ P_k\right),\left(\eta_k, \xi_k\right)\right\rangle+\rho_2 \delta^{-2} \alpha_k^2\left\|\left(\eta_k, \xi_k\right)\right\|^2.\end{equation}$

结合中值定理, 柯西-施瓦茨不等式以及 (4.17) 式可知, 存在一个 $ \theta_k \in(0,1) $ 使得当 $ k $ 足够大时

$\begin{align*}& f\left(\mathcal{R}_{\left(Q_k, P_k\right)}\left(\delta^{-1} \alpha_k\left(\eta_k, \xi_k\right)\right)\right)-f\left(Q_k, P_k\right) \\=\ & f\left(\mathcal{R}_{\left(Q_0, P_k\right)}\left(\delta^{-1} \alpha_k\left(\eta_k, \xi_k\right)\right)\right)-f\left(\mathcal{R}_{\left(Q_k, P_k\right)}(0)\right) \\=\ & \widehat{f}\left(\delta^{-1} \alpha_k\left(\eta_k, \xi_k\right)\right)-\widehat{f}(0) \\=\ & \delta^{-1} \alpha_k\left\langle\operatorname{grad} \widehat{f}\left(Q_k+\theta_k \delta^{-1} \alpha_k \eta_k, P_k+\theta_k \delta^{-1} \alpha_k \xi_k\right),\left(\eta_k, \xi_k\right)\right\rangle \\=\ & \delta^{-1} \alpha_k\left\langle\operatorname{grad} \widehat{f}\left(Q_k, P_k\right),\left(\eta_k, \xi_k\right)\right\rangle \\& +\delta^{-1} \alpha_k\left\langle\operatorname{grad} \widehat{f}\left(Q_k+\theta_k \delta^{-1} \alpha_k \eta_k, P_k+\theta_k \delta^{-1} \alpha_k \xi_k\right)-\operatorname{grad} \widehat{f}\left(Q_k, P_k\right),\left(\eta_k, \xi_k\right)\right\rangle \\\leq\ & \delta^{-1} \alpha_k\left\langle\operatorname{grad} \widehat{f}\left(Q_k, P_k\right),\left(\eta_k, \xi_k\right)\right\rangle+\delta^{-2} \alpha_k^2 \theta_k\left\|\left(\eta_k, \xi_k\right)\right\|^2 \\\leq\ & \delta^{-1} \alpha_k\left\langle\operatorname{grad} f\left(Q_k, P_k\right),\left(\eta_k, \xi_k\right)\right\rangle+\delta^{-2} \alpha_k^2\left\|\left(\eta_k, \xi_k\right)\right\|^2.\end{align*}$

结合 (4.17) 式和引理 4.2 有

$\begin{align*}\alpha_k & \geq \frac{\left(\rho_1-1\right) \delta\left\langle\text { grad } f\left(Q_k, P_k\right),\left(\eta_k, \xi_k\right)\right\rangle}{\left(\beta_L+\rho_2\right)\left\|\left(\eta_k, \xi_k\right)\right\|^2} \\& =\frac{\left(1-\rho_1\right) \delta\left|\left\langle\operatorname{grad} f\left(Q_k, \rho_k\right),\left(\eta_k, \xi_k\right)\right\rangle\right|}{\left(\beta_L+\rho_2\right)\left\|\left(\eta_k, \xi_k\right)\right\|^2} \geq \frac{\left(1-\rho_1\right) \delta c_1}{\left(\beta_L+\rho_2\right) c_2^2}.\end{align*}$

因此, 当 $ k $ 足够大且 $ v=\min \left\{\alpha_{\text {min }}, \frac{\left(1-\rho_1\right) \delta c_1}{\left(\beta_L+\rho_2\right) c_2^2}\right\} $ 时, 引理成立.

定理 4.1$ \left\{\left(Q_k, P_k\right)\right\} $ 是由算法 1 产生的迭代序列, 则有

$\begin{equation} \lim _{k \rightarrow \infty}\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2=0.\end{equation}$

根据 (4.15) 式中的第一个极限和 (4.7) 式有

$\begin{equation} \lim _{k \rightarrow \infty} \alpha_k\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2=0,\end{equation}$

$ \varepsilon>0 $ 为任意的正数, 根据 (4.19) 式, 存在 $ K \in N $, 使得对于所有 $ k>0 $

$\begin{equation} \alpha_k\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2<v \varepsilon,\end{equation}$

其中 $ v $ 由引理 4.4 确定. 选择 $ N_{\varepsilon}=\max \left\{K, N_\alpha\right\} \in N $, 对所有 $ k \geq N_{\varepsilon} $ 可得

$\alpha_k\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2<v \varepsilon \text { 和 } \alpha_k \geq v.$

这意味着对所有 $\left\|\operatorname{grad} f\left(Q_k, P_k\right)\right\|^2<\varepsilon$. 因此定理成立.

5 数值实验

本节利用数值实验和数值比较验证算法 1 对于求解问题 (1.7) 的有效性. 所有的数值结果均通过 Matlab(R2022a), $ \text{Intel}^{\circledR} $ Core i5 处理器, 3.00GHz 的 PC 中获得. 首先给出本节数值实验中的参数选取说明

(1) 关于 $ X, W, F, D $ 的选取. 对于数据矩阵 $ X\in \mathbb{R}^{N\times m} $, 其中 $ N $ 为训练样本量, $ m $ 为样本维度, 文献 [9] 采用 FERET 脸谱数据库中给出的数据集, 本文不失一般性通过 Matlab 随机生成 $ X={ {\rm rand}(N,m)} $, 即元素属于 $ (0,1) $ 满足均匀分布的 $ N\times m $ 随机数矩阵. 分两种情形来给出数据矩阵 $ X $, $ N\gg m $ 高样本量、低维样本; $ m\gg N $ 低样本量、高维样本. 因为近邻样本的数据点很可能具有相同的类别标签, 为建立局部几何流形结构, 文献 [9]构建一个类内相似图来定义$ W $, 其最近邻图模型定义为

$W_{ij}=\left\{\begin{array}{rl}1,& x_i\in N_{K}(x_j)\ \mbox{或}\ x_j\in N_{K}(x_i);\\0,& \mbox{其它},\end{array}\right.$

其中 $ N_{K}(x_j) $ 为与样本点 $ x_i $ 相邻的同类样本点 $ x_j $ 子集. 因数据矩阵 $ X $ 通过随机方式生成, 不失一般性, 本文实验中同样按随机方式生成 $ W={ {\rm rand}(N,N)} $.进而通过 $ X $, $ W $ 计算 $ F $, $ D $, 即 $ F=G \odot W $, 其中 $ G_{i j}=\frac{1}{2\left\|x_{i}-x_{j} Q P\right\|_{2}} $, $ D $ 为对角矩阵且 $ D_{i i}=\sum_{j} F_{i j}. $

(2) 初始迭代矩阵. 本文算法及比较算法的迭代初值 $ (Q_0 $, $ P_0) $ 均取为随机生成的可行点,

$ P_0={{\rm randn}(d,m)},\ \ Q_0={{\rm orth}\big({\rm randn}(m, d)\big)},$

其中 $ \textrm {randn}(d,m) $ 为元素服从标准正态分布的 $ d\times m $ 随机数矩阵, $ \textrm{orth()} $ 表示对括号内矩阵进行列标准正交化.

(3) 算法终止标准. 参考文献 [42] 中关于黎曼梯度类算法终止标准的说明, 算法 1 的终止标准取为: $ \left\| {\mathrm{grad} f\left( {{Q_k},{P_k}} \right)} \right\| \le \epsilon $ 或者 $ tol_{\left( {Q,P} \right)}^k \le {\epsilon_{\left( {Q,P} \right)}} $$ tol_f^k \le {\epsilon_f} $, 其中

$tol_{\left( {Q,P} \right)}^k = \frac{{\left\| {{Q_{k + 1}} - {Q_k}} \right\|}}{{\sqrt d }}+\frac{{\left\| {{P_{k + 1}} - {P_k}} \right\|}}{\|P_k\|}, \ \ tol_f^k = \frac{{\left| {f\left( {{Q_{k + 1}},{P_{k + 1}}} \right) - f\left( {{Q_k},{P_k}} \right)} \right|}}{{\left| {f\left( {{Q_k},{P_k}} \right)} \right| + 1}},$

其中参数 $ \epsilon, \epsilon_{(Q,P)},\epsilon_f $ 的选取为 $ \epsilon = 10^{-5} $, $ \epsilon_{(Q,P)}= 10^{-5} $, $ \epsilon_f= 10^{-8} $. 算法 1 中其它参数选取方式为 $ \delta_1 = 10^{-3} $, $ \delta_2 = 10^{-8} $, $ \rho = 0.5 $, $ \tau = 0.85 $, 最大迭代步设为 $ 10000 $.

(4) 初始步长. 不等式 (3.2) 中试验步长 $ \bar{\alpha}_k $ 的选取由如下方式确定

$\begin{equation} \bar{\alpha}_k=\max\{\min\{\alpha^{BB},10^{20}\},10^{-20}\},\end{equation}$

其中 $ \alpha^{BB} $ 为 Barzilai-Borwein(BB) 步长, 其定义为

$\begin{equation} \alpha^{BB}_{1}=\dfrac{\langle M_{k-1}, M_{k-1}\rangle}{|\langle Y_{k-1}, M_{k-1}\rangle|}\ \ \ \mbox{或}\ \\alpha^{BB}_{2}=\dfrac{|\langle M_{k-1}, Y_{k-1}\rangle|}{\langle Y_{k-1}, Y_{k-1}\rangle},\end{equation}$

其中 $ {M_{k - 1}} = ({Q_k},{P_k}) - ({Q_{k - 1}},{P_{k - 1}}) $, $ {Y_{k - 1}} = ({\eta _k},{\xi _k}) - ({\eta _{k - 1}},{\xi _{k - 1}}) $.

5.1 与文献 [9] 的近似交替最小二乘方法比较

对于问题 (1.6), 在变量矩阵 $ F, D $ 固定的情况下, 文献 [9] 中设计了基于交替最小二乘思想的求解方案. 对于 $ (Q_k, P_k)\in \mathrm{St}(m, d) \times \mathcal{P} $, 其更新步的迭代框架为

$\begin{equation} \left\{\begin{array}{l}P_{k+1}=\mathop { {argmin}}\limits_{P\in \mathcal{P}} f(Q_k, P);\\Q_{k+1}=\mathop { {argmin}}\limits_{Q\in \mathrm{St}(m, d)} f(Q, P_{k+1}).\end{array}\right.\end{equation}$

对于 (5.3) 式中的 $ P $ 子问题 (无约束迹函数极值问题), 通过 $ \frac{\partial f(Q_k, P)}{\partial P}=0 $ 可得其精确解析表达式为

$\begin{equation} P_{k+1}=\left(\psi I_d +Q_k^T X^T D X Q_k\right)^{-1} Q_k^T X^T F X.\end{equation}$

对于 (5.3) 式中的 $ Q $ 子问题, 其等价于

$\begin{equation} \min\ \operatorname{tr}\left( P_{k+1}^T\left(\psi I_d+ Q^T X^T D X Q \right)P_{k+1}-2 P_{k+1}^T Q^T X^T F X\right), \ \ \operatorname{s.\ t.} \ \ Q\in \mathrm{St}(m, d).\end{equation}$

显然问题 (5.5) 关于约束变量 $ Q $ 并没有明确解析表达式. 文献 [9] 按如下方式获得 $ Q $ 子问题的近似解: 记 $ A_k=\psi I_d+Q_k^T X^T D X Q_k $, 将 (5.4) 代入问题 (5.5) 中目标函数, 同时取近似等式 $ A_k\approx \psi I_d+Q^T X^T D X Q $, 问题 (5.5) 经一步步简化可转化为如下极值问题

$\begin{equation} \max \ {\mathop{\rm tr}\nolimits} \left( {{{\left( {{Q^T}\left( {{X^T}DX + \alpha I} \right)Q} \right)}^{ - 1}}{Q^T}{X^T}FX{X^T}FXQ} \right), \ \ \operatorname{s.\ t.} \ \ Q\in \mathrm{St}(m, d).\end{equation}$

上述极值问题 (5.6) 的解可以通过如下特征值-特征向量分解求得

$\left(X^T D X+\alpha I\right)^{-1}\left(X^T F X X^T F^T X\right) \nu=\lambda \nu,$

其中 $ \lambda $ 为特征向量 $ \nu $ 对应的特征值, 进而文献 [9] 将矩阵 $ \left(X^T D X+\alpha I\right)^{-1}\left(X^T F X X^T F^T X\right) $ 的前 $ d $ 个最大特征值所对应的特征向量按列排列, 并作正交化处理后得到的列正交矩阵作为问题 (5.6) 的最优解.

显然文献 [9] 求得的 $ Q $ 子问题近似解与变量 $ P $ 无关, 进而得出 $ (Q,P) $ 经初始迭代矩阵迭代一次后不再更新, 即目标函数值 $ f(Q,P) $ 经迭代一次后不再下降 (即使对文献 [9]中给出的 RDR 算法同时考虑更新变量 $ F $$ D $, 因 $ F,D $ 依赖于变量 $ Q,P $), 这与文献 [9, 图6] 给出的目标函数随迭代步的变化曲线图一致.

表1给出了算法 1 与文献 [9] 中近似交替最小二乘算法 (AL) 在不同系统维数下的数值比较结果, 其中算法 AL 的最大迭代步设置为 50. 表1 中“CT.” 和“IT.”分别表示迭代终止所需的计算时间和迭代次数 $ k $, ``Obj."和``$ {{\rm grad}_{QP}} $" 分别表示迭代终止对应的目标函数值 $ f(Q_k, P_k) $ 和黎曼梯度范数 $ \|\textrm{grad} f(Q_k, P_k)\| $. 图1给出了算法 1 与 AL 算法目标函数值随迭代步的变化曲线图. 从表1中可以看出, 算法 1 的单步计算成本远低于算法 AL, 虽然算法 1 给出的迭代终止目标函数值略高于算法 AL, 但从迭代终止的黎曼梯度范数来看, 算法 1 给出的近似解精度高于算法 AL. 从图1中也可以看出, 算法 AL 的目标函数值在迭代一次后不再下降, 这与前述分析一致.

表1   算法 1 和算法 AL 的数值比较

新窗口打开| 下载CSV


图1

图1   不同维数下算法 1 和算法 AL 的目标函数值随迭代步变化曲线图


5.2 与两类主流非单调线搜索技术的数值比较

本文提出的线搜索 (3.2) 实质上是结合了 Zhang-Hager 非单调线搜索技术与文献 [40] 中单调 Armijo 型线搜索的一种新型非单调线搜索. 为验证其有效性, 本节与前文提到的两种主流的非单调线搜索-Zhang-Hager线搜索技术和 Max 型非单调线搜索来进行比较. 与之比较的采用两类非单调搜索技术的代表性黎曼梯度类算法包括文献 [42] 中提出的应用于流形优化的基于曲线搜索的黎曼梯度下降法 ({OptStiefelGBB}), 文献 [32,43] 推广的基于欧式空间 Dai 非线性共轭梯度法且应用于流形优化的黎曼非线性共轭梯度法 ({RCG}). 首先给出算法 {OptStiefelGBB} 和 {RCG} 应用于求解问题 (1.7) 的迭代框架.

OptStiefelGBB: 对于给定参数 $ \delta, \rho, \vartheta \in \left( {0,1} \right) $ 和搜索方向 $ \left({{\eta _k},{\xi _k}}\right)=-\mathrm{grad} f(Q_k, P_k) $, 其搜索步长 $ {\alpha _k}=\max\{\bar{\alpha}_k {\rho ^h}, j=0,1,2,\cdots \} $ 由如下Zhang-Hager非单调搜索准则确定

$f\left( \mathcal{R}_{{(Q_k, P_k)}}(\alpha _k({{\eta _k},{\xi _k}} ))\right) \le {C_k} - \delta \alpha _k\| (\eta_{k},\xi_{k}) \| ^{2}, $

其中作用于 Stiefel 流形上的收缩映射 $ \mathcal{R}_Q{(\alpha\eta)} $ 采用基于 Cayley 变换的收缩算子[42], 初始迭代步长 $ \bar{\alpha}_k $ 的选取同 (5.1)-(5.2). 参考函数 $ C_{k} $ 的选取同算法 1.

RCG: 迭代步长 $ {\alpha_k} $ 采用如下 $ \textrm{Max} $ 型非单调线搜索确定

$f\left( {{\mathcal{R}_{\left( {{Q_k},{P_k}} \right)}}\left( {{\alpha_k}\left( {{\eta _k},{\xi _k}} \right)} \right)} \right) \le \max \left\{ {f\left( {{Q_k},{P_k}} \right), \cdots, f\left( {{Q_{k - {h_k}}},{P_{k - {h_k}}}} \right)} \right\} + \delta {\alpha_k}\left\langle {\mathrm{grad}\ f\left( {{Q_k},{P_k}} \right),\left( {{\eta _k},{\xi _k}} \right)} \right\rangle, $

其中作用于 Stiefel 流形上的收缩映射 $ \mathcal{R}_Q{(\alpha\eta)} $ 同算法 {OptStiefelGBB}, $ \delta \in \left( {0,1} \right),{h_k} = \min \left\{ {h - 1,k} \right\} $, $ h $ 为正整数. 搜索方向更新方案为

$\left( {{\eta _{k + 1}},{\xi _{k + 1}}} \right) = - \mathrm{grad}\ f\left( {{Q_{k + 1}},{P_{k + 1}}} \right) + {\beta _k}{\mathbf{T} _{{\alpha _k}\left( {{\eta _k},{\xi _k}} \right)}}\left( {{\eta _k},{\xi _k}} \right),$

其中 $ \mathbf{T} $ 为采用基于微分收缩的向量转移算子[32], 参数 $ {\beta _{k + 1}} \in \left[ {0,\beta _{k + 1}^D} \right] $, 而

$\beta _{k + 1}^D = \frac{{{{\left\| {\mathrm{grad} f\left( {{Q_{k + 1}},{P_{k + 1}}} \right)} \right\|}^2}}}{{\max \left\{ {M, - \left\langle {\mathrm{grad} f\left( {{Q_k},{P_k}} \right),\left( {{\eta _k},{\xi _k}} \right)} \right\rangle } \right\}}},$

其中 $ M = \left\langle {\mathrm{grad} f\left( {{Q_{k + 1}},{P_{k + 1}}} \right),{\mathbf{T} _{{\alpha_k}\left( {{\eta _k},{\xi _k}} \right)}}\left( {{\eta _k},{\xi _k}} \right) - \left\langle {\mathrm{grad} f\left( {{Q_k},{P_k}} \right),\left( {{\eta _k},{\xi _k}} \right)} \right\rangle } \right\rangle $.

表2给出了不同系数维数下算法 1 与 OptStiefelGBB 和 RCG 的数值比较结果, 其中表头“CT.”、“IT.”、“Obj.”和“${ {\rm grad}_{QP}} $” 的定义同表1. 表2前 6 组数据给出的是低样本量、高维样本的数值比较结果, 后 6 组数据给出高样本量、低维样本的比较结果. 图2给出了三种算法的黎曼梯度范数随迭代步的半对数收敛曲线图. 从表2中数据可以看出, 在相同的终止标准下, 三种算法得到的迭代终止目标函数值近似相同, 其迭代解所对应的黎曼梯度范数相当. 但从迭代时间和迭代步来看, 大多数情况下, 本文算法 1 在迭代效率上有一定的优势. 因算法 OptStiefelGBB 不需要计算向量转移算子, 故达到相同终止标准所需要的迭代时间相对较少. 结合表2 的数据结果和图2的收敛曲线图可以看出, 本文提出的结合 Zhang-Hager 非单调线搜索技术与文献 [40] 中单调 Armijo 型线搜索的新型非单调线搜索较两类主流的非单调线搜索在迭代效率上有一定的优势.

表2   算法 1 与两类基于主流非单调线搜索技术黎曼梯度类算法的数值比较

新窗口打开| 下载CSV


图2

图2   算法 1 与两类基于主流非单调线搜索技术黎曼梯度类算法的黎曼梯度范数随迭代步变化曲线图


5.3 与黎曼优化工具箱 Manopt 中已有的黎曼一阶方法比较

本小节给出算法 1 与黎曼优化工具箱 Manopt[44] 中已有的一阶方法进行数值比较, 与之比较的算法包括 Steepest-descent(RSD-Manopt), Conjugate-gradient(RCG-Manopt) 和 Barzilai-Borwein(BB-Manopt). 表3给出了在低样本量高维样本和高样本量低维样本两种情况下四种算法的数值比较结果. 图3给出了四种算法的黎曼梯度范数随迭代步的半对数变化曲线图. 黎曼优化工具箱 Manopt 中的三类算法其相关参数选取和终止标准均取为默认, 最大迭代步修改为 50000. 从表3中数据和图3中黎曼梯度范数的变化曲线图可以看出, 算法 RSD-Manopt 和算法 BB-Manopt 在大多数情况下都达到最大迭代步, 其黎曼梯度范数下降相对比较缓慢, 且达到一定精度后趋于稳定. 由此可以看出, 对于求解问题 (1.7), 本文算法较黎曼优化工具箱 Manopt 中的一阶算法相比也具有一定的优势.

表3   算法 1 与黎曼优化工具箱 Manopt 中的算法 RSD-Manopt, RCG-Manopt 和 BB-Manopt 的数值比较

新窗口打开| 下载CSV


图3

图3   不同维数下算法 1, RSD-Manopt, RCG-Manopt 和 BB-Manopt 的黎曼梯度范数随迭代步变化曲线图


5.4 与黎曼优化工具箱 Manopt 中已有的黎曼二阶方法比较

基于引理 2.2 中给出的黎曼海塞具体计算公式 (2.15), 本小节给出算法 1 与黎曼优化工具箱 Manopt 中已有的二阶算法进行数值比较, 与之比较的算法包括 BFGS(BFGS-Manopt), Trust-regions(RTR-Manopt) 和 Adaptive regularization by cubics(ARC-Manopt). 表4给出了在低样本量高维样本和高样本量低维样本两种情况下四种算法的数值比较结果. 图4给出了四种算法的黎曼梯度范数随迭代步的半对数变化曲线图. 黎曼优化工具箱 Manopt 中的三类算法其相关参数选取和终止标准均取为默认, 最大迭代步修改为 10000. 从表4的数据可以看出, 在对应的终止标准下, 算法 1 虽然总体迭代步数较多, 但因为不需要内迭代, 故总体时间较少. 算法 RTR-Manopt 因为需要用到截断共轭梯度法 (tCG) 求解相应信赖域子问题, 虽然具有超线性收敛速度, 但是总体迭代时间要比算法 1 长. 另在大多数情况下, 算法 BFGS-Manopt 的总体运行时间最长, 这是因为黎曼优化工具箱中的黎曼 BFGS 算法实质上是 Limited-memory BFGS 在黎曼流形上的推广, 且其默认的记忆规模为 30, 也即每次迭代中都需计算 30 次基于正交投影的向量转移算子, 这很大程度上主导了BFGS-Manopt 的运行时间.

表4   算法 1 黎曼优化工具箱 Manopt 中的算法 BFGS-Manopt, RTR-Manopt 和 ARC-Manopt 的数值比较

新窗口打开| 下载CSV


图4

图4   不同维数下算法 1, BFGS-Manopt, RTR-Manopt 和 ARC-Manopt的黎曼梯度范数随迭代步变化曲线图


6 结论

本文研究了来源于特征提取的一类鲁棒判别回归模型, 该模型可重构为由 Stiefel 流形和线性流形所组成的黎曼乘积流形上的一类矩阵迹函数极小化问题, 即问题 (1.6). 因模型 (1.6) 的目标函数中矩阵 $ F, D $ 的元素由变量 $ Q, P $ 确定, 故原问题难以求解. 本文考虑其取为固定矩阵时的简化版本, 即问题(1.7). 结合 Zhang-Hager 非单调搜索技术和 Armijo 型线搜索, 本文提出一类新的非单调搜索准则, 并结合乘积流形几何性质, 构造一类适用于求解问题 (1.7) 的黎曼非线性共轭梯度法, 同时给出了算法的全局收敛性分析. 充分的数值实验和数值比较说明了本文算法对于求解问题 (1.7) 的可行性和高效性, 其中数值比较包括与已有的近似交替最小二乘方法的比较, 与现有两类主流非单调线搜索技术的比较, 以及黎曼优化工具箱 Manopt 中已有的一阶和二阶方法的比较. 数值结果表明本文针对问题 (1.7) 所提出的算法, 与已有算法相比, 在迭代解精度、迭代时间或迭代步数上都具有一定的优势.

本文只针对问题 (1.7) 进行数值求解, 如何设计有效算法进一步求解问题 (1.6) 是下一步的研究工作, 可行的研究方案是采用交替更新的迭代思想, 其迭代框架为

1. 给定数据矩阵 $ X $ 和描述数据集局部流形结构的类内相似图 $ W $. 给定初始点 $ \left(Q_0, P_0\right) \in \mathrm{St}(m, d) \times \mathcal{P} $, $ k:=0 $;

2. $ k=1,2,\cdots $, 直到满足终止标准;

3. 生成 $ F_k, D_k $;

4. 通过算法1更新 $ (Q_k, P_k) $, 即

$ (Q_k, P_k)=\mathop { {argmin}}\limits_{(Q, P)\in \mathrm{St}(m, d) \times \mathcal{P}} \operatorname{tr}\left(X^T D_k X-2 P^T Q^T X^T F_k X+P^T Q^T X^T D X Q P+\psi P^T P\right). $

但终止标准的建立和算法的收敛性分析值得进一步研究.

参考文献

Ye J. Least squares linear discriminant analysis//Proceedings of the 24th International Conference on Machine Learning. 2007: 1087-1093

[本文引用: 2]

Ma Z, Nie F, Yang Y, et al.

Discriminating joint feature analysis for multimedia data understanding

IEEE Transactions on Multimedia, 2012, 14(6): 1662-1672

[本文引用: 1]

Ma Z, Yang Y, Sebe N, et al.

Multimedia event detection using a classifier-specific intermediate representation

IEEE Transactions on Multimedia, 2013, 15(7): 1628-1637

[本文引用: 1]

Ji S, Tang L, Yu S, Ye J.

A shared-subspace learning framework for multi-label classification

ACM Transactions on Knowledge Discovery from Data (TKDD), 2010, 4(2): 1-29

[本文引用: 1]

Seung H S, Lee D D.

The manifold ways of perception

Science, 2000, 290(5500): 2268-2269

PMID:11188725      [本文引用: 1]

One of the great puzzles of visual perception is how an image that is in perpetual flux can still be seen by the observer as the same object. In an informative Perspective, Seung and Lee explain the mathematical intricacies of two new algorithms for modeling the variability of perceptual stimuli and other types of high-dimensional data (Tenenbaum et al., and Roweis and Saul).

Roweis S T, Saul L K.

Nonlinear dimensionality reduction by locally linear embedding

Science, 2000, 290(5500): 2323-2326

DOI:10.1126/science.290.5500.2323      PMID:11125150      [本文引用: 1]

Many areas of science depend on exploratory data analysis and visualization. The need to analyze large amounts of multivariate data raises the fundamental problem of dimensionality reduction: how to discover compact representations of high-dimensional data. Here, we introduce locally linear embedding (LLE), an unsupervised learning algorithm that computes low-dimensional, neighborhood-preserving embeddings of high-dimensional inputs. Unlike clustering methods for local dimensionality reduction, LLE maps its inputs into a single global coordinate system of lower dimensionality, and its optimizations do not involve local minima. By exploiting the local symmetries of linear reconstructions, LLE is able to learn the global structure of nonlinear manifolds, such as those generated by images of faces or documents of text.

Belkin M, Niyogi P.

Laplacian eigenmaps and spectral techniques for embedding and clustering//Advances in Neural Information Processing Systems

Cambridge: MIT press, 2001, 14

[本文引用: 1]

Zhang S, Ma Z, Tan H.

On the equivalence of HLLE and LTSA

IEEE Transactions on Cybernetics, 2017, 48(2): 742-753

[本文引用: 1]

Lai Z, Mo D, Wong W K, et al.

Robust discriminant regression for feature extraction

IEEE Transactions on Cybernetics, 2017, 48(8): 2472-2484

[本文引用: 15]

Nie F, Huang H, Cai X, Ding C H. Efficient and robust feature selection via joint $ L_{2, 1} $ -norms minimization//Advances in Neural Information Processing Systems, 2010: 1813-1821

[本文引用: 1]

Sato K, Sato H.

Structure-preserving $ H^{2} $ optimal model reduction based on the Riemannian trust-region method

IEEE Transactions on Automatic Control, 2017, 63(2): 505-512

[本文引用: 1]

Sato H, Sato K. Riemannian gradient-based online identification method for linear systems with symmetric positive-definite matrix// 2019 IEEE 58th Conference on Decision and Control (CDC), 2019: 3593-3598

[本文引用: 1]

Sato K.

Riemannian optimal model reduction of linear port-Hamiltonian systems

Automatica, 2018, 93: 428-434

[本文引用: 1]

Sato K.

Riemannian optimal control and model matching of linear port-Hamiltonian systems

IEEE Transactions on Automatic Control, 2017, 62(12): 6575-6581

[本文引用: 1]

Sato K, Sato H, Damm T.

Riemannian optimal identification method for linear systems with symmetric positive-definite matrix

IEEE Transactions on Automatic Control, 2020, 65(11): 4493-4508

[本文引用: 1]

Chiang C Y, Lin M M, Jin X Q.

Riemannian inexact Newton method for structured inverse eigenvalue and singular value problems

BIT Numerical Mathematics, 2019, 59: 675-694

[本文引用: 1]

Ishteva M, Absil P A, Huffel S V, Lathauwer L D.

Best low multilinear rank approximation of higher-order tensors, based on the Riemannian trust-region scheme

SIAM Journal on Matrix Analysis and Applications, 2011, 32(1): 115-135

[本文引用: 1]

Sato H, Iwai T.

A Riemannian optimization approach to the matrix singular value decomposition

SIAM Journal on Optimization, 2013, 23(1): 188-212

[本文引用: 1]

Wang Y, Zhao Z, Bai Z J.

Riemannian Newton-CG methods for constructing a positive doubly stochastic matrix from spectral data

Inverse Problems, 2020, 36(11): 115006

[本文引用: 1]

Yao T T, Bai Z J, Zhao Z, Ching W K.

A riemannian fletcher-reeves conjugate gradient method for doubly stochastic inverse eigenvalue problems

SIAM Journal on Matrix Analysis and Applications, 2016, 37(1): 215-234

[本文引用: 1]

Yao T T, Bai Z J, Jin X Q, Zhao Z.

A geometric Gauss-Newton method for least squares inverse eigenvalue problems

BIT Numerical Mathematics, 2020, 60: 825-852

[本文引用: 1]

Zhao Z, Jin X Q, Bai Z J.

A geometric nonlinear conjugate gradient method for stochastic inverse eigenvalue problems

SIAM Journal on Numerical Analysis, 2016, 54(4): 2015-2035

[本文引用: 1]

Zhao Z, Bai Z J, Jin X Q.

A Riemannian inexact Newton-CG method for constructing a nonnegative matrix with prescribed realizable spectrum

Numerische Mathematik, 2018, 140(4): 827-855

[本文引用: 1]

Zhao Z, Jin X Q, Yao T T.

A Riemannian under-determined BFGS method for least squares inverse eigenvalue problems

BIT Numerical Mathematics, 2022, 62(1): 311-337

[本文引用: 1]

Zhao Z, Yao T T, Bai Z J, Jin X Q.

A Riemannian inexact Newton dogleg method for constructing a symmetric nonnegative matrix with prescribed spectrum

Numerical Algorithms, 2023, 92: 1951-1981

[本文引用: 1]

Jiang Y L, Xu K L.

Riemannian modified Polak-Ribière-Polyak conjugate gradient order reduced model by tensor techniques

SIAM Journal on Matrix Analysis and Applications, 2020, 41(2): 432-463

[本文引用: 1]

Oviedo H.

Global convergence of Riemannian line search methods with a Zhang-Hager-type condition

Numerical Algorithms, 2022, 91(3): 1183-1203

[本文引用: 1]

Sato H. Riemannian Optimization and Its Applications. Brelin: Springer, 2021

[本文引用: 1]

Sato H, Iwai T.

A new, globally convergent Riemannian conjugate gradient method

Optimization, 2015, 64(4): 1011-1031

[本文引用: 1]

Sato H.

A Dai-Yuan-type Riemannian conjugate gradient method with the weak Wolfe conditions

Computational Optimization and Applications, 2016, 64(1): 101-118

[本文引用: 1]

Sakai H, Iiduka H.

Hybrid Riemannian conjugate gradient methods with global convergence properties

Computational Optimization and Applications, 2020, 77(3): 811-830

[本文引用: 1]

Zhu X.

A Riemannian conjugate gradient method for optimization on the Stiefel manifold

Computational optimization and Applications, 2017, 67(1): 73-110

[本文引用: 3]

Vandereycken B.

Low-rank matrix completion by Riemannian optimization

SIAM Journal on Optimization, 2013, 23(2): 1214-1236

[本文引用: 1]

Zhang H, Hager W W.

A nonmonotone line search technique and its application to unconstrained optimization

SIAM Journal on Optimization, 2004, 14(4): 1043-1056

[本文引用: 2]

Absil P A, Mahony R, Sepulchre R. Optimization Algorithms on Matrix Manifolds. Princeton: Princeton University Press, 2009

[本文引用: 4]

Ring W, Wirth B.

Optimization methods on Riemannian manifolds and their application to shape space

SIAM Journal on Optimization, 2012, 22(2): 596-627

[本文引用: 1]

Absil P A, Mahony R, Trumpf J. An extrinsic look at the Riemannian Hessian//International Conference on Geometric Science of Information. Berlin: Springer, 2013: 361-368

[本文引用: 2]

Nocedal J, Wright S J.

Numerical Optimization

Springer, 1999

[本文引用: 1]

Grippo L, Lampariello F, Lucidi S.

A nonmonotone line search technique for Newton's method

SIAM Journal on Numerical Analysis, 1986, 23(4): 707-716

[本文引用: 1]

Zhang L, Zhou W, Li D.

Global convergence of a modified Fletcher-Reeves conjugate gradient method with Armijo-type line search

Numerische Mathematik, 2006, 104(4): 561-572

[本文引用: 3]

王松桂, 吴密霞, 贾忠贞. 矩阵不等式. 北京: 科学出版社, 2006

[本文引用: 1]

Wang S G, Wu M X, Jia Z Z. Matrix Inequalities. Beijing: Science Press, 2006

[本文引用: 1]

Wen Z, Yin W.

A feasible method for optimization with orthogonality constraints

Mathematical Programming, 2013, 142(1/2): 397-434

[本文引用: 3]

Li J F, Li W, Vong S W, et al.

A Riemannian optimization approach for solving the generalized eigenvalue problem for nonsquare matrix pencils

Journal of Scientific Computing, 2020, 82: 1-43

[本文引用: 1]

Boumal N, Mishra B, Absil P A, Sepulchre R.

Manopt, a Matlab toolbox for optimization on manifolds

Journal of Machine Learning Research, 2014, 15(1): 1455-1459

[本文引用: 1]

/