Canonical Correlation Analysis

这里涉及到不少多元统计分析 (Multivariate statistical analysis) 的知识.

1. Definition

典型相关分析由 Hotelling 提出, 其基本思想和 $\text{PCA}$ 非常相似.

  • 首先在每组变量中找出变量的线性组合, 使得两组的线性组合之间具有最大的相关系数;
  • 然后选取和最初挑选的这对线性组合不相关的线性组合, 使其配对, 并选取相关系数最大的一对;
  • 如此继续下去, 直到两组变量之间的相关性被提取完毕为止.

被选出的线性组合配对称为典型变量, 它们的相关系数称为典型相关系数. 典型相关系数度量了这两组变量之间联系的强度.

2. CCA

假设两组变量分别为:

$$\begin{align} X^{(1)}=\left(X_{1}^{(1)}, X_{2}^{(1)}, \cdots, X_{p}^{(1)}\right)\\X^{(2)}=\left(X_{1}^{(2)}, X_{2}^{(2)}, \cdots, X_{q}^{(2)}\right) \end{align} $$

分别在两组变量中选取若干有代表性的综合变量 $U_{i},V_{i}$, 使得每一个综合变量是原变量的线性组合, 即:

$$\begin{align} U_{i}=a_{1}^{(i)} X_{1}^{(1)}+a_{2}^{(i)} X_{2}^{(1)}+\cdots+a_{p}^{(i)} X_{p}^{(1)} \triangleq \mathbf{a}^{(i)} \mathbf{X}^{(1)} \\ V_{i}=b_{1}^{(i)} X_{1}^{(2)}+b_{2}^{(i)} X_{2}^{(2)}+\cdots+b_{q}^{(i)} X_{q}^{(2)} \triangleq \mathbf{b}^{(i)} \mathbf{X}^{(2)} \end{align} $$

注意: 综合变量的组数是不确定的, 如果第一组就能代表原样本数据大部分的信息, 那么一组就足够了. 但大部分情况下第一组反映的信息不够, 我们就需要找第二组了. 并且为了让第二组的信息更有效, 需要保证两组的信息不相关:

$$\operatorname{cov}\left(U_{1}, U_{2}\right)=\operatorname{cov}\left(V_{1}, V_{2}\right)=0 $$

$\operatorname{var}\left(U_{1}\right)=\operatorname{var}\left(V_{1}\right)=1$ 满足的条件下, 找到 $\mathbf{a}^{(1)}, \mathbf{b}^{(1)}$ 的两组系数, 使得 $\rho\left(U_{1}, V_{1}\right)$ 最大. (这里的 $\rho$ 指的是 $\text{Pearson}$ 相关系数.)

为什么要控制这个条件: 因为相关系数与量纲无关

$$\rho\left(U_{1}, V_{1}\right)=\rho\left(a U_{1}, b V_{1}\right) $$

3. CCA-II