这里涉及到不少多元统计分析 (Multivariate statistical analysis) 的知识.
1. Definition
典型相关分析由 Hotelling 提出, 其基本思想和 $\text{PCA}$ 非常相似.
- 首先在每组变量中找出变量的线性组合, 使得两组的线性组合之间具有最大的相关系数;
- 然后选取和最初挑选的这对线性组合不相关的线性组合, 使其配对, 并选取相关系数最大的一对;
- 如此继续下去, 直到两组变量之间的相关性被提取完毕为止.
被选出的线性组合配对称为典型变量, 它们的相关系数称为典型相关系数. 典型相关系数度量了这两组变量之间联系的强度.
2. CCA
假设两组变量分别为:
$$\begin{align}
X^{(1)}=\left(X_{1}^{(1)}, X_{2}^{(1)}, \cdots, X_{p}^{(1)}\right)\\X^{(2)}=\left(X_{1}^{(2)}, X_{2}^{(2)}, \cdots, X_{q}^{(2)}\right)
\end{align}
$$
分别在两组变量中选取若干有代表性的综合变量 $U_{i},V_{i}$, 使得每一个综合变量是原变量的线性组合, 即:
$$\begin{align}
U_{i}=a_{1}^{(i)} X_{1}^{(1)}+a_{2}^{(i)} X_{2}^{(1)}+\cdots+a_{p}^{(i)} X_{p}^{(1)} \triangleq \mathbf{a}^{(i)} \mathbf{X}^{(1)} \\
V_{i}=b_{1}^{(i)} X_{1}^{(2)}+b_{2}^{(i)} X_{2}^{(2)}+\cdots+b_{q}^{(i)} X_{q}^{(2)} \triangleq \mathbf{b}^{(i)} \mathbf{X}^{(2)}
\end{align}
$$
注意: 综合变量的组数是不确定的, 如果第一组就能代表原样本数据大部分的信息, 那么一组就足够了. 但大部分情况下第一组反映的信息不够, 我们就需要找第二组了. 并且为了让第二组的信息更有效, 需要保证两组的信息不相关:
$$\operatorname{cov}\left(U_{1}, U_{2}\right)=\operatorname{cov}\left(V_{1}, V_{2}\right)=0
$$
在 $\operatorname{var}\left(U_{1}\right)=\operatorname{var}\left(V_{1}\right)=1$ 满足的条件下, 找到 $\mathbf{a}^{(1)}, \mathbf{b}^{(1)}$ 的两组系数, 使得 $\rho\left(U_{1}, V_{1}\right)$ 最大. (这里的 $\rho$ 指的是 $\text{Pearson}$ 相关系数.)
为什么要控制这个条件: 因为相关系数与量纲无关
$$\rho\left(U_{1}, V_{1}\right)=\rho\left(a U_{1}, b V_{1}\right) $$