$$\huge\textbf{Multivariate Probability Distribution}
$$
1. 多维概率分布
1.1. 联合分布
$def.$ 二维随机变量
设样本空间为 $\Omega = e$,$X = X(e)$,和 $Y = Y(e)$,是定义在 $\Omega$ 上的随机变量,由他们构成的一个变量 $(X,Y)$ 叫做二维随机变量或二维随机向量
$def.$ 联合分布
设 $(X,Y)$ 是二维随机变量, $x,y$ 是任意实数,称二元函数
$$F(x,y) = P(X\leq x\cap Y\leq y) = P(X\leq x,Y\leq y)
$$
为二元随机变量 $(X,Y)$ 的联合分布函数
$def.$ 二维离散随机变量概率分布律
若二维随机变量的可能取值只有有限个或者可列无穷个,则称二维随机变量为离散型随机变量。二维离散型随机变量 $(X,Y)$ 的所有可能取值为 $(x_i,y_i),(i=1,2,…,n)$,则称
$$P\{X = x_i,Y = y_i\} = p_{ij}
$$
为二维离散行随机变量 $(X,Y)$ 的概率分布律,简称分布律
注意,二维离散随机变量的概率分布仍然满足概率的公理化定义:非负性,规范性,可列可加性(级数)
$def.$ 二位连续随机变量的概率密度
设二维随机变量 $(X,Y)$ 的分布函数为 $F(x,y)$,如果存在非负函数 $f(x,y)$,使得 $\forall x,y\in\mathbb{R}$,都有
$$F(x,y) = \int_{-\infty}^{x}\int_{-\infty}^{y}f(s,t)dsdt
$$
则称 $(X,Y)$ 为二位连续随机变量,并称非负函数 $f(x,y)$ 为 $(X,Y)$ 的概率密度函数,或称 $f(x,y)$ 为 $X$ 和 $Y$ 的联合概率密度.
注意,二维连续随机变量的概率分布仍然满足概率的公理化定义:非负性,规范性,可列可加性(级数),在此基础上,我们还有
$$f(x,y) = \frac{\partial^2F(x,y)}{\partial x\partial y}
$$
1.2. 边缘分布
$def.$ 二维随机变量的边缘分布
设 $(X,Y)$ 为二维随机变量,称一维随机变量 $X$ 或 $Y$ 的概率分布为二维随机变量 $(X,Y)$ 关于 $X$ 或 $Y$ 对应的边缘分布,分别记作 $F_X(x), F_Y(y)$
$def.$ 二维离散随机变量的边缘分布律
设二维随机变量 $(X,Y)$ 的分布律为 $p_{ij}$,那么对于随机变量 $X$,$Y$ 其各自的分布律对于固定的 $i,j = 1,2,…$, 满足
$$P\{X=x_i\} = \sum_jp_{ij}=p_i
$$
则称 $p_i$ 为随机变量 $(X,Y)$ 的边缘分布律。
$def.$ 二维连续随机变量的边缘概率密度
设二维随机变量 $(X,Y)$ 的概率密度为 $f(x,y)$,边缘概率密度 $f_X(x)$ 和 $f_Y(y)$ 定义为
$$\begin{align}
&f_X(x) = \int_{-\infty}^{+\infty}f(x,y)dy\\
&f_Y(y) = \int_{-\infty}^{+\infty}f(x,y)dx
\end{align}
$$
1.3. 条件分布
$def.$ 离散型随机变量的条件概率
设 $(X,Y)$ 是二维离散型随机变量,其分布律为 $P\{X=x_i,Y=y_i\}=p_{ij}$,其边缘概率分别为 $p_{i\cdot}\ p_{\cdot j}$,则条件概率定义为
$$\begin{align}
&P\{X=x_i|Y=y_i\}=\frac{P\{X=x_i,Y=y_i\}}{P\{Y=y_i\}} = \frac{p_{ij}}{p_{\cdot j}}\\
&P\{Y=y_i|X=x_i\}=\frac{P\{X=x_i,Y=y_i\}}{P\{X=x_i\}} = \frac{p_{ij}}{p_{i \cdot}}
\end{align}
$$
$def.$ 连续型随机变量的条件概率
设 $(X,Y)$ 是二维连续型随机变量,其概率密度为 $f(x,y)$,其边缘改率分别为 $f_X(x), f_Y(y)$,则条件概率定义为
$$\begin{align}
&f_{X|Y}(x|y) = \frac{f(x,y)}{f_Y(y)}\\
&f_{Y|X}(y|x) = \frac{f(x,y)}{f_X(x)}\\
\end{align}
$$
连续型随机变量的条件概率分布定义为
$$\begin{align}
&F_{X|Y}(x|y) = P\{X\leq x|Y=y\}=\int_{-\infty}^{x}\frac{f(x,y)}{f_Y(y)}dx\\
&F_{Y|X}(y|x) = P\{Y\leq y|X=x\}=\int_{-\infty}^{y}\frac{f(x,y)}{f_X(x)}dy\\
\end{align}
$$
1.4. 独立性
$def.$ 独立性
二维随机变量 $(X,Y)$ 的分布函数及其边缘分布函数分别设为 $F(x,y)$ 和 $F_X(x),\ F_Y(y)$,若
$$\forall (x,y):F(x,y) = F_X(x)F_Y(y)
$$
则称随机变量 $X$ 和 $Y$ 是相互独立的
$def.$ 离散随机变量的独立性
离散二维随机变量 $(X,Y)$ 的联合分布律和边缘分布律分别设为 $p_{ij}$ 和 $p_{i\cdot},\ p_{\cdot j}$,若
$$\forall (i<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>j):p_{ij} = p_{i\cdot}\times p_{\cdot j}
$$
则称随机变量 $X$ 和 $Y$ 是相互独立的
$def.$ 连续随机变量的独立性
连续二维随机变量 $(X,Y)$ 的联合分布律和边缘分布律分别设为 $f(x,y)$ 和 $f_X(x),\ f_Y(y)$,若
$$\forall (x,y):f(x,y) = f_X(x)\times f_Y(y)
$$
则称随机变量 $X$ 和 $Y$ 是相互独立的
2. 多维分布的矩
2.1. 独立性的多维矩
$thm.$ 已知 $X$ 和 $Y$ 相互独立,则有:
$$E(XY) = E(X)E(Y)
$$
$thm.$ 已知 $X$ 和 $Y$ 相互独立,则有:
$$D(X+Y) = D(X) + D(Y)
$$
2.2. 相关性的多维矩
$def.$ 协方差
随机变量 $X$ 和 $Y$ 的协方差定义为
$$\operatorname{Cov}(X,Y)\triangleq E(X-E(X))E(Y-E(Y))
$$
$def.$ 协方差计算
$$\operatorname{Cov}(X,Y) = E(XY)-E(X)E(Y)
$$
$inf.$ 对于任意随机变量 $X,Y,Z$,不难得出:
$$\begin{align}
\operatorname{Cov}(X,Y)&=Cov(Y,X)\\
\operatorname{Cov}(a,a)&=0\\
\operatorname{Cov}(aX,bY)&=ab\operatorname{Cov}(X,Y)\\
\operatorname{Cov}(X+Y,Z)&=\operatorname{Cov}(X,Z)+\operatorname{Cov}(Y,Z)
\end{align}
$$
$inf.$ 对于任意随机变量 $X,Y:$
$$D(X\pm Y)=D(X)+D(Y)\pm 2\operatorname{Cov}(X,Y)
$$
$inf.$ 若 $X$ 与 $Y$ 相互独立,则:
$$\operatorname{Cov}(X,Y) = 0
$$
$def.$ $\text{Pearson}$ 相关系数
关于 $\text{Pearson}$ 相关系数的更具体的介绍, 可以查看我的这篇文章
协方差的数值会收到 $X,Y$ 的量纲的影响,为了更加客观地度量变量之间的关系,我们将协方差归一化,定义为相关系数。若随机变量 $X$ 和 $Y$ 的数学期望和方差都存在,则称:
$$\rho_{XY}=\frac{\operatorname{Cov}(X,Y)}{\sqrt{D(X)D(Y)}}\\
$$
为随机变量 $X$ 和 $Y$ 的相关系数
$def.$ $\text{Schwarz}$ 不等式
$$\operatorname{Cov}^2(X,Y)\leq \sigma^2_X\sigma^2_Y\\
$$
$inf.$ 相关系数归一性
$$|\rho_{XY}|\leq 1\\
$$
$thm.$ 线性相关定理
$|\rho_{XY}|=1$ 的充要条件是 $X,Y$ 几乎处处线性相关
3. Common Bivariate Distributions
$def.$ 二维均匀分布
设 $G$ 是平面上的有界闭区域,其面积为 $A$,若二维随机变量 $(X,Y)$ 具有概率密度
$$\begin{align}
&\forall(x,y)\in G:f(x,y)=\frac{1}{A}\\
&\forall(x,y)\not \in G:f(x,y) = 0\\
\end{align}
$$
则称 $(X,Y)$ 在 $G$ 上二维均匀分布
3.2. Bivariate Normal Distribution
如果随机变量 $(X,Y)$ 的概率密度为
$$\begin{gather}
&f(x,y) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\exp\left({-\frac{1}{2(1-\rho)^2}\bigg[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}\bigg]}\right)\\
&(-\infty<x,y<+\infty)\\
\end{gather}
$$
则称 $(X,Y)$ 服从参数为 $\mu_1,\mu_2,\sigma_1,\sigma_2,\rho$ 的二维正态分布,记为
$$(X,Y)\sim \mathbb{N}(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\\
$$
实际上, Multivariate Normal distribution 的形式也是高度类似的. 如果 $d$ 维随机变量 $\boldsymbol X=(X_1,X_2,\ldots,X_d)^{\mathsf T}$ 服从 Normal Distribution, 那我们记作
$$\boldsymbol X\sim\mathbb N(\boldsymbol \mu,\Sigma)
$$
概率密度函数 (PDF) 为
$$f_{X}\left(\boldsymbol x\right)=\frac{\exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\mathsf T} \Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right)}{\sqrt{(2 \pi)^{d}| \Sigma|}}
$$
其中:
- $\boldsymbol \mu\in \mathbb R^d$ 为 $\boldsymbol x\in \mathbb R^d$ 的均值向量
- $\boldsymbol \Sigma\in \mathbb R^{d\times d}$ 为 $\boldsymbol x\in \mathbb R^d$ 的协方差矩阵
实际上, $\sqrt{(\boldsymbol{x}-\boldsymbol{\mu})^{\mathsf T} \Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu}})$ 叫做马哈拉诺比斯距离 ($\text{Mahalanobis}$ Distance)
4. 函数的概率分布
4.1. 离散函数的分布
4.2. 连续函数的分布
$thm.$ 函数的分布定理
$X$ 的密度函数为 $f_X(x)$,$-\infty<x<+\infty$,$Y = g(X)$ 严格单调,即 $g'(x)>0 $ 或 $ g'(x)<0$,则 $Y$ 的密度函数为:
$$f_Y(x) = f_X(h(y))|h'(y)|\quad (a<y<b)
$$
其中
$$\begin{align}
&a = \min(g(-\infty),g(+\infty))\\ &b = \max(g(-\infty),\ g(+\infty))\\ &h(y) = g^{-1}(x)
\end{align}
$$
4.3. 极值函数的分布