8. Multivariate Probability Distribution

$$\huge\textbf{Multivariate Probability Distribution} $$

1. 多维概率分布

1.1. 联合分布

$def.$ 二维随机变量

设样本空间为 $\Omega = e$$X = X(e)$,和 $Y = Y(e)$,是定义在 $\Omega$ 上的随机变量,由他们构成的一个变量 $(X,Y)$ 叫做二维随机变量或二维随机向量

$def.$ 联合分布

$(X,Y)$ 是二维随机变量, $x,y$ 是任意实数,称二元函数

$$F(x,y) = P(X\leq x\cap Y\leq y) = P(X\leq x,Y\leq y) $$

为二元随机变量 $(X,Y)$ 的联合分布函数

$def.$ 二维离散随机变量概率分布律

若二维随机变量的可能取值只有有限个或者可列无穷个,则称二维随机变量为离散型随机变量。二维离散型随机变量 $(X,Y)$ 的所有可能取值为 $(x_i,y_i),(i=1,2,…,n)$,则称

$$P\{X = x_i,Y = y_i\} = p_{ij} $$

为二维离散行随机变量 $(X,Y)$ 的概率分布律,简称分布律

注意,二维离散随机变量的概率分布仍然满足概率的公理化定义:非负性,规范性,可列可加性(级数)

$def.$ 二位连续随机变量的概率密度

设二维随机变量 $(X,Y)$ 的分布函数为 $F(x,y)$,如果存在非负函数 $f(x,y)$,使得 $\forall x,y\in\mathbb{R}$,都有

$$F(x,y) = \int_{-\infty}^{x}\int_{-\infty}^{y}f(s,t)dsdt $$

则称 $(X,Y)$ 为二位连续随机变量,并称非负函数 $f(x,y)$$(X,Y)$ 的概率密度函数,或称 $f(x,y)$$X$$Y$ 的联合概率密度.

注意,二维连续随机变量的概率分布仍然满足概率的公理化定义:非负性,规范性,可列可加性(级数),在此基础上,我们还有

$$f(x,y) = \frac{\partial^2F(x,y)}{\partial x\partial y} $$

1.2. 边缘分布

$def.$ 二维随机变量的边缘分布

$(X,Y)$ 为二维随机变量,称一维随机变量 $X$$Y$ 的概率分布为二维随机变量 $(X,Y)$ 关于 $X$$Y$ 对应的边缘分布,分别记作 $F_X(x), F_Y(y)$

$def.$ 二维离散随机变量的边缘分布律

设二维随机变量 $(X,Y)$ 的分布律为 $p_{ij}$,那么对于随机变量 $X$$Y$ 其各自的分布律对于固定的 $i,j = 1,2,…$, 满足

$$P\{X=x_i\} = \sum_jp_{ij}=p_i $$

则称 $p_i$ 为随机变量 $(X,Y)$ 的边缘分布律。

$def.$ 二维连续随机变量的边缘概率密度

设二维随机变量 $(X,Y)$ 的概率密度为 $f(x,y)$,边缘概率密度 $f_X(x)$$f_Y(y)$ 定义为

$$\begin{align} &f_X(x) = \int_{-\infty}^{+\infty}f(x,y)dy\\ &f_Y(y) = \int_{-\infty}^{+\infty}f(x,y)dx \end{align} $$

1.3. 条件分布

$def.$ 离散型随机变量的条件概率

$(X,Y)$ 是二维离散型随机变量,其分布律为 $P\{X=x_i,Y=y_i\}=p_{ij}$,其边缘概率分别为 $p_{i\cdot}\ p_{\cdot j}$,则条件概率定义为

$$\begin{align} &P\{X=x_i|Y=y_i\}=\frac{P\{X=x_i,Y=y_i\}}{P\{Y=y_i\}} = \frac{p_{ij}}{p_{\cdot j}}\\ &P\{Y=y_i|X=x_i\}=\frac{P\{X=x_i,Y=y_i\}}{P\{X=x_i\}} = \frac{p_{ij}}{p_{i \cdot}} \end{align} $$

$def.$ 连续型随机变量的条件概率

$(X,Y)$ 是二维连续型随机变量,其概率密度为 $f(x,y)$,其边缘改率分别为 $f_X(x), f_Y(y)$,则条件概率定义为

$$\begin{align} &f_{X|Y}(x|y) = \frac{f(x,y)}{f_Y(y)}\\ &f_{Y|X}(y|x) = \frac{f(x,y)}{f_X(x)}\\ \end{align} $$

连续型随机变量的条件概率分布定义为

$$\begin{align} &F_{X|Y}(x|y) = P\{X\leq x|Y=y\}=\int_{-\infty}^{x}\frac{f(x,y)}{f_Y(y)}dx\\ &F_{Y|X}(y|x) = P\{Y\leq y|X=x\}=\int_{-\infty}^{y}\frac{f(x,y)}{f_X(x)}dy\\ \end{align} $$

1.4. 独立性

$def.$ 独立性

二维随机变量 $(X,Y)$ 的分布函数及其边缘分布函数分别设为 $F(x,y)$$F_X(x),\ F_Y(y)$,若

$$\forall (x,y):F(x,y) = F_X(x)F_Y(y) $$

则称随机变量 $X$$Y$ 是相互独立的

$def.$ 离散随机变量的独立性

离散二维随机变量 $(X,Y)$ 的联合分布律和边缘分布律分别设为 $p_{ij}$$p_{i\cdot},\ p_{\cdot j}$,若

$$\forall (i,j):p_{ij} = p_{i\cdot}\times p_{\cdot j} $$

则称随机变量 $X$$Y$ 是相互独立的

$def.$ 连续随机变量的独立性

连续二维随机变量 $(X,Y)$ 的联合分布律和边缘分布律分别设为 $f(x,y)$$f_X(x),\ f_Y(y)$,若

$$\forall (x,y):f(x,y) = f_X(x)\times f_Y(y) $$

则称随机变量 $X$$Y$ 是相互独立的

2. 多维分布的矩

2.1. 独立性的多维矩

$thm.$ 已知 $X$$Y$ 相互独立,则有:

$$E(XY) = E(X)E(Y) $$

$thm.$ 已知 $X$$Y$ 相互独立,则有:

$$D(X+Y) = D(X) + D(Y) $$

2.2. 相关性的多维矩

$def.$ 协方差

随机变量 $X$$Y$ 的协方差定义为

$$\operatorname{Cov}(X,Y)\triangleq E(X-E(X))E(Y-E(Y)) $$

$def.$ 协方差计算

$$\operatorname{Cov}(X,Y) = E(XY)-E(X)E(Y) $$

$inf.$ 对于任意随机变量 $X,Y,Z$,不难得出:

$$\begin{align} \operatorname{Cov}(X,Y)&=Cov(Y,X)\\ \operatorname{Cov}(a,a)&=0\\ \operatorname{Cov}(aX,bY)&=ab\operatorname{Cov}(X,Y)\\ \operatorname{Cov}(X+Y,Z)&=\operatorname{Cov}(X,Z)+\operatorname{Cov}(Y,Z) \end{align} $$

$inf.$ 对于任意随机变量 $X,Y:$

$$D(X\pm Y)=D(X)+D(Y)\pm 2\operatorname{Cov}(X,Y) $$

$inf.$$X$$Y$ 相互独立,则:

$$\operatorname{Cov}(X,Y) = 0 $$

$def.$ $\text{Pearson}$ 相关系数

关于 $\text{Pearson}$ 相关系数的更具体的介绍, 可以查看我的这篇文章

协方差的数值会收到 $X,Y$ 的量纲的影响,为了更加客观地度量变量之间的关系,我们将协方差归一化,定义为相关系数。若随机变量 $X$$Y$ 的数学期望和方差都存在,则称:

$$\rho_{XY}=\frac{\operatorname{Cov}(X,Y)}{\sqrt{D(X)D(Y)}}\\ $$

为随机变量 $X$$Y$ 的相关系数

$def.$ $\text{Schwarz}$ 不等式

$$\operatorname{Cov}^2(X,Y)\leq \sigma^2_X\sigma^2_Y\\ $$

$inf.$ 相关系数归一性

$$|\rho_{XY}|\leq 1\\ $$

$thm.$ 线性相关定理

$|\rho_{XY}|=1$ 的充要条件是 $X,Y$ 几乎处处线性相关

3. Common Bivariate Distributions

3.1. Bivariate Uniform Distribution

$def.$ 二维均匀分布

$G$ 是平面上的有界闭区域,其面积为 $A$,若二维随机变量 $(X,Y)$ 具有概率密度

$$\begin{align} &\forall(x,y)\in G:f(x,y)=\frac{1}{A}\\ &\forall(x,y)\not \in G:f(x,y) = 0\\ \end{align} $$

则称 $(X,Y)$$G$ 上二维均匀分布

3.2. Bivariate Normal Distribution

如果随机变量 $(X,Y)$ 的概率密度为

$$\begin{gather} &f(x,y) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\exp\left({-\frac{1}{2(1-\rho)^2}\bigg[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}\bigg]}\right)\\ &(-\infty<x,y<+\infty)\\ \end{gather} $$

则称 $(X,Y)$ 服从参数为 $\mu_1,\mu_2,\sigma_1,\sigma_2,\rho$ 的二维正态分布,记为

$$(X,Y)\sim \mathbb{N}(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\\ $$

实际上, Multivariate Normal distribution 的形式也是高度类似的. 如果 $d$ 维随机变量 $\boldsymbol X=(X_1,X_2,\ldots,X_d)^{\mathsf T}$ 服从 Normal Distribution, 那我们记作

$$\boldsymbol X\sim\mathbb N(\boldsymbol \mu,\Sigma) $$

概率密度函数 (PDF) 为

$$f_{X}\left(\boldsymbol x\right)=\frac{\exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\mathsf T} \Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right)}{\sqrt{(2 \pi)^{d}| \Sigma|}} $$

其中:

  • $\boldsymbol \mu\in \mathbb R^d$$\boldsymbol x\in \mathbb R^d$ 的均值向量
  • $\boldsymbol \Sigma\in \mathbb R^{d\times d}$$\boldsymbol x\in \mathbb R^d$ 的协方差矩阵

实际上, $\sqrt{(\boldsymbol{x}-\boldsymbol{\mu})^{\mathsf T} \Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu}})$ 叫做马哈拉诺比斯距离 ($\text{Mahalanobis}$ Distance)

4. 函数的概率分布

4.1. 离散函数的分布

4.2. 连续函数的分布

$thm.$ 函数的分布定理

$X$ 的密度函数为 $f_X(x)$$-\infty<x<+\infty$$Y = g(X)$ 严格单调,即 $g'(x)>0 $$ g'(x)<0$,则 $Y$ 的密度函数为:

$$f_Y(x) = f_X(h(y))|h'(y)|\quad (a<y<b) $$

其中

$$\begin{align} &a = \min(g(-\infty),g(+\infty))\\ &b = \max(g(-\infty),\ g(+\infty))\\ &h(y) = g^{-1}(x) \end{align} $$

4.3. 极值函数的分布