8. Multivariate Probability Distribution

$$\huge\textbf{Multivariate Probability Distribution} $$

1. 多维概率分布

1.1. 联合分布

$def.$ 二维随机变量

设样本空间为 $\Omega = e$$X = X(e)$$Y = Y(e)$是定义在 $\Omega$ 上的随机变量由他们构成的一个变量 $(X,Y)$ 叫做二维随机变量或二维随机向量

$def.$ 联合分布

$(X,Y)$ 是二维随机变量 $x,y$ 是任意实数称二元函数

$$F(x,y) = P(X\leq x\cap Y\leq y) = P(X\leq x,Y\leq y) $$

为二元随机变量 $(X,Y)$ 的联合分布函数

$def.$ 二维离散随机变量概率分布律

若二维随机变量的可能取值只有有限个或者可列无穷个则称二维随机变量为离散型随机变量二维离散型随机变量 $(X,Y)$ 的所有可能取值为 $(x_i,y_i),(i=1,2,…,n)$则称

$$P\{X = x_i,Y = y_i\} = p_{ij} $$

为二维离散行随机变量 $(X,Y)$ 的概率分布律简称分布律

注意二维离散随机变量的概率分布仍然满足概率的公理化定义非负性规范性可列可加性级数

$def.$ 二位连续随机变量的概率密度

设二维随机变量 $(X,Y)$ 的分布函数为 $F(x,y)$如果存在非负函数 $f(x,y)$使得 $\forall x,y\in\mathbb{R}$都有

$$F(x,y) = \int_{-\infty}^{x}\int_{-\infty}^{y}f(s,t)dsdt $$

则称 $(X,Y)$ 为二位连续随机变量并称非负函数 $f(x,y)$$(X,Y)$ 的概率密度函数或称 $f(x,y)$$X$$Y$ 的联合概率密度.

注意二维连续随机变量的概率分布仍然满足概率的公理化定义非负性规范性可列可加性级数在此基础上我们还有

$$f(x,y) = \frac{\partial^2F(x,y)}{\partial x\partial y} $$

1.2. 边缘分布

$def.$ 二维随机变量的边缘分布

$(X,Y)$ 为二维随机变量称一维随机变量 $X$$Y$ 的概率分布为二维随机变量 $(X,Y)$ 关于 $X$$Y$ 对应的边缘分布分别记作 $F_X(x), F_Y(y)$

$def.$ 二维离散随机变量的边缘分布律

设二维随机变量 $(X,Y)$ 的分布律为 $p_{ij}$那么对于随机变量 $X$$Y$ 其各自的分布律对于固定的 $i,j = 1,2,…$ 满足

$$P\{X=x_i\} = \sum_jp_{ij}=p_i $$

则称 $p_i$ 为随机变量 $(X,Y)$ 的边缘分布律

$def.$ 二维连续随机变量的边缘概率密度

设二维随机变量 $(X,Y)$ 的概率密度为 $f(x,y)$边缘概率密度 $f_X(x)$$f_Y(y)$ 定义为

$$\begin{align} &f_X(x) = \int_{-\infty}^{+\infty}f(x,y)dy\\ &f_Y(y) = \int_{-\infty}^{+\infty}f(x,y)dx \end{align} $$

1.3. 条件分布

$def.$ 离散型随机变量的条件概率

$(X,Y)$ 是二维离散型随机变量其分布律为 $P\{X=x_i,Y=y_i\}=p_{ij}$其边缘概率分别为 $p_{i\cdot}\ p_{\cdot j}$则条件概率定义为

$$\begin{align} &P\{X=x_i|Y=y_i\}=\frac{P\{X=x_i,Y=y_i\}}{P\{Y=y_i\}} = \frac{p_{ij}}{p_{\cdot j}}\\ &P\{Y=y_i|X=x_i\}=\frac{P\{X=x_i,Y=y_i\}}{P\{X=x_i\}} = \frac{p_{ij}}{p_{i \cdot}} \end{align} $$

$def.$ 连续型随机变量的条件概率

$(X,Y)$ 是二维连续型随机变量其概率密度为 $f(x,y)$其边缘改率分别为 $f_X(x), f_Y(y)$则条件概率定义为

$$\begin{align} &f_{X|Y}(x|y) = \frac{f(x,y)}{f_Y(y)}\\ &f_{Y|X}(y|x) = \frac{f(x,y)}{f_X(x)}\\ \end{align} $$

连续型随机变量的条件概率分布定义为

$$\begin{align} &F_{X|Y}(x|y) = P\{X\leq x|Y=y\}=\int_{-\infty}^{x}\frac{f(x,y)}{f_Y(y)}dx\\ &F_{Y|X}(y|x) = P\{Y\leq y|X=x\}=\int_{-\infty}^{y}\frac{f(x,y)}{f_X(x)}dy\\ \end{align} $$

1.4. 独立性

$def.$ 独立性

二维随机变量 $(X,Y)$ 的分布函数及其边缘分布函数分别设为 $F(x,y)$$F_X(x),\ F_Y(y)$

$$\forall (x,y):F(x,y) = F_X(x)F_Y(y) $$

则称随机变量 $X$$Y$ 是相互独立的

$def.$ 离散随机变量的独立性

离散二维随机变量 $(X,Y)$ 的联合分布律和边缘分布律分别设为 $p_{ij}$$p_{i\cdot},\ p_{\cdot j}$

$$\forall (i<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>j):p_{ij} = p_{i\cdot}\times p_{\cdot j} $$

则称随机变量 $X$$Y$ 是相互独立的

$def.$ 连续随机变量的独立性

连续二维随机变量 $(X,Y)$ 的联合分布律和边缘分布律分别设为 $f(x,y)$$f_X(x),\ f_Y(y)$

$$\forall (x,y):f(x,y) = f_X(x)\times f_Y(y) $$

则称随机变量 $X$$Y$ 是相互独立的

2. 多维分布的矩

2.1. 独立性的多维矩

$thm.$ 已知 $X$$Y$ 相互独立则有

$$E(XY) = E(X)E(Y) $$

$thm.$ 已知 $X$$Y$ 相互独立则有

$$D(X+Y) = D(X) + D(Y) $$

2.2. 相关性的多维矩

$def.$ 协方差

随机变量 $X$$Y$ 的协方差定义为

$$\operatorname{Cov}(X,Y)\triangleq E(X-E(X))E(Y-E(Y)) $$

$def.$ 协方差计算

$$\operatorname{Cov}(X,Y) = E(XY)-E(X)E(Y) $$

$inf.$ 对于任意随机变量 $X,Y,Z$不难得出

$$\begin{align} \operatorname{Cov}(X,Y)&=Cov(Y,X)\\ \operatorname{Cov}(a,a)&=0\\ \operatorname{Cov}(aX,bY)&=ab\operatorname{Cov}(X,Y)\\ \operatorname{Cov}(X+Y,Z)&=\operatorname{Cov}(X,Z)+\operatorname{Cov}(Y,Z) \end{align} $$

$inf.$ 对于任意随机变量 $X,Y:$

$$D(X\pm Y)=D(X)+D(Y)\pm 2\operatorname{Cov}(X,Y) $$

$inf.$$X$$Y$ 相互独立

$$\operatorname{Cov}(X,Y) = 0 $$

$def.$ $\text{Pearson}$ 相关系数

关于 $\text{Pearson}$ 相关系数的更具体的介绍, 可以查看我的这篇文章

协方差的数值会收到 $X,Y$ 的量纲的影响为了更加客观地度量变量之间的关系我们将协方差归一化定义为相关系数若随机变量 $X$$Y$ 的数学期望和方差都存在则称

$$\rho_{XY}=\frac{\operatorname{Cov}(X,Y)}{\sqrt{D(X)D(Y)}}\\ $$

为随机变量 $X$$Y$ 的相关系数

$def.$ $\text{Schwarz}$ 不等式

$$\operatorname{Cov}^2(X,Y)\leq \sigma^2_X\sigma^2_Y\\ $$

$inf.$ 相关系数归一性

$$|\rho_{XY}|\leq 1\\ $$

$thm.$ 线性相关定理

$|\rho_{XY}|=1$ 的充要条件是 $X,Y$ 几乎处处线性相关

3. Common Bivariate Distributions

3.1. Bivariate Uniform Distribution

$def.$ 二维均匀分布

$G$ 是平面上的有界闭区域其面积为 $A$若二维随机变量 $(X,Y)$ 具有概率密度

$$\begin{align} &\forall(x,y)\in G:f(x,y)=\frac{1}{A}\\ &\forall(x,y)\not \in G:f(x,y) = 0\\ \end{align} $$

则称 $(X,Y)$$G$ 上二维均匀分布

3.2. Bivariate Normal Distribution

如果随机变量 $(X,Y)$ 的概率密度为

$$\begin{gather} &f(x,y) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\exp\left({-\frac{1}{2(1-\rho)^2}\bigg[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}\bigg]}\right)\\ &(-\infty<x,y<+\infty)\\ \end{gather} $$

则称 $(X,Y)$ 服从参数为 $\mu_1,\mu_2,\sigma_1,\sigma_2,\rho$ 的二维正态分布记为

$$(X,Y)\sim \mathbb{N}(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\\ $$

实际上, Multivariate Normal distribution 的形式也是高度类似的. 如果 $d$ 维随机变量 $\boldsymbol X=(X_1,X_2,\ldots,X_d)^{\mathsf T}$ 服从 Normal Distribution, 那我们记作

$$\boldsymbol X\sim\mathbb N(\boldsymbol \mu,\Sigma) $$

概率密度函数 (PDF) 为

$$f_{X}\left(\boldsymbol x\right)=\frac{\exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\mathsf T} \Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right)}{\sqrt{(2 \pi)^{d}| \Sigma|}} $$

其中:

  • $\boldsymbol \mu\in \mathbb R^d$$\boldsymbol x\in \mathbb R^d$ 的均值向量
  • $\boldsymbol \Sigma\in \mathbb R^{d\times d}$$\boldsymbol x\in \mathbb R^d$ 的协方差矩阵

实际上, $\sqrt{(\boldsymbol{x}-\boldsymbol{\mu})^{\mathsf T} \Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu}})$ 叫做马哈拉诺比斯距离 ($\text{Mahalanobis}$ Distance)

4. 函数的概率分布

4.1. 离散函数的分布

4.2. 连续函数的分布

$thm.$ 函数的分布定理

$X$ 的密度函数为 $f_X(x)$$-\infty<x<+\infty$$Y = g(X)$ 严格单调$g'(x)>0 $$ g'(x)<0$$Y$ 的密度函数为

$$f_Y(x) = f_X(h(y))|h'(y)|\quad (a<y<b) $$

其中

$$\begin{align} &a = \min(g(-\infty),g(+\infty))\\ &b = \max(g(-\infty),\ g(+\infty))\\ &h(y) = g^{-1}(x) \end{align} $$

4.3. 极值函数的分布