5. Sampling Distribution

$$\huge\textbf{Sampling Distribution} $$

1. Sampling

1.1. Data Analysis

  1. 全体数据 $\rightarrow$ 整体结论
  2. 全体数据 $\rightarrow$ 样本数据 $\rightarrow$ 样本结论 $\rightarrow$ 整体结论

1.2. Sampling Methods

  1. 简单随机抽样

  2. 系统抽样

  3. 整群抽样

  4. 分层抽样

2. Moment and Sampling Distribution

2.1. Moment and Statistics

$thm.$ 统计量抽样收敛定理

设总体 $X$ 的均值是 $\mu$ ,方差为 $\sigma^2$$X_i(i = 1,2,…,n)$$X$ 的一个样本,则:

(1)$E(\overline{X}) = \mu$$\overline X$$\mu$ 的无偏估计)

(2)$Var(\overline{X})=\frac{\sigma^2}{n}$

(3)$E(S^2)=\sigma^2$$S^2$$\sigma^2$ 的无偏估计)

其中,$S^2$ 要考虑偏差,有 $S^2 = \displaystyle \frac{1}{n - 1}\displaystyle\sum_{i = 1}^{n}(X_i - \overline{X})^2$

2.2. Sampling Distribution

抽样分布的种类

目前已知的抽样分布就多大几十种,但是常见的抽样分布只有四种:$\text{Gauss}$ 分布,$t$ 分布,$F$ 分布,$\chi^2$ 分布

3. Limit Theorem

$thm.$ $\text{Markov}$ Inequality

$X$ 是非负随机变量且具有数学期望 $E(X)$ ,则 $\forall{\varepsilon} > 0$,有:

$$P(X\geq\varepsilon)\leq\frac{E(X)}{\varepsilon} $$

$thm.$ $\text{Chebyshev}$ Inequalities

设随机变量 $X$ 具有数学期望 $E(X)=\mu$$Var(X) = \sigma^2$ ,则 $\forall{\varepsilon} > 0$ ,有:

$$P(|x-\mu|\geq\varepsilon)\leq\frac{\sigma^2}{\varepsilon^2} $$

3.2. Law of large numbers

大数定律的最基本的原理是如下的这个等式:

$$V(X)=0 \iff P(X=E(X)) = 1 $$

$\text{Bernoulli}$ LLN

$X_n\sim\mathbb{B}(n,\ p)$$\forall\varepsilon>0$,有:

$$\displaystyle{\lim_{n\rightarrow\infty}}P(|\frac{x_n}{n}-p|<\varepsilon)=1 $$

$\text{Chebyshev}$ LLN

$X_i(i = 1,2,…,n)$为独立同分布随机变量,数学期望 $E(X) = \mu$ 和有限的方差 $Var(X_i) = \sigma_i^2$$\forall\ \varepsilon>0$,有:

$$\displaystyle{\lim_{n\rightarrow\infty}}P(|\frac{1}{n}\sum_{i=1}^{n}X_i-\frac{1}{n}\sum_{i=1}^{n}EX_i|<\varepsilon)=1 $$

$\text{Khinchin}$ LLN

$X_i(i = 1,2,…,n)$$X$ 的独立同分布随机变量,数学期望 $E(X_i) = \mu$ 存在,$\forall\ \varepsilon>0$,有:

$$\displaystyle{\lim_{n\rightarrow\infty}}P(|\frac{1}{n}\sum_{i=1}^{n}X_i-\mu|<\varepsilon)=1 $$

Weak LLN

$X_i(i = 1,2,…,n)$ 为独立同分布随机变量,数学期望 $E(X)$ 存在,则 $\overline{X}_n$ 依概率收敛于 $EX$ ,即 $\forall\ \varepsilon >0$,有:

$$\displaystyle{\lim_{n\rightarrow\infty}}P(|\frac{x_n}{n}-p|<\varepsilon)=1 $$

3.3. Central Limit Theorems

$\text{De Moivre-Laplace}$ CLT

$X_n\sim\mathbb{B}(n,\ p)$ ,则:

$$\lim_{n\rightarrow\infty}P(\frac{X_n-np}{\sqrt{np(1-p)}}\leq{x})=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{\frac{-t^2}{2}}dt $$

$thm.$ $\text{Lindeberg-Levy}$ Theorem

$\text{Lindeberg-Levy}$ Theorem 讨论独立同分布的中心极限定理

$X_i(i = 1,2,…,n)$ 为独立同分布随机变量,数学期望 $E(X) = \mu$ 和有限的方差 $Var(X_i) = \sigma_i^2$,随机变量之和 $\displaystyle\sum_{i = 1}^{n}X_i$ ,设:

$$Y_n = \frac{\displaystyle\sum_{i = 1}^{n}X_i-E(\displaystyle\sum_{i = 1}^{n}X_i)}{\sqrt{D(\displaystyle\sum_{i = 1}^{n}X_i)}}=\frac{\displaystyle\sum_{i = 1}^{n}X_i-n\mu}{\sqrt{n}\sigma} $$

则:

$$\lim_{n\rightarrow\infty}P(Y_n\leq{x})=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{\frac{-t^2}{2}}dt=\Phi(x) $$

Normal Distribution Samplings

$X_i$ $(i = 1,2,…,n)$ 是总体 $\mathbb{N}(\mu,\sigma^2)$ 的样本,$\overline{X}$ 是样本均值,则:

$$\overline{X}\sim\mathbb{N}(\mu,\frac{\sigma^2}{n}) $$

4. Common Sampling Distributions

4.1. $\Gamma(\cdot)$

$drf.$ $\Gamma$ function

实数域上 $\Gamma$ 函数定义为:

$$\Gamma(x)=\int_{0}^{+\infty}t^{x-1}e^{-t}dt\ (x>0) $$

$\Gamma$ 函数的重要性质:

$$\begin{align} &\Gamma(n) = (n-1)!\ \ \ n\in\mathbb{N}\\ &\Gamma(1-x)\Gamma(x) =\frac{\pi}{sin\pi{x}}\\ &\Gamma(\frac{1}{2}) =\sqrt{\pi}\\ &\Gamma(x)\rightarrow\sqrt{2\pi}e^{-x}x^{x-\frac{1}{2}}\ \ \ x\rightarrow+\infty \end{align} $$

4.2. $\chi^{2}$ Distribution (Karl Pearson)

$thm.$ $\chi^{2}$ Distribution

$X_i(i = 1,2,…,n)$$\mathbb{N}(0,1)$ 的独立同分布随机变量,则称随机变量:

$$\chi^2 = \sum_{i=1}^{n}X_i^2 $$

为服从自由度为 $n$$\chi^2$ 分布,记为 $\chi^2(n)$


$thm.$ $\chi^{2}$分布可加性

$X_1 \sim \chi^2(n_1)$$X_2 \sim\chi^2(n_2)$,且 $X_1$$X_2$ 相互独立,则:

$$X_1+X_2\sim\chi^2(n_1+n_2) $$

$thm.$ $\chi^{2}$分布的概率密度

$\chi^2(n)$ 分布的概率密度函数为:

$$f(x)=\frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}} $$

$thm.$ $\chi^{2}$分布的是数字特征

$X \sim \chi^2(n)$,则 $E(X)=n$$Var(X)=2n$


$thm.$ 均值抽样分布定理

$X_i$ $(i = 1,2,…,n)$ 是总体 $\mathbb{N}(\mu,\sigma^2)$ 的样本,$\overline{X}$ 是样本均值,则:

$$\overline{X}\sim\mathbb{N}(\mu,\frac{\sigma^2}{n}) $$

$thm.$ 方差抽样分布定理

$X_i$ (i = 1,2,…,n) 是总体 $\mathbb{N}(\mu,\sigma^2)$ 的样本,$S^2$ 是样本方差,则有:

$$\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1) $$

4.3. $t$ 分布 (Gosset)

$def.$ $t$ Distribution

$X\sim\mathbb{N}(0,1)$$Y\sim\chi^2(n)$,且 $X$$Y$ 相互独立,则随机变量

$$t=\frac{X}{\sqrt{\frac{Y}{n}}} $$

称为服从自由度为 $n$$t$ 分布,记为 $t(n)$


$lemma.$ 预备定理

$(X_1$$X_{2})$ 是二维随机变量,其分布密度函数为 $f(x_1,\ x_2)$,且 $X_1$$X_2$ 相互独立,则 $X$ 的分布密度函数为:

$$f_X(x)=f_{x_1}(xx_2)f_{x_2}(x_2)|x_2|dx_2 $$

$thm.$ $t$ 分布密度函数

$t(n)$ 的密度函数为:

$$f(x)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}(1+\frac{x^2}{n})^{-\frac{n+1}{2}} $$

$thm.$ $t$ 分布数字特征

$X\sim t(n)$ ,则:

$$\begin{align} E(X) &= 0\\ Var(X)&=\frac{n}{n-2} \end{align} $$

$thm.$ Symmetry

对于给定的正数 $\alpha\ (0<\alpha<1)$,称满足条件 $P(t>t_{\alpha}(n))=\int_{t_{\alpha}(n)}^{+\infty}f(x)dx=\alpha$ 的点 $t_{\alpha}(n)$ 称为 $t(n)$ 上的 $\alpha$ 分位点。则:

$$t_{1-\alpha}(n)=-t_{\alpha}{(n)} $$

$thm.$ $t$ 分布的正态收敛性

$t_(n)$ 分布的概率密度 $f(x)$ 趋向于标准正态分布的概率密度,即:

$$\lim_{n\rightarrow\infty}f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}, (-\infty<x<+\infty) $$

$thm.$ 均值抽样分布定理

$$X_i\ (i = 1,2,…,n)$$
是总体 $\mathbb{N}(\mu,\sigma^2)$ 的样本,总体方差未知,样本均值和样本方差分别为 $\overline{X}$$S^2$ ,则:

$$\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\sim t(n-1) $$

4.4. $F$ 分布 (Fisher)

$def.$ $F$ Distribution

$X\sim\chi^2(n_1)$$Y\sim\chi^2(n_2)$,且 $X$$Y$ 相互独立,则随机变量

$$F=\frac{\frac{X}{n_1}}{\frac{Y}{n_2}}=\frac{n_2}{n_1}\frac{X}{Y} $$

称为服从自由度为 $n_1,n_2$$F$ 分布,记为 $F(n_1,n_2)$,其中 $n_1$ 称为第一自由度,$n_2$ 称为第二自由度。

$thm.$ $F$ 分布的倒数对称性

$$F_{1-\alpha}(n_1,\ n_2)=\frac{1}{F_{\alpha}(n_1, \ n_2)} $$

$thm.$ $F$ 分布密度函数

$F(n_1, \ n_2)$ 分布的概率密度函数为:

$$f(x;\ n_1,\ n_2) = \frac{\Gamma(\frac{n_1+n_2}{2})}{\Gamma(\frac{n_1}{2})\Gamma(\frac{n_2}{2})}(\frac{n_1}{n_2})^{\frac{n_1}{2}}\frac{x^{\frac{n_1-2}{2}}}{(1+\frac{n_1}{n_2}x)^{\frac{n_1+n_2}{2}}},\ x>0 $$

$thm.$ $F$ 分布数学期望

$X\sim F(n_1,n_2)$,则:

$$E(X)=\frac{n_2}{n_2-2},\ n_2>2\\ Var(X)=\frac{n_2^2(2n_1+2n_2-4)}{n_1(n_2-2)^2(n_2-4)},\ n_2>4 $$

$thm.$ 正态分布逼近定理

$X_{i}\ (i=1,2,…,n_1)$$Y_{i}\ (i=1,2,…,n_2)$ ,是分别来自两正态总体 $\mathbb{N}(\mu_1,\sigma_1^2)$$\mathbb{N}(\mu_2,\sigma_2^2)$,则:

$$\frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim \mathbb{N}(0,\ 1) $$

$thm.$ 方差抽样分布定理

$X_{i}\ (i=1,2,…,n_1)$$Y_{i}\ (i=1,2,…,n_2)$ ,是分别来自两正态总体 $\mathbb{N}(\mu_1,\sigma_1^2)$$\mathbb{N}(\mu_2,\sigma_2^2)$$S_1^2,\ S_2^2 $ 分别为两样本方差,则:

$$\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,\ n_2-1) $$