$$\huge\textbf{Sampling Distribution}
$$
1. Sampling
1.1. Data Analysis
- 全体数据 $\rightarrow$ 整体结论
- 全体数据 $\rightarrow$ 样本数据 $\rightarrow$ 样本结论 $\rightarrow$ 整体结论
1.2. Sampling Methods
-
简单随机抽样
-
系统抽样
-
整群抽样
-
分层抽样
2. Moment and Sampling Distribution
2.1. Moment and Statistics
$thm.$ 统计量抽样收敛定理
设总体 $X$ 的均值是 $\mu$ ,方差为 $\sigma^2$ ,$X_i(i = 1,2,…,n)$ 为 $X$ 的一个样本,则:
(1)$E(\overline{X}) = \mu$ ( $\overline X$是 $\mu$ 的无偏估计)
(2)$Var(\overline{X})=\frac{\sigma^2}{n}$
(3)$E(S^2)=\sigma^2$ ($S^2$ 是 $\sigma^2$ 的无偏估计)
其中,$S^2$ 要考虑偏差,有 $S^2 = \displaystyle \frac{1}{n - 1}\displaystyle\sum_{i = 1}^{n}(X_i - \overline{X})^2$
2.2. Sampling Distribution
抽样分布的种类
目前已知的抽样分布就多大几十种,但是常见的抽样分布只有四种:$\text{Gauss}$ 分布,$t$ 分布,$F$ 分布,$\chi^2$ 分布
3. Limit Theorem
$thm.$ $\text{Markov}$ Inequality
设 $X$ 是非负随机变量且具有数学期望 $E(X)$ ,则 $\forall{\varepsilon} > 0$,有:
$$P(X\geq\varepsilon)\leq\frac{E(X)}{\varepsilon}
$$
$thm.$ $\text{Chebyshev}$ Inequalities
设随机变量 $X$ 具有数学期望 $E(X)=\mu$ ,$Var(X) = \sigma^2$ ,则 $\forall{\varepsilon} > 0$ ,有:
$$P(|x-\mu|\geq\varepsilon)\leq\frac{\sigma^2}{\varepsilon^2}
$$
3.2. Law of large numbers
大数定律的最基本的原理是如下的这个等式:
$$V(X)=0 \iff P(X=E(X)) = 1
$$
$\text{Bernoulli}$ LLN
$X_n\sim\mathbb{B}(n,\ p)$,$\forall\varepsilon>0$,有:
$$\displaystyle{\lim_{n\rightarrow\infty}}P(|\frac{x_n}{n}-p|<\varepsilon)=1
$$
$\text{Chebyshev}$ LLN
设 $X_i(i = 1,2,…,n)$为独立同分布随机变量,数学期望 $E(X) = \mu$ 和有限的方差 $Var(X_i) = \sigma_i^2$,$\forall\ \varepsilon>0$,有:
$$\displaystyle{\lim_{n\rightarrow\infty}}P(|\frac{1}{n}\sum_{i=1}^{n}X_i-\frac{1}{n}\sum_{i=1}^{n}EX_i|<\varepsilon)=1
$$
$\text{Khinchin}$ LLN
设 $X_i(i = 1,2,…,n)$ 为 $X$ 的独立同分布随机变量,数学期望 $E(X_i) = \mu$ 存在,$\forall\ \varepsilon>0$,有:
$$\displaystyle{\lim_{n\rightarrow\infty}}P(|\frac{1}{n}\sum_{i=1}^{n}X_i-\mu|<\varepsilon)=1
$$
Weak LLN
设 $X_i(i = 1,2,…,n)$ 为独立同分布随机变量,数学期望 $E(X)$ 存在,则 $\overline{X}_n$ 依概率收敛于 $EX$ ,即 $\forall\ \varepsilon >0$,有:
$$\displaystyle{\lim_{n\rightarrow\infty}}P(|\frac{x_n}{n}-p|<\varepsilon)=1
$$
3.3. Central Limit Theorems
$\text{De Moivre-Laplace}$ CLT
$X_n\sim\mathbb{B}(n,\ p)$ ,则:
$$\lim_{n\rightarrow\infty}P(\frac{X_n-np}{\sqrt{np(1-p)}}\leq{x})=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{\frac{-t^2}{2}}dt
$$
$thm.$ $\text{Lindeberg-Levy}$ Theorem
$\text{Lindeberg-Levy}$ Theorem 讨论独立同分布的中心极限定理
设 $X_i(i = 1,2,…,n)$ 为独立同分布随机变量,数学期望 $E(X) = \mu$ 和有限的方差 $Var(X_i) = \sigma_i^2$,随机变量之和 $\displaystyle\sum_{i = 1}^{n}X_i$ ,设:
$$Y_n = \frac{\displaystyle\sum_{i = 1}^{n}X_i-E(\displaystyle\sum_{i = 1}^{n}X_i)}{\sqrt{D(\displaystyle\sum_{i = 1}^{n}X_i)}}=\frac{\displaystyle\sum_{i = 1}^{n}X_i-n\mu}{\sqrt{n}\sigma}
$$
则:
$$\lim_{n\rightarrow\infty}P(Y_n\leq{x})=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{\frac{-t^2}{2}}dt=\Phi(x)
$$
Normal Distribution Samplings
$X_i$ $(i = 1<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>2<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>…<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>n)$ 是总体 $\mathbb{N}(\mu,\sigma^2)$ 的样本,$\overline{X}$ 是样本均值,则:
$$\overline{X}\sim\mathbb{N}(\mu,\frac{\sigma^2}{n})
$$
4. Common Sampling Distributions
4.1. $\Gamma(\cdot)$
$drf.$ $\Gamma$ function
实数域上 $\Gamma$ 函数定义为:
$$\Gamma(x)=\int_{0}^{+\infty}t^{x-1}e^{-t}dt\ (x>0)
$$
$\Gamma$ 函数的重要性质:
$$\begin{align}
&\Gamma(n) = (n-1)!\ \ \ n\in\mathbb{N}\\
&\Gamma(1-x)\Gamma(x) =\frac{\pi}{sin\pi{x}}\\
&\Gamma(\frac{1}{2}) =\sqrt{\pi}\\
&\Gamma(x)\rightarrow\sqrt{2\pi}e^{-x}x^{x-\frac{1}{2}}\ \ \ x\rightarrow+\infty
\end{align}
$$
4.2. $\chi^{2}$ Distribution (Karl Pearson)
$thm.$ $\chi^{2}$ Distribution
设 $X_i(i = 1,2,…,n)$ 为 $\mathbb{N}(0,1)$ 的独立同分布随机变量,则称随机变量:
$$\chi^2 = \sum_{i=1}^{n}X_i^2
$$
为服从自由度为 $n$ 的 $\chi^2$ 分布,记为 $\chi^2(n)$
$thm.$ $\chi^{2}$分布可加性
设 $X_1 \sim \chi^2(n_1)$,$X_2 \sim\chi^2(n_2)$,且 $X_1$ 和 $X_2$ 相互独立,则:
$$X_1+X_2\sim\chi^2(n_1+n_2)
$$
$thm.$ $\chi^{2}$分布的概率密度
$\chi^2(n)$ 分布的概率密度函数为:
$$f(x)=\frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}
$$
$thm.$ $\chi^{2}$分布的是数字特征
若 $X \sim \chi^2(n)$,则 $E(X)=n$,$Var(X)=2n$
$thm.$ 均值抽样分布定理
$X_i$ $(i = 1<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>2<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>…<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>n)$ 是总体 $\mathbb{N}(\mu,\sigma^2)$ 的样本,$\overline{X}$ 是样本均值,则:
$$\overline{X}\sim\mathbb{N}(\mu,\frac{\sigma^2}{n})
$$
$thm.$ 方差抽样分布定理
$X_i$ (i = 1,2,…,n) 是总体 $\mathbb{N}(\mu,\sigma^2)$ 的样本,$S^2$ 是样本方差,则有:
$$\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)
$$
4.3. $t$ 分布 (Gosset)
$def.$ $t$ Distribution
设 $X\sim\mathbb{N}(0,1)$,$Y\sim\chi^2(n)$,且 $X$ 和 $Y$ 相互独立,则随机变量
$$t=\frac{X}{\sqrt{\frac{Y}{n}}}
$$
称为服从自由度为 $n$ 的 $t$ 分布,记为 $t(n)$
$lemma.$ 预备定理
设 $(X_1$,$X_{2})$ 是二维随机变量,其分布密度函数为 $f(x_1,\ x_2)$,且 $X_1$ 和 $X_2$ 相互独立,则 $X$ 的分布密度函数为:
$$f_X(x)=f_{x_1}(xx_2)f_{x_2}(x_2)|x_2|dx_2
$$
$thm.$ $t$ 分布密度函数
$t(n)$ 的密度函数为:
$$f(x)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}(1+\frac{x^2}{n})^{-\frac{n+1}{2}}
$$
$thm.$ $t$ 分布数字特征
$X\sim t(n)$ ,则:
$$\begin{align}
E(X) &= 0\\
Var(X)&=\frac{n}{n-2}
\end{align}
$$
$thm.$ Symmetry
对于给定的正数 $\alpha\ (0<\alpha<1)$,称满足条件 $P(t>t_{\alpha}(n))=\int_{t_{\alpha}(n)}^{+\infty}f(x)dx=\alpha$ 的点 $t_{\alpha}(n)$ 称为 $t(n)$ 上的 $\alpha$ 分位点。则:
$$t_{1-\alpha}(n)=-t_{\alpha}{(n)}
$$
$thm.$ $t$ 分布的正态收敛性
$t_(n)$ 分布的概率密度 $f(x)$ 趋向于标准正态分布的概率密度,即:
$$\lim_{n\rightarrow\infty}f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span> (-\infty<x<+\infty)
$$
$thm.$ 均值抽样分布定理
$$X_i\ (i = 1<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>2<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>…<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>n)$$
是总体
$\mathbb{N}(\mu,\sigma^2)$ 的样本
,总体方差未知
,样本均值和样本方差分别为
$\overline{X}$ 和
$S^2$ ,则
:
$$\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\sim t(n-1)
$$
4.4. $F$ 分布 (Fisher)
$def.$ $F$ Distribution
设 $X\sim\chi^2(n_1)$,$Y\sim\chi^2(n_2)$,且 $X$ 和 $Y$ 相互独立,则随机变量
$$F=\frac{\frac{X}{n_1}}{\frac{Y}{n_2}}=\frac{n_2}{n_1}\frac{X}{Y}
$$
称为服从自由度为 $n_1<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>n_2$ 的 $F$ 分布,记为 $F(n_1<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>n_2)$,其中 $n_1$ 称为第一自由度,$n_2$ 称为第二自由度。
$thm.$ $F$ 分布的倒数对称性
$$F_{1-\alpha}(n_1,\ n_2)=\frac{1}{F_{\alpha}(n_1, \ n_2)}
$$
$thm.$ $F$ 分布密度函数
$F(n_1, \ n_2)$ 分布的概率密度函数为:
$$f(x;\ n_1,\ n_2) = \frac{\Gamma(\frac{n_1+n_2}{2})}{\Gamma(\frac{n_1}{2})\Gamma(\frac{n_2}{2})}(\frac{n_1}{n_2})^{\frac{n_1}{2}}\frac{x^{\frac{n_1-2}{2}}}{(1+\frac{n_1}{n_2}x)^{\frac{n_1+n_2}{2}}}<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>\ x>0
$$
$thm.$ $F$ 分布数学期望
若 $X\sim F(n_1<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>n_2)$,则:
$$E(X)=\frac{n_2}{n_2-2}<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>\ n_2>2\\
Var(X)=\frac{n_2^2(2n_1+2n_2-4)}{n_1(n_2-2)^2(n_2-4)}<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>\ n_2>4
$$
$thm.$ 正态分布逼近定理
设 $X_{i}\ (i=1<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>2<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>…<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>n_1)$ , $Y_{i}\ (i=1<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>2<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>…<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>n_2)$ ,是分别来自两正态总体 $\mathbb{N}(\mu_1,\sigma_1^2)$, $\mathbb{N}(\mu_2,\sigma_2^2)$,则:
$$\frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim \mathbb{N}(0,\ 1)
$$
$thm.$ 方差抽样分布定理
设 $X_{i}\ (i=1<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>2<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>…<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>n_1)$ , $Y_{i}\ (i=1<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>2<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>…<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>n_2)$ ,是分别来自两正态总体 $\mathbb{N}(\mu_1,\sigma_1^2)$, $\mathbb{N}(\mu_2,\sigma_2^2)$,$S_1^2,\ S_2^2 $ 分别为两样本方差,则:
$$\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,\ n_2-1)
$$