Processing math: 21%


5. Sampling Distribution

Sampling Distribution

1. Sampling

1.1. Data Analysis

  1. 全体数据 整体结论
  2. 全体数据 样本数据 样本结论 整体结论

1.2. Sampling Methods

  1. 简单随机抽样

  2. 系统抽样

  3. 整群抽样

  4. 分层抽样

2. Moment and Sampling Distribution

2.1. Moment and Statistics

thm. 统计量抽样收敛定理

设总体 X 的均值是 μ ,方差为 σ2Xi(i=1,2,,n)X 的一个样本,则:

(1)E(¯X)=μ¯Xμ 的无偏估计)

(2)Var(¯X)=σ2n

(3)E(S2)=σ2S2σ2 的无偏估计)

其中,S2 要考虑偏差,有 S2=1n1ni=1(Xi¯X)2

2.2. Sampling Distribution

抽样分布的种类

目前已知的抽样分布就多大几十种,但是常见的抽样分布只有四种:Gauss 分布,t 分布,F 分布,χ2 分布

3. Limit Theorem

thm. Markov Inequality

X 是非负随机变量且具有数学期望 E(X) ,则 ε>0,有:

P(Xε)E(X)ε

thm. Chebyshev Inequalities

设随机变量 X 具有数学期望 E(X)=μVar(X)=σ2 ,则 ε>0 ,有:

P(|xμ|ε)σ2ε2

3.2. Law of large numbers

大数定律的最基本的原理是如下的这个等式:

V(X)=0P(X=E(X))=1

Bernoulli LLN

XnB(n, p)ε>0,有:

lim

\text{Chebyshev} LLN

X_i(i = 1,2,…,n)为独立同分布随机变量,数学期望 E(X) = \mu 和有限的方差 Var(X_i) = \sigma_i^2\forall\ \varepsilon>0,有:

\displaystyle{\lim_{n\rightarrow\infty}}P(|\frac{1}{n}\sum_{i=1}^{n}X_i-\frac{1}{n}\sum_{i=1}^{n}EX_i|<\varepsilon)=1

\text{Khinchin} LLN

X_i(i = 1,2,…,n)X 的独立同分布随机变量,数学期望 E(X_i) = \mu 存在,\forall\ \varepsilon>0,有:

\displaystyle{\lim_{n\rightarrow\infty}}P(|\frac{1}{n}\sum_{i=1}^{n}X_i-\mu|<\varepsilon)=1

Weak LLN

X_i(i = 1,2,…,n) 为独立同分布随机变量,数学期望 E(X) 存在,则 \overline{X}_n 依概率收敛于 EX ,即 \forall\ \varepsilon >0,有:

\displaystyle{\lim_{n\rightarrow\infty}}P(|\frac{x_n}{n}-p|<\varepsilon)=1

3.3. Central Limit Theorems

\text{De Moivre-Laplace} CLT

X_n\sim\mathbb{B}(n,\ p) ,则:

\lim_{n\rightarrow\infty}P(\frac{X_n-np}{\sqrt{np(1-p)}}\leq{x})=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{\frac{-t^2}{2}}dt

thm. \text{Lindeberg-Levy} Theorem

\text{Lindeberg-Levy} Theorem 讨论独立同分布的中心极限定理

X_i(i = 1,2,…,n) 为独立同分布随机变量,数学期望 E(X) = \mu 和有限的方差 Var(X_i) = \sigma_i^2,随机变量之和 \displaystyle\sum_{i = 1}^{n}X_i ,设:

Y_n = \frac{\displaystyle\sum_{i = 1}^{n}X_i-E(\displaystyle\sum_{i = 1}^{n}X_i)}{\sqrt{D(\displaystyle\sum_{i = 1}^{n}X_i)}}=\frac{\displaystyle\sum_{i = 1}^{n}X_i-n\mu}{\sqrt{n}\sigma}

则:

\lim_{n\rightarrow\infty}P(Y_n\leq{x})=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{\frac{-t^2}{2}}dt=\Phi(x)

Normal Distribution Samplings

X_i (i = 1,2,…,n) 是总体 \mathbb{N}(\mu,\sigma^2) 的样本,\overline{X} 是样本均值,则:

\overline{X}\sim\mathbb{N}(\mu,\frac{\sigma^2}{n})

4. Common Sampling Distributions

4.1. \Gamma(\cdot)

drf. \Gamma function

实数域上 \Gamma 函数定义为:

\Gamma(x)=\int_{0}^{+\infty}t^{x-1}e^{-t}dt\ (x>0)

\Gamma 函数的重要性质:

\begin{align} &\Gamma(n) = (n-1)!\ \ \ n\in\mathbb{N}\\ &\Gamma(1-x)\Gamma(x) =\frac{\pi}{sin\pi{x}}\\ &\Gamma(\frac{1}{2}) =\sqrt{\pi}\\ &\Gamma(x)\rightarrow\sqrt{2\pi}e^{-x}x^{x-\frac{1}{2}}\ \ \ x\rightarrow+\infty \end{align}

4.2. \chi^{2} Distribution (Karl Pearson)

thm. \chi^{2} Distribution

X_i(i = 1,2,…,n)\mathbb{N}(0,1) 的独立同分布随机变量,则称随机变量:

\chi^2 = \sum_{i=1}^{n}X_i^2

为服从自由度为 n\chi^2 分布,记为 \chi^2(n)


thm. \chi^{2}分布可加性

X_1 \sim \chi^2(n_1)X_2 \sim\chi^2(n_2),且 X_1X_2 相互独立,则:

X_1+X_2\sim\chi^2(n_1+n_2)

thm. \chi^{2}分布的概率密度

\chi^2(n) 分布的概率密度函数为:

f(x)=\frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}

thm. \chi^{2}分布的是数字特征

X \sim \chi^2(n),则 E(X)=nVar(X)=2n


thm. 均值抽样分布定理

X_i (i = 1,2,…,n) 是总体 \mathbb{N}(\mu,\sigma^2) 的样本,\overline{X} 是样本均值,则:

\overline{X}\sim\mathbb{N}(\mu,\frac{\sigma^2}{n})

thm. 方差抽样分布定理

X_i (i = 1,2,…,n) 是总体 \mathbb{N}(\mu,\sigma^2) 的样本,S^2 是样本方差,则有:

\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)

4.3. t 分布 (Gosset)

def. t Distribution

X\sim\mathbb{N}(0,1)Y\sim\chi^2(n),且 XY 相互独立,则随机变量

t=\frac{X}{\sqrt{\frac{Y}{n}}}

称为服从自由度为 nt 分布,记为 t(n)


lemma. 预备定理

(X_1X_{2}) 是二维随机变量,其分布密度函数为 f(x_1,\ x_2),且 X_1X_2 相互独立,则 X 的分布密度函数为:

f_X(x)=f_{x_1}(xx_2)f_{x_2}(x_2)|x_2|dx_2

thm. t 分布密度函数

t(n) 的密度函数为:

f(x)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}(1+\frac{x^2}{n})^{-\frac{n+1}{2}}

thm. t 分布数字特征

X\sim t(n) ,则:

\begin{align} E(X) &= 0\\ Var(X)&=\frac{n}{n-2} \end{align}

thm. Symmetry

对于给定的正数 \alpha\ (0<\alpha<1),称满足条件 P(t>t_{\alpha}(n))=\int_{t_{\alpha}(n)}^{+\infty}f(x)dx=\alpha 的点 t_{\alpha}(n) 称为 t(n) 上的 \alpha 分位点。则:

t_{1-\alpha}(n)=-t_{\alpha}{(n)}

thm. t 分布的正态收敛性

t_(n) 分布的概率密度 f(x) 趋向于标准正态分布的概率密度,即:

\lim_{n\rightarrow\infty}f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}, (-\infty<x<+\infty)

thm. 均值抽样分布定理

X_i\ (i = 1,2,…,n)
是总体 \mathbb{N}(\mu,\sigma^2) 的样本,总体方差未知,样本均值和样本方差分别为 \overline{X}S^2 ,则:

\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\sim t(n-1)

4.4. F 分布 (Fisher)

def. F Distribution

X\sim\chi^2(n_1)Y\sim\chi^2(n_2),且 XY 相互独立,则随机变量

F=\frac{\frac{X}{n_1}}{\frac{Y}{n_2}}=\frac{n_2}{n_1}\frac{X}{Y}

称为服从自由度为 n_1,n_2F 分布,记为 F(n_1,n_2),其中 n_1 称为第一自由度,n_2 称为第二自由度。

thm. F 分布的倒数对称性

F_{1-\alpha}(n_1,\ n_2)=\frac{1}{F_{\alpha}(n_1, \ n_2)}

thm. F 分布密度函数

F(n_1, \ n_2) 分布的概率密度函数为:

f(x;\ n_1,\ n_2) = \frac{\Gamma(\frac{n_1+n_2}{2})}{\Gamma(\frac{n_1}{2})\Gamma(\frac{n_2}{2})}(\frac{n_1}{n_2})^{\frac{n_1}{2}}\frac{x^{\frac{n_1-2}{2}}}{(1+\frac{n_1}{n_2}x)^{\frac{n_1+n_2}{2}}},\ x>0

thm. F 分布数学期望

X\sim F(n_1,n_2),则:

E(X)=\frac{n_2}{n_2-2},\ n_2>2\\ Var(X)=\frac{n_2^2(2n_1+2n_2-4)}{n_1(n_2-2)^2(n_2-4)},\ n_2>4

thm. 正态分布逼近定理

X_{i}\ (i=1,2,…,n_1)Y_{i}\ (i=1,2,…,n_2) ,是分别来自两正态总体 \mathbb{N}(\mu_1,\sigma_1^2)\mathbb{N}(\mu_2,\sigma_2^2),则:

\frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim \mathbb{N}(0,\ 1)

thm. 方差抽样分布定理

X_{i}\ (i=1,2,…,n_1)Y_{i}\ (i=1,2,…,n_2) ,是分别来自两正态总体 \mathbb{N}(\mu_1,\sigma_1^2)\mathbb{N}(\mu_2,\sigma_2^2)S_1^2,\ S_2^2 分别为两样本方差,则:

\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,\ n_2-1)