1. Sampling
1.1. Data Analysis
- 全体数据 $\rightarrow$ 整体结论
- 全体数据 $\rightarrow$ 样本数据 $\rightarrow$ 样本结论 $\rightarrow$ 整体结论
1.2. Sampling Methods
-
简单随机抽样
-
系统抽样
-
整群抽样
-
分层抽样
2. Moment and Sampling Distribution
2.1. Moment and Statistics
$thm.$ 统计量抽样收敛定理
设总体 $X$ 的均值是 $\mu$ ,方差为 $\sigma^2$ ,$X_i(i = 1,2,…,n)$ 为 $X$ 的一个样本,则:
(1)$E(\overline{X}) = \mu$ ( $\overline X$是 $\mu$ 的无偏估计)
(2)$Var(\overline{X})=\frac{\sigma^2}{n}$
(3)$E(S^2)=\sigma^2$ ($S^2$ 是 $\sigma^2$ 的无偏估计)
其中,$S^2$ 要考虑偏差,有 $S^2 = \displaystyle \frac{1}{n - 1}\displaystyle\sum_{i = 1}^{n}(X_i - \overline{X})^2$
2.2. Sampling Distribution
抽样分布的种类
目前已知的抽样分布就多大几十种,但是常见的抽样分布只有四种:$\text{Gauss}$ 分布,$t$ 分布,$F$ 分布,$\chi^2$ 分布
3. Limit Theorem
3.1. Moment-related Equalities
$thm.$ $\text{Markov}$ Inequality
设 $X$ 是非负随机变量且具有数学期望 $E(X)$ ,则 $\forall{\varepsilon} > 0$,有:
$thm.$ $\text{Chebyshev}$ Inequalities
设随机变量 $X$ 具有数学期望 $E(X)=\mu$ ,$Var(X) = \sigma^2$ ,则 $\forall{\varepsilon} > 0$ ,有:
3.2. Law of large numbers
大数定律的最基本的原理是如下的这个等式:
$\text{Bernoulli}$ LLN
$X_n\sim\mathbb{B}(n,\ p)$,$\forall\varepsilon>0$,有:
$\text{Chebyshev}$ LLN
设 $X_i(i = 1,2,…,n)$为独立同分布随机变量,数学期望 $E(X) = \mu$ 和有限的方差 $Var(X_i) = \sigma_i^2$,$\forall\ \varepsilon>0$,有:
$\text{Khinchin}$ LLN
设 $X_i(i = 1,2,…,n)$ 为 $X$ 的独立同分布随机变量,数学期望 $E(X_i) = \mu$ 存在,$\forall\ \varepsilon>0$,有:
Weak LLN
设 $X_i(i = 1,2,…,n)$ 为独立同分布随机变量,数学期望 $E(X)$ 存在,则 $\overline{X}_n$ 依概率收敛于 $EX$ ,即 $\forall\ \varepsilon >0$,有:
3.3. Central Limit Theorems
$\text{De Moivre-Laplace}$ CLT
$X_n\sim\mathbb{B}(n,\ p)$ ,则:
$thm.$ $\text{Lindeberg-Levy}$ Theorem
$\text{Lindeberg-Levy}$ Theorem 讨论独立同分布的中心极限定理
设 $X_i(i = 1,2,…,n)$ 为独立同分布随机变量,数学期望 $E(X) = \mu$ 和有限的方差 $Var(X_i) = \sigma_i^2$,随机变量之和 $\displaystyle\sum_{i = 1}^{n}X_i$ ,设:
则:
Normal Distribution Samplings
$X_i$ $(i = 1,2,…,n)$ 是总体 $\mathbb{N}(\mu,\sigma^2)$ 的样本,$\overline{X}$ 是样本均值,则:
4. Common Sampling Distributions
4.1. $\Gamma(\cdot)$
$drf.$ $\Gamma$ function
实数域上 $\Gamma$ 函数定义为:
$\Gamma$ 函数的重要性质:
4.2. $\chi^{2}$ Distribution (Karl Pearson)
$thm.$ $\chi^{2}$ Distribution
设 $X_i(i = 1,2,…,n)$ 为 $\mathbb{N}(0,1)$ 的独立同分布随机变量,则称随机变量:
为服从自由度为 $n$ 的 $\chi^2$ 分布,记为 $\chi^2(n)$
$thm.$ $\chi^{2}$分布可加性
设 $X_1 \sim \chi^2(n_1)$,$X_2 \sim\chi^2(n_2)$,且 $X_1$ 和 $X_2$ 相互独立,则:
$thm.$ $\chi^{2}$分布的概率密度
$\chi^2(n)$ 分布的概率密度函数为:
$thm.$ $\chi^{2}$分布的是数字特征
若 $X \sim \chi^2(n)$,则 $E(X)=n$,$Var(X)=2n$
$thm.$ 均值抽样分布定理
$X_i$ $(i = 1,2,…,n)$ 是总体 $\mathbb{N}(\mu,\sigma^2)$ 的样本,$\overline{X}$ 是样本均值,则:
$thm.$ 方差抽样分布定理
$X_i$ (i = 1,2,…,n) 是总体 $\mathbb{N}(\mu,\sigma^2)$ 的样本,$S^2$ 是样本方差,则有:
4.3. $t$ 分布 (Gosset)
$def.$ $t$ Distribution
设 $X\sim\mathbb{N}(0,1)$,$Y\sim\chi^2(n)$,且 $X$ 和 $Y$ 相互独立,则随机变量
称为服从自由度为 $n$ 的 $t$ 分布,记为 $t(n)$
$lemma.$ 预备定理
设 $(X_1$,$X_{2})$ 是二维随机变量,其分布密度函数为 $f(x_1,\ x_2)$,且 $X_1$ 和 $X_2$ 相互独立,则 $X$ 的分布密度函数为:
$thm.$ $t$ 分布密度函数
$t(n)$ 的密度函数为:
$thm.$ $t$ 分布数字特征
$X\sim t(n)$ ,则:
$thm.$ Symmetry
对于给定的正数 $\alpha\ (0<\alpha<1)$,称满足条件 $P(t>t_{\alpha}(n))=\int_{t_{\alpha}(n)}^{+\infty}f(x)dx=\alpha$ 的点 $t_{\alpha}(n)$ 称为 $t(n)$ 上的 $\alpha$ 分位点。则:
$thm.$ $t$ 分布的正态收敛性
$t_(n)$ 分布的概率密度 $f(x)$ 趋向于标准正态分布的概率密度,即:
$thm.$ 均值抽样分布定理
4.4. $F$ 分布 (Fisher)
$def.$ $F$ Distribution
设 $X\sim\chi^2(n_1)$,$Y\sim\chi^2(n_2)$,且 $X$ 和 $Y$ 相互独立,则随机变量
称为服从自由度为 $n_1,n_2$ 的 $F$ 分布,记为 $F(n_1,n_2)$,其中 $n_1$ 称为第一自由度,$n_2$ 称为第二自由度。
$thm.$ $F$ 分布的倒数对称性
$thm.$ $F$ 分布密度函数
$F(n_1, \ n_2)$ 分布的概率密度函数为:
$thm.$ $F$ 分布数学期望
若 $X\sim F(n_1,n_2)$,则:
$thm.$ 正态分布逼近定理
设 $X_{i}\ (i=1,2,…,n_1)$ , $Y_{i}\ (i=1,2,…,n_2)$ ,是分别来自两正态总体 $\mathbb{N}(\mu_1,\sigma_1^2)$, $\mathbb{N}(\mu_2,\sigma_2^2)$,则:
$thm.$ 方差抽样分布定理
设 $X_{i}\ (i=1,2,…,n_1)$ , $Y_{i}\ (i=1,2,…,n_2)$ ,是分别来自两正态总体 $\mathbb{N}(\mu_1,\sigma_1^2)$, $\mathbb{N}(\mu_2,\sigma_2^2)$,$S_1^2,\ S_2^2 $ 分别为两样本方差,则: