1. Sampling
1.1. Data Analysis
- 全体数据 → 整体结论
- 全体数据 → 样本数据 → 样本结论 → 整体结论
1.2. Sampling Methods
-
简单随机抽样
-
系统抽样
-
整群抽样
-
分层抽样
2. Moment and Sampling Distribution
2.1. Moment and Statistics
thm. 统计量抽样收敛定理
设总体 X 的均值是 μ ,方差为 σ2 ,Xi(i=1,2,…,n) 为 X 的一个样本,则:
(1)E(¯X)=μ ( ¯X是 μ 的无偏估计)
(2)Var(¯X)=σ2n
(3)E(S2)=σ2 (S2 是 σ2 的无偏估计)
其中,S2 要考虑偏差,有 S2=1n−1n∑i=1(Xi−¯X)2
2.2. Sampling Distribution
抽样分布的种类
目前已知的抽样分布就多大几十种,但是常见的抽样分布只有四种:Gauss 分布,t 分布,F 分布,χ2 分布
3. Limit Theorem
3.1. Moment-related Equalities
thm. Markov Inequality
设 X 是非负随机变量且具有数学期望 E(X) ,则 ∀ε>0,有:
thm. Chebyshev Inequalities
设随机变量 X 具有数学期望 E(X)=μ ,Var(X)=σ2 ,则 ∀ε>0 ,有:
3.2. Law of large numbers
大数定律的最基本的原理是如下的这个等式:
Bernoulli LLN
Xn∼B(n, p),∀ε>0,有:
\text{Chebyshev} LLN
设 X_i(i = 1,2,…,n)为独立同分布随机变量,数学期望 E(X) = \mu 和有限的方差 Var(X_i) = \sigma_i^2,\forall\ \varepsilon>0,有:
\text{Khinchin} LLN
设 X_i(i = 1,2,…,n) 为 X 的独立同分布随机变量,数学期望 E(X_i) = \mu 存在,\forall\ \varepsilon>0,有:
Weak LLN
设 X_i(i = 1,2,…,n) 为独立同分布随机变量,数学期望 E(X) 存在,则 \overline{X}_n 依概率收敛于 EX ,即 \forall\ \varepsilon >0,有:
3.3. Central Limit Theorems
\text{De Moivre-Laplace} CLT
X_n\sim\mathbb{B}(n,\ p) ,则:
thm. \text{Lindeberg-Levy} Theorem
\text{Lindeberg-Levy} Theorem 讨论独立同分布的中心极限定理
设 X_i(i = 1,2,…,n) 为独立同分布随机变量,数学期望 E(X) = \mu 和有限的方差 Var(X_i) = \sigma_i^2,随机变量之和 \displaystyle\sum_{i = 1}^{n}X_i ,设:
则:
Normal Distribution Samplings
X_i (i = 1,2,…,n) 是总体 \mathbb{N}(\mu,\sigma^2) 的样本,\overline{X} 是样本均值,则:
4. Common Sampling Distributions
4.1. \Gamma(\cdot)
drf. \Gamma function
实数域上 \Gamma 函数定义为:
\Gamma 函数的重要性质:
4.2. \chi^{2} Distribution (Karl Pearson)
thm. \chi^{2} Distribution
设 X_i(i = 1,2,…,n) 为 \mathbb{N}(0,1) 的独立同分布随机变量,则称随机变量:
为服从自由度为 n 的 \chi^2 分布,记为 \chi^2(n)
thm. \chi^{2}分布可加性
设 X_1 \sim \chi^2(n_1),X_2 \sim\chi^2(n_2),且 X_1 和 X_2 相互独立,则:
thm. \chi^{2}分布的概率密度
\chi^2(n) 分布的概率密度函数为:
thm. \chi^{2}分布的是数字特征
若 X \sim \chi^2(n),则 E(X)=n,Var(X)=2n
thm. 均值抽样分布定理
X_i (i = 1,2,…,n) 是总体 \mathbb{N}(\mu,\sigma^2) 的样本,\overline{X} 是样本均值,则:
thm. 方差抽样分布定理
X_i (i = 1,2,…,n) 是总体 \mathbb{N}(\mu,\sigma^2) 的样本,S^2 是样本方差,则有:
4.3. t 分布 (Gosset)
def. t Distribution
设 X\sim\mathbb{N}(0,1),Y\sim\chi^2(n),且 X 和 Y 相互独立,则随机变量
称为服从自由度为 n 的 t 分布,记为 t(n)
lemma. 预备定理
设 (X_1,X_{2}) 是二维随机变量,其分布密度函数为 f(x_1,\ x_2),且 X_1 和 X_2 相互独立,则 X 的分布密度函数为:
thm. t 分布密度函数
t(n) 的密度函数为:
thm. t 分布数字特征
X\sim t(n) ,则:
thm. Symmetry
对于给定的正数 \alpha\ (0<\alpha<1),称满足条件 P(t>t_{\alpha}(n))=\int_{t_{\alpha}(n)}^{+\infty}f(x)dx=\alpha 的点 t_{\alpha}(n) 称为 t(n) 上的 \alpha 分位点。则:
thm. t 分布的正态收敛性
t_(n) 分布的概率密度 f(x) 趋向于标准正态分布的概率密度,即:
thm. 均值抽样分布定理
4.4. F 分布 (Fisher)
def. F Distribution
设 X\sim\chi^2(n_1),Y\sim\chi^2(n_2),且 X 和 Y 相互独立,则随机变量
称为服从自由度为 n_1,n_2 的 F 分布,记为 F(n_1,n_2),其中 n_1 称为第一自由度,n_2 称为第二自由度。
thm. F 分布的倒数对称性
thm. F 分布密度函数
F(n_1, \ n_2) 分布的概率密度函数为:
thm. F 分布数学期望
若 X\sim F(n_1,n_2),则:
thm. 正态分布逼近定理
设 X_{i}\ (i=1,2,…,n_1) , Y_{i}\ (i=1,2,…,n_2) ,是分别来自两正态总体 \mathbb{N}(\mu_1,\sigma_1^2), \mathbb{N}(\mu_2,\sigma_2^2),则:
thm. 方差抽样分布定理
设 X_{i}\ (i=1,2,…,n_1) , Y_{i}\ (i=1,2,…,n_2) ,是分别来自两正态总体 \mathbb{N}(\mu_1,\sigma_1^2), \mathbb{N}(\mu_2,\sigma_2^2),S_1^2,\ S_2^2 分别为两样本方差,则: