1. Point Estimation
1.1. Method of Moments
def. 矩估计
随机变量 X 服从某总体分布,其中包含 k 个未知参数,θ_i(i = 1, 2, … , k), \ μ_l = E(X^l) 为总体的 l 阶矩。X_i(i = 1, 2, … , n) 是来自于 X 的样本,那么求解以下方程组得到的估计值 θ_i(i = 1, 2, …, k) 的方法称为矩估计法。
thm. 矩估计定理
设随机变量 X 的数学期望和 μ 和方差 σ^2 都存在,且有估计量 σ^2>0。μ 和 σ^2 均未知。X_i(i = 1, 2, …, n) 为来自 X 的样本。则 μ 和 {σ}^2 的估计量分别为
1.2. Maximum Likelihood Estimation
MLE 是通过最大化一个似然函数来估计一个概率分布的参数, 使得在假设的统计模型下, 观测数据最有可能出现. 形式化地, 从条件概率的角度说, MLE 的似然函数 \mathcal L 有定义为
其中 p 为概率密度函数, X 为随机变量, \theta 为全体待估计的参数. 具体来说:
- \theta 固定, p(X|\theta) 看作是 X 的函数, 也就是 PDF (概率密度函数)
- X 固定, \mathcal L(\theta|X) 看作是关于 \theta 的函数, 也就是似然函数
thm. 极大似然估计
x 是样本值, θ 为需要估计的总体参数, \mathcal L 为似然函数, 极大似然估计的等式定义如下:
其中,对于随机变量 X, 似然函数 \mathcal L(θ) = \displaystyle\prod_{i = 1}^nP(X = x_i|\theta). 但是考虑到计算时, 多个概率连乘很可能造成浮点下溢, 我们往往用对数函数来进行估计, 即
thm. \text{Poisson} 分布极大似然估计定理
设 X\sim\pi(\lambda) , X_i(i = 1,2,…,n) 为 X 的一个样本,则\hat{\lambda} = \overline{X}
thm. \text{Exponential} 分布极大似然估计定理
设 X\sim\mathbb{E}(\lambda) , X_i(i = 1,2,…,n)为 X 的一个样本, 则\displaystyle \hat{\lambda} = \frac{1}{\overline{X}}
thm. \text{Gaussian} 分布极大似然估计定理
设 X\sim\mathbb{N}(\mu,\sigma^2) , X_i(i = 1,2,…,n) 为 X 的一个样本, 则
thm. \text{Uniform} 分布极大似然估计定理
设 X\sim\mathbb{U}(a,b) , X_i(i = 1,2,…,n) 为 X 的一个样本, 则 a 和 b 的极大似然估计分别为 \displaystyle\min_i{X_i} ,\displaystyle\max_i{X_i}
1.3. Truncated Estimation
截尾估计
1.4. Estimation Analysis
我们需要度量估计的好坏.
def. 估计的无偏性
无偏估计指的是估计量抽样分布的数学期望等于被估总体参数。即对于 \hat\theta(X_1,\ X_2, …,\ X_n),E(\hat\theta) 存在且有
则称 \hat\theta 为 \theta 的无偏估计
lemma.
X_i(i = 1,2,…,n)为 X 的一个样本, g(x) 是 x 的函数且 E(g(X_i)) 和 Var(g(X_i)) 存在, 则
thm.
设总体 X 的均值是 \mu ,方差为 \sigma^2,X_i(i = 1,2,…,n)为 X 的一个样本,则:
(1)E(\overline{X}) = \mu ( \overline X 是 \mu 的无偏估计)
(2)V(\overline{X})=\frac{\sigma^2}{n}
(3)E(S^2)=\sigma^2 (S^2 是 \sigma^2 的无偏估计)
其中,S^2要考虑偏差,有 S^2 = \displaystyle \frac{1}{n - 1}\displaystyle\sum_{i = 1}^{n}(X_i - \overline{X})^2
thm.
设总体 X 的 k 阶矩 \mu_k = E(X^k),k \geq 1 存在,无论总体服从什么分布,k 阶样本矩A_k = \frac{1}{n}\displaystyle\sum_{i = 1}^nX_i^k 是 k 阶总体矩 \mu_k 的无偏估计
def. 估计的有效性
对于总体未知参数的两个无偏估计量,相应抽样分布的方差小视为更有效,即,若 \hat\theta_1,\hat\theta_2 为 \theta 的两个无偏估计,有
则称 \hat\theta_1 比 \hat\theta_2 更有效
def. 估计的一致性(类比于一致收敛)
一致性是指随着样本容量 n 增大,估计量越来越接近总体参数。即对于任意 \epsilon > 0 ,有
则称 \hat\theta 是 \theta 的一致性估计量
2. Interval Estimation
def. 置信区间
设总体 X 的分布\ F(x;\theta) 中含有未知参数 \theta ,若存在样本的两个估计量 \underline{\theta}(X_i) 和 \overline{\theta}(X_i) (i = 1, \ 2,\ …,\ n) 使得对于给定的 \alpha\ (0 < \alpha <1) ,有
则称随机区间 (\underline\theta,\overline\theta) 为总体参数 \theta 的置信水平为 1 - \alpha 的(双侧)置信区间,\underline\theta 和 \overline\theta 分别为置信下限和置信上限
2.1. 单总体均值区间估计
估计条件 1 X\sim\mathbb{N}(\mu,\sigma^2) 且 \sigma^2 已知,\mu 未知
估计条件 2. X\sim\mathbb{N}(\mu,\sigma^2) 且 \sigma^2,\mu 未知
估计条件 3. X 不服从 \text{Gauss} 分布,但是样本容量较大(大于30)
2.2. 单总体方差区间估计
估计条件 1. X\sim\mathbb{N}(\mu,\sigma^2) 且 \sigma^2,\mu 未知
2.3. 双总体均值差区间估计
估计条件 1. X\sim\mathbb{N}(\mu_1,\sigma_1^2) ,Y\sim\mathbb{N}(\mu_2,\sigma_2^2) 且 \sigma^2,\mu_1,\ \mu_2 未知,\sigma_1^2,\ \sigma_2^2 已知
估计条件 2. X\sim\mathbb{N}(\mu_1,\sigma_1^2) ,Y\sim\mathbb{N}(\mu_2,\sigma_2^2) 且 \sigma^2,\mu_1,\ \mu_2 未知,\sigma_1^2,\ \sigma_2^2 未知,但 \sigma_1^2=\sigma_2^2
估计条件3. X 和 Y 不服从 \text{Gauss} 分布,但是样本容量均较大(大于30)
2.4. 双总体方差比区间估计
估计条件 1. X\sim\mathbb{N}(\mu_1,\sigma_1^2) ,Y\sim\mathbb{N}(\mu_2,\sigma_2^2) 且 \sigma^2,\mu_1,\ \mu_2 未知,\sigma_1^2,\ \sigma_2^2 未知