1. Point Estimation
1.1. Method of Moments
$def.$ 矩估计
随机变量 $X$ 服从某总体分布,其中包含 $k$ 个未知参数,$θ_i(i = 1, 2, … , k), \ μ_l = E(X^l)$ 为总体的 $l$ 阶矩。$X_i(i = 1, 2, … , n)$ 是来自于 $X$ 的样本,那么求解以下方程组得到的估计值 $θ_i(i = 1, 2, …, k)$ 的方法称为矩估计法。
$thm.$ 矩估计定理
设随机变量 $X$ 的数学期望和 $μ$ 和方差 $σ^2$ 都存在,且有估计量 $σ^2>0$。$μ$ 和 $σ^2$ 均未知。$X_i(i = 1, 2, …, n)$ 为来自 $X$ 的样本。则 $μ$ 和 ${σ}^2$ 的估计量分别为
1.2. Maximum Likelihood Estimation
MLE 是通过最大化一个似然函数来估计一个概率分布的参数, 使得在假设的统计模型下, 观测数据最有可能出现. 形式化地, 从条件概率的角度说, MLE 的似然函数 $\mathcal L$ 有定义为
其中 $p$ 为概率密度函数, $X$ 为随机变量, $\theta$ 为全体待估计的参数. 具体来说:
- $\theta$ 固定, $p(X|\theta)$ 看作是 $X$ 的函数, 也就是 PDF (概率密度函数)
- $X$ 固定, $\mathcal L(\theta|X)$ 看作是关于 $\theta$ 的函数, 也就是似然函数
$thm.$ 极大似然估计
$x$ 是样本值, $θ$ 为需要估计的总体参数, $\mathcal L$ 为似然函数, 极大似然估计的等式定义如下:
其中,对于随机变量 $X$, 似然函数 $\mathcal L(θ) = \displaystyle\prod_{i = 1}^nP(X = x_i|\theta)$. 但是考虑到计算时, 多个概率连乘很可能造成浮点下溢, 我们往往用对数函数来进行估计, 即
$thm.$ $\text{Poisson}$ 分布极大似然估计定理
设 $X\sim\pi(\lambda)$ , $X_i(i = 1,2,…,n)$ 为 $X$ 的一个样本,则$\hat{\lambda} = \overline{X}$
$thm.$ $\text{Exponential}$ 分布极大似然估计定理
设 $X\sim\mathbb{E}(\lambda)$ , $X_i(i = 1,2,…,n)$为 $X$ 的一个样本, 则$\displaystyle \hat{\lambda} = \frac{1}{\overline{X}}$
$thm.$ $\text{Gaussian}$ 分布极大似然估计定理
设 $X\sim\mathbb{N}(\mu,\sigma^2)$ , $X_i(i = 1,2,…,n)$ 为 $X$ 的一个样本, 则
$thm.$ $\text{Uniform}$ 分布极大似然估计定理
设 $X\sim\mathbb{U}(a,b)$ , $X_i(i = 1,2,…,n)$ 为 $X$ 的一个样本, 则 $a$ 和 $b$ 的极大似然估计分别为 $\displaystyle\min_i{X_i}$ ,$\displaystyle\max_i{X_i}$
1.3. Truncated Estimation
截尾估计
1.4. Estimation Analysis
我们需要度量估计的好坏.
$def.$ 估计的无偏性
无偏估计指的是估计量抽样分布的数学期望等于被估总体参数。即对于 $\hat\theta(X_1,\ X_2, …,\ X_n)$,$E(\hat\theta)$ 存在且有
则称 $\hat\theta$ 为 $\theta$ 的无偏估计
$lemma.$
$X_i(i = 1,2,…,n)$为 $X$ 的一个样本, $g(x)$ 是 $x$ 的函数且 $E(g(X_i))$ 和 $Var(g(X_i))$ 存在, 则
$thm.$
设总体 $X$ 的均值是 $\mu$ ,方差为 $\sigma^2$,$X_i(i = 1,2,…,n)$为 $X$ 的一个样本,则:
(1)$E(\overline{X}) = \mu$ ( $\overline X$ 是 $\mu$ 的无偏估计)
(2)$V(\overline{X})=\frac{\sigma^2}{n}$
(3)$E(S^2)=\sigma^2$ ($S^2$ 是 $\sigma^2$ 的无偏估计)
其中,$S^2$要考虑偏差,有 $S^2 = \displaystyle \frac{1}{n - 1}\displaystyle\sum_{i = 1}^{n}(X_i - \overline{X})^2$
$thm.$
设总体 $X$ 的 $k$ 阶矩 $\mu_k = E(X^k)$,$k \geq 1$ 存在,无论总体服从什么分布,$k$ 阶样本矩$A_k = \frac{1}{n}\displaystyle\sum_{i = 1}^nX_i^k$ 是 $k$ 阶总体矩 $\mu_k$ 的无偏估计
$def.$ 估计的有效性
对于总体未知参数的两个无偏估计量,相应抽样分布的方差小视为更有效,即,若 $\hat\theta_1,\hat\theta_2$ 为 $\theta$ 的两个无偏估计,有
则称 $\hat\theta_1$ 比 $\hat\theta_2$ 更有效
$def.$ 估计的一致性(类比于一致收敛)
一致性是指随着样本容量 $n$ 增大,估计量越来越接近总体参数。即对于任意 $\epsilon > 0$ ,有
则称 $\hat\theta$ 是 $\theta$ 的一致性估计量
2. Interval Estimation
$def.$ 置信区间
设总体 $X$ 的分布$\ F(x;\theta)$ 中含有未知参数 $\theta$ ,若存在样本的两个估计量 $\underline{\theta}(X_i)$ 和 $\overline{\theta}(X_i)$ $(i = 1, \ 2,\ …,\ n)$ 使得对于给定的 $\alpha\ (0 < \alpha <1)$ ,有
则称随机区间 $(\underline\theta,\overline\theta)$ 为总体参数 $\theta$ 的置信水平为 $1 - \alpha$ 的(双侧)置信区间,$\underline\theta$ 和 $ \overline\theta$ 分别为置信下限和置信上限
2.1. 单总体均值区间估计
估计条件 1 $X\sim\mathbb{N}(\mu,\sigma^2)$ 且 $\sigma^2$ 已知,$\mu$ 未知
估计条件 2. $X\sim\mathbb{N}(\mu,\sigma^2)$ 且 $\sigma^2$,$\mu$ 未知
估计条件 3. $X$ 不服从 $\text{Gauss}$ 分布,但是样本容量较大(大于30)
2.2. 单总体方差区间估计
估计条件 1. $X\sim\mathbb{N}(\mu,\sigma^2)$ 且 $\sigma^2$,$\mu$ 未知
2.3. 双总体均值差区间估计
估计条件 1. $X\sim\mathbb{N}(\mu_1,\sigma_1^2)$ ,$Y\sim\mathbb{N}(\mu_2,\sigma_2^2)$ 且 $\sigma^2$,$\mu_1,\ \mu_2$ 未知,$\sigma_1^2,\ \sigma_2^2$ 已知
估计条件 2. $X\sim\mathbb{N}(\mu_1,\sigma_1^2)$ ,$Y\sim\mathbb{N}(\mu_2,\sigma_2^2)$ 且 $\sigma^2$$,$$\mu_1,\ \mu_2$ 未知,$\sigma_1^2,\ \sigma_2^2$ 未知,但 $\sigma_1^2=\sigma_2^2$
估计条件3. $X$ 和 $Y$ 不服从 $\text{Gauss}$ 分布,但是样本容量均较大(大于30)
2.4. 双总体方差比区间估计
估计条件 1. $X\sim\mathbb{N}(\mu_1,\sigma_1^2)$ ,$Y\sim\mathbb{N}(\mu_2,\sigma_2^2)$ 且 $\sigma^2$,$\mu_1,\ \mu_2$ 未知,$\sigma_1^2,\ \sigma_2^2$ 未知