6. Parameter Estimation

$$\huge\textbf{Parameter Estimation} $$

1. Point Estimation

1.1. Method of Moments

$def.$ 矩估计

随机变量 $X$ 服从某总体分布,其中包含 $k$ 个未知参数,$θ_i(i = 1, 2, … , k), \ μ_l = E(X^l)$ 为总体的 $l$ 阶矩。$X_i(i = 1, 2, … , n)$ 是来自于 $X$ 的样本,那么求解以下方程组得到的估计值 $θ_i(i = 1, 2, …, k)$ 的方法称为矩估计法。

$$μ_i = A_i(i = 1, 2, …, k) $$

$thm.$ 矩估计定理

设随机变量 $X$ 的数学期望和 $μ$ 和方差 $σ^2$ 都存在,且有估计量 $σ^2>0$$μ$$σ^2$ 均未知。$X_i(i = 1, 2, …, n)$ 为来自 $X$ 的样本。则 $μ$${σ}^2$ 的估计量分别为

$$\hat{μ} = \overline{X} \quad \hat{σ}^2 = \frac{1}{n}\sum_{i = 1}^{n}(X_i - \overline{X})^2 $$

1.2. Maximum Likelihood Estimation

MLE 是通过最大化一个似然函数来估计一个概率分布的参数, 使得在假设的统计模型下, 观测数据最有可能出现. 形式化地, 从条件概率的角度说, MLE 的似然函数 $\mathcal L$ 有定义为

$$\mathcal L(\theta\mid X)=p(X\mid \theta) $$

其中 $p$ 为概率密度函数, $X$ 为随机变量, $\theta$ 为全体待估计的参数. 具体来说:

  • $\theta$ 固定, $p(X|\theta)$ 看作是 $X$ 的函数, 也就是 PDF (概率密度函数)
  • $X$ 固定, $\mathcal L(\theta|X)$ 看作是关于 $\theta$ 的函数, 也就是似然函数

$thm.$ 极大似然估计

$x$ 是样本值, $θ$ 为需要估计的总体参数, $\mathcal L$ 为似然函数, 极大似然估计的等式定义如下:

$$\hatθ_{MLE}(x) = \underset{θ\in\Theta}{\operatorname{argmax}}\mathcal L(θ) $$

其中,对于随机变量 $X$, 似然函数 $\mathcal L(θ) = \displaystyle\prod_{i = 1}^nP(X = x_i|\theta)$. 但是考虑到计算时, 多个概率连乘很可能造成浮点下溢, 我们往往用对数函数来进行估计, 即

$$\begin {align} \hatθ_{MLE}(x) &= \underset{θ\in\Theta}{\operatorname{argmax}}\ln \mathcal L(θ\mid X)\\ &=\underset{θ\in\Theta}{\operatorname{argmax}}\sum_{x_i\in X}\ln p(x_i\mid \theta) \end {align} $$

$thm.$ $\text{Poisson}$ 分布极大似然估计定理

$X\sim\pi(\lambda)$ , $X_i(i = 1,2,…,n)$$X$ 的一个样本,则$\hat{\lambda} = \overline{X}$


$thm.$ $\text{Exponential}$ 分布极大似然估计定理

$X\sim\mathbb{E}(\lambda)$ , $X_i(i = 1,2,…,n)$$X$ 的一个样本, 则$\displaystyle \hat{\lambda} = \frac{1}{\overline{X}}$


$thm.$ $\text{Gaussian}$ 分布极大似然估计定理

$X\sim\mathbb{N}(\mu,\sigma^2)$ , $X_i(i = 1,2,…,n)$$X$ 的一个样本, 则

$$\begin{align} \hat{μ} &= \overline{X}\\ \hat{σ}^2 &= \frac{1}{n}\sum_{i = 1}^{n}(X_i - \overline{X})^2 \end{align} $$

$thm.$ $\text{Uniform}$ 分布极大似然估计定理

$X\sim\mathbb{U}(a,b)$ , $X_i(i = 1,2,…,n)$$X$ 的一个样本, 则 $a$$b$ 的极大似然估计分别为 $\displaystyle\min_i{X_i}$$\displaystyle\max_i{X_i}$

1.3. Truncated Estimation

截尾估计

1.4. Estimation Analysis

我们需要度量估计的好坏.

$def.$ 估计的无偏性

无偏估计指的是估计量抽样分布的数学期望等于被估总体参数。即对于 $\hat\theta(X_1,\ X_2, …,\ X_n)$$E(\hat\theta)$ 存在且有

$$E(\hat{\theta}) = \theta $$

则称 $\hat\theta$$\theta$ 的无偏估计

$lemma.$

$X_i(i = 1,2,…,n)$$X$ 的一个样本, $g(x)$$x$ 的函数且 $E(g(X_i))$$Var(g(X_i))$ 存在, 则

$$\begin{align} E(\sum_{i = 1}^ng(X_i)) &= n(E(g(X_1)))\\ Var(\sum_{i = 1}^ng(X_i)) &= n(Var(g(X_1))) \end{align} $$

$thm.$

设总体 $X$ 的均值是 $\mu$ ,方差为 $\sigma^2$$X_i(i = 1,2,…,n)$$X$ 的一个样本,则:

(1)$E(\overline{X}) = \mu$ ( $\overline X$$\mu$ 的无偏估计)

(2)$V(\overline{X})=\frac{\sigma^2}{n}$

(3)$E(S^2)=\sigma^2$$S^2$$\sigma^2$ 的无偏估计)

其中,$S^2$要考虑偏差,有 $S^2 = \displaystyle \frac{1}{n - 1}\displaystyle\sum_{i = 1}^{n}(X_i - \overline{X})^2$


$thm.$

设总体 $X$$k$ 阶矩 $\mu_k = E(X^k)$$k \geq 1$ 存在,无论总体服从什么分布,$k$ 阶样本矩$A_k = \frac{1}{n}\displaystyle\sum_{i = 1}^nX_i^k$$k$ 阶总体矩 $\mu_k$ 的无偏估计


$def.$ 估计的有效性

对于总体未知参数的两个无偏估计量,相应抽样分布的方差小视为更有效,即,若 $\hat\theta_1,\hat\theta_2$$\theta$ 的两个无偏估计,有

$$V(\hat\theta_1) < V(\hat\theta_2) $$

则称 $\hat\theta_1$$\hat\theta_2$ 更有效


$def.$ 估计的一致性(类比于一致收敛)

一致性是指随着样本容量 $n$ 增大,估计量越来越接近总体参数。即对于任意 $\epsilon > 0$ ,有

$$\lim_{n\rightarrow\infty}P(|\hat\theta - \theta|<\epsilon) = 1 $$

则称 $\hat\theta$$\theta$ 的一致性估计量

2. Interval Estimation

$def.$ 置信区间

设总体 $X$ 的分布$\ F(x;\theta)$ 中含有未知参数 $\theta$ ,若存在样本的两个估计量 $\underline{\theta}(X_i)$$\overline{\theta}(X_i)$ $(i = 1, \ 2,\ …,\ n)$ 使得对于给定的 $\alpha\ (0 < \alpha <1)$ ,有

$$P(\underline\theta<\theta<\overline\theta) = 1 - \alpha $$

则称随机区间 $(\underline\theta,\overline\theta)$ 为总体参数 $\theta$ 的置信水平为 $1 - \alpha$ 的(双侧)置信区间,$\underline\theta$$ \overline\theta$ 分别为置信下限和置信上限

2.1. 单总体均值区间估计

估计条件 1 $X\sim\mathbb{N}(\mu,\sigma^2)$$\sigma^2$ 已知,$\mu$ 未知

估计条件 2. $X\sim\mathbb{N}(\mu,\sigma^2)$$\sigma^2$$\mu$ 未知

估计条件 3. $X$ 不服从 $\text{Gauss}$ 分布,但是样本容量较大(大于30)

2.2. 单总体方差区间估计

估计条件 1. $X\sim\mathbb{N}(\mu,\sigma^2)$$\sigma^2$$\mu$ 未知

2.3. 双总体均值差区间估计

估计条件 1. $X\sim\mathbb{N}(\mu_1,\sigma_1^2)$$Y\sim\mathbb{N}(\mu_2,\sigma_2^2)$$\sigma^2$$\mu_1,\ \mu_2$ 未知,$\sigma_1^2,\ \sigma_2^2$ 已知

估计条件 2. $X\sim\mathbb{N}(\mu_1,\sigma_1^2)$$Y\sim\mathbb{N}(\mu_2,\sigma_2^2)$$\sigma^2$$,$$\mu_1,\ \mu_2$ 未知,$\sigma_1^2,\ \sigma_2^2$ 未知,但 $\sigma_1^2=\sigma_2^2$

估计条件3. $X$$Y$ 不服从 $\text{Gauss}$ 分布,但是样本容量均较大(大于30)

2.4. 双总体方差比区间估计

估计条件 1. $X\sim\mathbb{N}(\mu_1,\sigma_1^2)$$Y\sim\mathbb{N}(\mu_2,\sigma_2^2)$$\sigma^2$$\mu_1,\ \mu_2$ 未知,$\sigma_1^2,\ \sigma_2^2$ 未知

2.5. 二项分布区间估计(考察 $\text{Bernoulli}$分布正态逼近定理)

2.6. 单侧置信区间