6. Parameter Estimation

$$\huge\textbf{Parameter Estimation} $$

1. Point Estimation

1.1. Method of Moments

$def.$ 矩估计

随机变量 $X$ 服从某总体分布其中包含 $k$ 个未知参数$θ_i(i = 1, 2, … , k), \ μ_l = E(X^l)$ 为总体的 $l$ 阶矩$X_i(i = 1, 2, … , n)$ 是来自于 $X$ 的样本那么求解以下方程组得到的估计值 $θ_i(i = 1, 2, …, k)$ 的方法称为矩估计法

$$μ_i = A_i(i = 1, 2, …<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span> k) $$

$thm.$ 矩估计定理

设随机变量 $X$ 的数学期望和 $μ$ 和方差 $σ^2$ 都存在且有估计量 $σ^2>0$$μ$$σ^2$ 均未知$X_i(i = 1, 2, …<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span> n)$ 为来自 $X$ 的样本$μ$${σ}^2$ 的估计量分别为

$$\hat{μ} = \overline{X} \quad \hat{σ}^2 = \frac{1}{n}\sum_{i = 1}^{n}(X_i - \overline{X})^2 $$

1.2. Maximum Likelihood Estimation

MLE 是通过最大化一个似然函数来估计一个概率分布的参数, 使得在假设的统计模型下, 观测数据最有可能出现. 形式化地, 从条件概率的角度说, MLE 的似然函数 $\mathcal L$ 有定义为

$$\mathcal L(\theta\mid X)=p(X\mid \theta) $$

其中 $p$ 为概率密度函数, $X$ 为随机变量, $\theta$ 为全体待估计的参数. 具体来说:

  • $\theta$ 固定, $p(X|\theta)$ 看作是 $X$ 的函数, 也就是 PDF (概率密度函数)
  • $X$ 固定, $\mathcal L(\theta|X)$ 看作是关于 $\theta$ 的函数, 也就是似然函数

$thm.$ 极大似然估计

$x$ 是样本值, $θ$ 为需要估计的总体参数, $\mathcal L$ 为似然函数, 极大似然估计的等式定义如下

$$\hatθ_{MLE}(x) = \underset{θ\in\Theta}{\operatorname{argmax}}\mathcal L(θ) $$

其中对于随机变量 $X$, 似然函数 $\mathcal L(θ) = \displaystyle\prod_{i = 1}^nP(X = x_i|\theta)$. 但是考虑到计算时, 多个概率连乘很可能造成浮点下溢, 我们往往用对数函数来进行估计, 即

$$\begin {align} \hatθ_{MLE}(x) &= \underset{θ\in\Theta}{\operatorname{argmax}}\ln \mathcal L(θ\mid X)\\ &=\underset{θ\in\Theta}{\operatorname{argmax}}\sum_{x_i\in X}\ln p(x_i\mid \theta) \end {align} $$

$thm.$ $\text{Poisson}$ 分布极大似然估计定理

$X\sim\pi(\lambda)$ , $X_i(i = 1,2,…,n)$$X$ 的一个样本,则$\hat{\lambda} = \overline{X}$


$thm.$ $\text{Exponential}$ 分布极大似然估计定理

$X\sim\mathbb{E}(\lambda)$ , $X_i(i = 1,2,…,n)$$X$ 的一个样本, 则$\displaystyle \hat{\lambda} = \frac{1}{\overline{X}}$


$thm.$ $\text{Gaussian}$ 分布极大似然估计定理

$X\sim\mathbb{N}(\mu,\sigma^2)$ , $X_i(i = 1,2,…,n)$$X$ 的一个样本, 则

$$\begin{align} \hat{μ} &= \overline{X}\\ \hat{σ}^2 &= \frac{1}{n}\sum_{i = 1}^{n}(X_i - \overline{X})^2 \end{align} $$

$thm.$ $\text{Uniform}$ 分布极大似然估计定理

$X\sim\mathbb{U}(a,b)$ , $X_i(i = 1,2,…,n)$$X$ 的一个样本, 则 $a$$b$ 的极大似然估计分别为 $\displaystyle\min_i{X_i}$ $\displaystyle\max_i{X_i}$

1.3. Truncated Estimation

截尾估计

1.4. Estimation Analysis

我们需要度量估计的好坏.

$def.$ 估计的无偏性

无偏估计指的是估计量抽样分布的数学期望等于被估总体参数即对于 $\hat\theta(X_1,\ X_2, …<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>\ X_n)$$E(\hat\theta)$ 存在且有

$$E(\hat{\theta}) = \theta $$

则称 $\hat\theta$$\theta$ 的无偏估计

$lemma.$

$X_i(i = 1,2,…,n)$$X$ 的一个样本, $g(x)$$x$ 的函数且 $E(g(X_i))$$Var(g(X_i))$ 存在, 则

$$\begin{align} E(\sum_{i = 1}^ng(X_i)) &= n(E(g(X_1)))\\ Var(\sum_{i = 1}^ng(X_i)) &= n(Var(g(X_1))) \end{align} $$

$thm.$

设总体 $X$ 的均值是 $\mu$ 方差为 $\sigma^2$$X_i(i = 1,2,…,n)$$X$ 的一个样本

1$E(\overline{X}) = \mu$ ( $\overline X$$\mu$ 的无偏估计)

2$V(\overline{X})=\frac{\sigma^2}{n}$

3$E(S^2)=\sigma^2$ $S^2$$\sigma^2$ 的无偏估计

其中$S^2$要考虑偏差$S^2 = \displaystyle \frac{1}{n - 1}\displaystyle\sum_{i = 1}^{n}(X_i - \overline{X})^2$


$thm.$

设总体 $X$$k$ 阶矩 $\mu_k = E(X^k)$$k \geq 1$ 存在无论总体服从什么分布$k$ 阶样本矩$A_k = \frac{1}{n}\displaystyle\sum_{i = 1}^nX_i^k$$k$ 阶总体矩 $\mu_k$ 的无偏估计


$def.$ 估计的有效性

对于总体未知参数的两个无偏估计量相应抽样分布的方差小视为更有效$\hat\theta_1<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>\hat\theta_2$$\theta$ 的两个无偏估计

$$V(\hat\theta_1) < V(\hat\theta_2) $$

则称 $\hat\theta_1$$\hat\theta_2$ 更有效


$def.$ 估计的一致性类比于一致收敛

一致性是指随着样本容量 $n$ 增大估计量越来越接近总体参数即对于任意 $\epsilon > 0$

$$\lim_{n\rightarrow\infty}P(|\hat\theta - \theta|<\epsilon) = 1 $$

则称 $\hat\theta$$\theta$ 的一致性估计量

2. Interval Estimation

$def.$ 置信区间

设总体 $X$ 的分布$\ F(x;\theta)$ 中含有未知参数 $\theta$ 若存在样本的两个估计量 $\underline{\theta}(X_i)$$\overline{\theta}(X_i)$ $(i = 1, \ 2,\ …,\ n)$ 使得对于给定的 $\alpha\ (0 < \alpha <1)$

$$P(\underline\theta<\theta<\overline\theta) = 1 - \alpha $$

则称随机区间 $(\underline\theta<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>\overline\theta)$ 为总体参数 $\theta$ 的置信水平为 $1 - \alpha$双侧置信区间$\underline\theta$$ \overline\theta$ 分别为置信下限和置信上限

2.1. 单总体均值区间估计

估计条件 1 $X\sim\mathbb{N}(\mu,\sigma^2)$$\sigma^2$ 已知$\mu$ 未知

估计条件 2. $X\sim\mathbb{N}(\mu,\sigma^2)$$\sigma^2$$\mu$ 未知

估计条件 3. $X$ 不服从 $\text{Gauss}$ 分布但是样本容量较大大于30

2.2. 单总体方差区间估计

估计条件 1. $X\sim\mathbb{N}(\mu,\sigma^2)$$\sigma^2$$\mu$ 未知

2.3. 双总体均值差区间估计

估计条件 1. $X\sim\mathbb{N}(\mu_1,\sigma_1^2)$ $Y\sim\mathbb{N}(\mu_2,\sigma_2^2)$$\sigma^2$$\mu_1,\ \mu_2$ 未知$\sigma_1^2,\ \sigma_2^2$ 已知

估计条件 2. $X\sim\mathbb{N}(\mu_1,\sigma_1^2)$ $Y\sim\mathbb{N}(\mu_2,\sigma_2^2)$$\sigma^2$$<span class="bd-box"><h-char class="bd bd-beg"><h-inner>,</h-inner></h-char></span>$$\mu_1,\ \mu_2$ 未知$\sigma_1^2,\ \sigma_2^2$ 未知$\sigma_1^2=\sigma_2^2$

估计条件3. $X$$Y$ 不服从 $\text{Gauss}$ 分布但是样本容量均较大大于30

2.4. 双总体方差比区间估计

估计条件 1. $X\sim\mathbb{N}(\mu_1,\sigma_1^2)$ $Y\sim\mathbb{N}(\mu_2,\sigma_2^2)$$\sigma^2$$\mu_1,\ \mu_2$ 未知$\sigma_1^2,\ \sigma_2^2$ 未知

2.5. 二项分布区间估计考察 $\text{Bernoulli}$分布正态逼近定理

2.6. 单侧置信区间