Processing math: 3%


6. Parameter Estimation

Parameter Estimation

1. Point Estimation

1.1. Method of Moments

def. 矩估计

随机变量 X 服从某总体分布,其中包含 k 个未知参数,θ_i(i = 1, 2, … , k), \ μ_l = E(X^l) 为总体的 l 阶矩。X_i(i = 1, 2, … , n) 是来自于 X 的样本,那么求解以下方程组得到的估计值 θ_i(i = 1, 2, …, k) 的方法称为矩估计法。

μ_i = A_i(i = 1, 2, …, k)

thm. 矩估计定理

设随机变量 X 的数学期望和 μ 和方差 σ^2 都存在,且有估计量 σ^2>0μσ^2 均未知。X_i(i = 1, 2, …, n) 为来自 X 的样本。则 μ{σ}^2 的估计量分别为

\hat{μ} = \overline{X} \quad \hat{σ}^2 = \frac{1}{n}\sum_{i = 1}^{n}(X_i - \overline{X})^2

1.2. Maximum Likelihood Estimation

MLE 是通过最大化一个似然函数来估计一个概率分布的参数, 使得在假设的统计模型下, 观测数据最有可能出现. 形式化地, 从条件概率的角度说, MLE 的似然函数 \mathcal L 有定义为

\mathcal L(\theta\mid X)=p(X\mid \theta)

其中 p 为概率密度函数, X 为随机变量, \theta 为全体待估计的参数. 具体来说:

  • \theta 固定, p(X|\theta) 看作是 X 的函数, 也就是 PDF (概率密度函数)
  • X 固定, \mathcal L(\theta|X) 看作是关于 \theta 的函数, 也就是似然函数

thm. 极大似然估计

x 是样本值, θ 为需要估计的总体参数, \mathcal L 为似然函数, 极大似然估计的等式定义如下:

\hatθ_{MLE}(x) = \underset{θ\in\Theta}{\operatorname{argmax}}\mathcal L(θ)

其中,对于随机变量 X, 似然函数 \mathcal L(θ) = \displaystyle\prod_{i = 1}^nP(X = x_i|\theta). 但是考虑到计算时, 多个概率连乘很可能造成浮点下溢, 我们往往用对数函数来进行估计, 即

\begin {align} \hatθ_{MLE}(x) &= \underset{θ\in\Theta}{\operatorname{argmax}}\ln \mathcal L(θ\mid X)\\ &=\underset{θ\in\Theta}{\operatorname{argmax}}\sum_{x_i\in X}\ln p(x_i\mid \theta) \end {align}

thm. \text{Poisson} 分布极大似然估计定理

X\sim\pi(\lambda) , X_i(i = 1,2,…,n)X 的一个样本,则\hat{\lambda} = \overline{X}


thm. \text{Exponential} 分布极大似然估计定理

X\sim\mathbb{E}(\lambda) , X_i(i = 1,2,…,n)X 的一个样本, 则\displaystyle \hat{\lambda} = \frac{1}{\overline{X}}


thm. \text{Gaussian} 分布极大似然估计定理

X\sim\mathbb{N}(\mu,\sigma^2) , X_i(i = 1,2,…,n)X 的一个样本, 则

\begin{align} \hat{μ} &= \overline{X}\\ \hat{σ}^2 &= \frac{1}{n}\sum_{i = 1}^{n}(X_i - \overline{X})^2 \end{align}

thm. \text{Uniform} 分布极大似然估计定理

X\sim\mathbb{U}(a,b) , X_i(i = 1,2,…,n)X 的一个样本, 则 ab 的极大似然估计分别为 \displaystyle\min_i{X_i}\displaystyle\max_i{X_i}

1.3. Truncated Estimation

截尾估计

1.4. Estimation Analysis

我们需要度量估计的好坏.

def. 估计的无偏性

无偏估计指的是估计量抽样分布的数学期望等于被估总体参数。即对于 \hat\theta(X_1,\ X_2, …,\ X_n)E(\hat\theta) 存在且有

E(\hat{\theta}) = \theta

则称 \hat\theta\theta 的无偏估计

lemma.

X_i(i = 1,2,…,n)X 的一个样本, g(x)x 的函数且 E(g(X_i))Var(g(X_i)) 存在, 则

\begin{align} E(\sum_{i = 1}^ng(X_i)) &= n(E(g(X_1)))\\ Var(\sum_{i = 1}^ng(X_i)) &= n(Var(g(X_1))) \end{align}

thm.

设总体 X 的均值是 \mu ,方差为 \sigma^2X_i(i = 1,2,…,n)X 的一个样本,则:

(1)E(\overline{X}) = \mu ( \overline X\mu 的无偏估计)

(2)V(\overline{X})=\frac{\sigma^2}{n}

(3)E(S^2)=\sigma^2S^2\sigma^2 的无偏估计)

其中,S^2要考虑偏差,有 S^2 = \displaystyle \frac{1}{n - 1}\displaystyle\sum_{i = 1}^{n}(X_i - \overline{X})^2


thm.

设总体 Xk 阶矩 \mu_k = E(X^k)k \geq 1 存在,无论总体服从什么分布,k 阶样本矩A_k = \frac{1}{n}\displaystyle\sum_{i = 1}^nX_i^kk 阶总体矩 \mu_k 的无偏估计


def. 估计的有效性

对于总体未知参数的两个无偏估计量,相应抽样分布的方差小视为更有效,即,若 \hat\theta_1,\hat\theta_2\theta 的两个无偏估计,有

V(\hat\theta_1) < V(\hat\theta_2)

则称 \hat\theta_1\hat\theta_2 更有效


def. 估计的一致性(类比于一致收敛)

一致性是指随着样本容量 n 增大,估计量越来越接近总体参数。即对于任意 \epsilon > 0 ,有

\lim_{n\rightarrow\infty}P(|\hat\theta - \theta|<\epsilon) = 1

则称 \hat\theta\theta 的一致性估计量

2. Interval Estimation

def. 置信区间

设总体 X 的分布\ F(x;\theta) 中含有未知参数 \theta ,若存在样本的两个估计量 \underline{\theta}(X_i)\overline{\theta}(X_i) (i = 1, \ 2,\ …,\ n) 使得对于给定的 \alpha\ (0 < \alpha <1) ,有

P(\underline\theta<\theta<\overline\theta) = 1 - \alpha

则称随机区间 (\underline\theta,\overline\theta) 为总体参数 \theta 的置信水平为 1 - \alpha 的(双侧)置信区间,\underline\theta \overline\theta 分别为置信下限和置信上限

2.1. 单总体均值区间估计

估计条件 1 X\sim\mathbb{N}(\mu,\sigma^2)\sigma^2 已知,\mu 未知

估计条件 2. X\sim\mathbb{N}(\mu,\sigma^2)\sigma^2\mu 未知

估计条件 3. X 不服从 \text{Gauss} 分布,但是样本容量较大(大于30)

2.2. 单总体方差区间估计

估计条件 1. X\sim\mathbb{N}(\mu,\sigma^2)\sigma^2\mu 未知

2.3. 双总体均值差区间估计

估计条件 1. X\sim\mathbb{N}(\mu_1,\sigma_1^2)Y\sim\mathbb{N}(\mu_2,\sigma_2^2)\sigma^2\mu_1,\ \mu_2 未知,\sigma_1^2,\ \sigma_2^2 已知

估计条件 2. X\sim\mathbb{N}(\mu_1,\sigma_1^2)Y\sim\mathbb{N}(\mu_2,\sigma_2^2)\sigma^2\mu_1,\ \mu_2 未知,\sigma_1^2,\ \sigma_2^2 未知,但 \sigma_1^2=\sigma_2^2

估计条件3. XY 不服从 \text{Gauss} 分布,但是样本容量均较大(大于30)

2.4. 双总体方差比区间估计

估计条件 1. X\sim\mathbb{N}(\mu_1,\sigma_1^2)Y\sim\mathbb{N}(\mu_2,\sigma_2^2)\sigma^2\mu_1,\ \mu_2 未知,\sigma_1^2,\ \sigma_2^2 未知

2.5. 二项分布区间估计(考察 \text{Bernoulli}分布正态逼近定理)

2.6. 单侧置信区间