Lecture 2-1 MVUE

2025-09-09, 00:00 5 분 소요

학교 수업 복습 칸입니다.

무엇을 추정(Estimation)하는 것인가?

공학을 하면서 수도없이 부딛히는 질문과 해답이 있다.
측정한 데이터를 어떠한 모델로 바꾸고, 그 모델을 바탕으로 새로운 입력에 대한 출력을 예상하는 것.
보통의 엔지니어들이 늘 요구받는 것들이다. 사실 사회학자들도 마찬가지겠다마는…..

그래서, 어떤 입력(Input)이 물리 시스템(Physical System)을 거쳐 어떤 Output(데이터, 관측값, 측정값 등등등.)을 출력한다고 할때,
이것을 Input / Model $\theta$ / x[n] {x[0].x[1],……x[N-1]} 의 형태로 표현한다.

우리는 여기서 모델을 나타내는 $\theta$ 를 어떻게 추정하는가가 이 과목의 핵심이다.

1. Estimator의 정의

Estimator는

표본(측정치, 관측치)을 입력으로 받아서,
미지의 파라미터(확률적 모수)에 대한 추정값(estimate) 을 산출하는
규칙(rule) 또는 함수(function)

\[\text{Estimator : } \hat{\theta} = g(X_1,X_2,.....X_n)\]

예: 모집단의 평균 μ를 알고 싶을 때, 표본의 평균 $\bar{X}$을 이용해 $\mu$를 추정한다면,
Estimator는 $\hat{\mu} = \frac{1}{n}\sum_{i=1}^n X_i$
Estimate는 실제 데이터로 계산된 값 (예: 5.2)

방금의 예시에서는 “평균”이라는 수단이 Estimator (이걸 추정량이라고 한다고..? ) 라고 할 수 있다.

한 그룹에 키의 평균이 167인 집단이 있다. 이 집단의 누구를 뽑아도 그 사람은 키가 167에 비슷하다고 할 수 있다. 할수 있나? 여기서 두번째 질문을 확장해보자.

2. Estimator 의 성질

Estimator 를 평가하는 몇가지 기준이 있다. 당연하게도.

2.1. Bias

추정량(Estimator)의 기대값(평균)이 실제 모수와 같으면 불(不)편추정량(Unbiased estimator) : $\mathbb{E}[\hat{\theta}] = \theta$
그렇지 않으면……… 편의(篇倚)추정량. 그래프가 옆으로 치우쳐졌다는 뜻. : $\mathbb{E}[\hat{\theta}] \neq \theta$

이때, $\mathbb{E}[\hat{\theta}] - \theta$ 를 편의 bias 라고 한다. $b(\theta) = \mathbb{E}[\hat{\theta}] - \theta$

간단한 예제를 통해 전개를 한번 해보자.

$\hat{\theta}_1, \hat{\theta}_2, \dots, \hat{\theta}_n$ 를 $\theta$ 의 추정값”들”이라고 하자.(Estimations)
이때 새로운 Estimator 를 기존 estimator들의 평균으로 새롭게 정의해보자. $ \hat{\theta} = \frac{1}{n} \sum_{i=1}^n \hat{\theta}_i.$
만약, 불편추정량이고(Unbiased), 상관관계가 없으며(Uncorrelated), 동일한 분산(with same variance)를 가진다면
\[\mathbb{E}[\hat{\theta}] = \theta\] \[\mathrm{var}(\hat{\theta}) = \frac{1}{n^2} \sum_{i=1}^n \mathrm{var}(\hat{\theta}_i) = \frac{1}{n}\,\mathrm{var}(\hat{\theta}_1).\]

두번째 수식의 유도가 좀 궁금했다.

우선 분산의 성질을 알아보자. $\text{var}(aX) = a^2\text{var}(X)\,\,\,\,\,\ \text{상수는 제곱되어 튀어나온다.}$
$\text{var}(X+Y) = \text{var}(X) + \text{var}(Y)\,\,\,\,\,\ \text{둘이 상관관계가 없으면. Uncorrelated}$
이걸 위의 식에 적용보자. $\mathrm{var}(\hat{\theta}) = \mathrm{var} \left(\frac{1}{n} \sum_{i=1}^n \hat{\theta}_i\right) = \frac{1}{n^2} \mathrm{var} \left(\sum_{i=1}^n \hat{\theta}_i\right)$

둘이 uncorrelated 면

\[\mathrm{var} \left(\sum_{i=1}^n \hat{\theta}_i\right) = \mathrm{var} \left( \hat{\theta}_1+\hat{\theta}_2+\hat{\theta}_3......+\hat{\theta}_i\right) = \mathrm{var}(\hat{\theta}_1) +\mathrm{var}(\hat{\theta}_2) +\mathrm{var}(\hat{\theta}_3) ....\mathrm{var}(\hat{\theta}_i) = \sum_{i=1}^n \mathrm{var}(\hat{\theta}_i)\]

여기에…. 모든 $\hat{\theta}_i$가 같은 분산 $\sigma^2$를 가진다고 하면, $\mathrm{var}(\hat{\theta}_i) = \frac{1}{n^2} \mathrm{var} \left(\sum_{i=1}^n \hat{\theta}_i\right)= \frac{1}{n^2}n\sigma^2 = \frac{\sigma^2}{n} \tag{1}$

이렇게 전개된 항에서, 만약 $ n \rightarrow \infty $ 가 되면, $ \mathrm{var} $ 는 0이 된다. 이는 분포가 점점 한 점에 수렴한다는 뜻으로, 의미론적으로 해석하면 $ \hat{\theta} = \theta $ 가 됨을 의미한다.

그런데… 여기서 bias 가 있다면. 두둥.

추정량 $\hat{\theta}_i$가 biased estimator라고 가정.
즉, $\mathbb{E}[\hat{\theta}_i] = \theta + b(\theta)$ 여기서 $b(\theta)$는 추정량의 bias (편향).
평균 추정량 정의: $\hat{\theta} = \frac{1}{n}\sum_{i=1}^n \hat{\theta}_i$
기대값은 선형성을 이용해: $\mathbb{E}[\hat{\theta}] = \frac{1}{n}\sum_{i=1}^n \mathbb{E}[\hat{\theta}_i] = \frac{1}{n}\sum_{i=1}^n \big(\theta + b(\theta)\big) = \theta + b(\theta)$
Bias는 평균을 내더라도 사라지지 않는다.

\[\mathbb{E} (\hat{\theta}) = \theta + b(\theta) = \frac{1}{n} \sum_{i=1}^n \mathbb{E}(\hat{\theta}_i)\]

수식을 해석해보면,

분산은 $n$이 커질수록 줄어들지만,
bias가 그대로 남아 있기 때문에, $\hat{\theta} \not\to \theta \quad (n \to \infty)$
즉, 일치성(consistency)이 없다.

2.2. Efficiency (효율성)

같은 불편 추정기 중 분산이 가장 작은 경우

2.3 Consistency (일치성)

$n \to \infty$ 일 때 $\hat{\theta}_n \xrightarrow{p} \theta$

2. 4. Sufficiency (충분성)

데이터 속 파라미터에 대한 모든 정보를 담고 있음

3. Estimator의 종류

점 추정기 (Point Estimator): 하나의 값으로 추정
구간 추정기 (Interval Estimator): 신뢰구간으로 추정
선형 / 비선형 추정기

주요 예시

모평균: $\hat{\mu} = \frac{1}{n}\sum X_i$
모분산: $\hat{\sigma}^2 = \frac{1}{n-1}\sum (X_i - \bar{X})^2$
MLE: 데이터 중심, 가장 널리 쓰임
MAP: 데이터 + 사전지식 결합
MMSE: 평균제곱오차 기준 최적
MVUE: 불편성과 최소분산 동시 만족

대표적인 Estimator 비교

추정 방법	기본 아이디어	수학적 정의	장점	단점
MLE (Maximum Likelihood Estimator, 최대우도추정)	관측된 데이터가 나올 확률을 최대화하는 파라미터 선택	$\hat{\theta}{MLE} = \arg\max{\theta} L(\theta \mid X)$	- 직관적이고 일반적 - 큰 표본에서 좋은 성질	- 작은 표본에서 편향 가능 - 계산 복잡
MAP (Maximum A Posteriori Estimator, 사후확률최대추정)	우도 + 사전분포(Prior)를 고려해 사후확률이 최대인 파라미터 선택	$\hat{\theta}{MAP} = \arg\max{\theta} p(\theta \mid X)$ $ = \arg\max_{\theta} p(X \mid \theta) p(\theta)$	- Prior 반영 가능 - 작은 표본에서도 안정적	- Prior 선택이 주관적
MMSE (Minimum Mean Square Error Estimator, 최소평균제곱오차추정)	추정치와 참값의 평균 제곱 오차 최소화	$\hat{\theta}_{MMSE} = E[\theta \mid X]$	- 오차 최소화 기준 - 확률적 불확실성 고려	- 계산 복잡 - 사후분포 필요
MVUE (Minimum Variance Unbiased Estimator, 최소분산 불편추정)	불편추정기 중 분산이 최소인 추정기	$E[\hat{\theta}] = \theta $ & 최소 분산	- 불편성과 효율성 동시 만족	- 항상 존재하지 않음 - 계산 복잡

4. MSE

한줄 요약 $\mathrm{mse}(\hat{\theta}) = \mathbb{E}(\hat{\theta}-\theta)^2$

이걸 전개해보자.

\[\begin{align*} \text{mse}(\hat{\theta}) &= \mathbb{E}\!\left[ \, (\hat{\theta} - \theta)^2 \, \right] \\[6pt] &= \mathbb{E}\!\left[ \, \big(\hat{\theta} - \mathbb{E}[\hat{\theta}] + \mathbb{E}[\hat{\theta}] - \theta \big)^2 \, \right] \\[6pt] &= \mathbb{E}\!\left[ \, \big( (\hat{\theta} - \mathbb{E}[\hat{\theta}]) + (\mathbb{E}[\hat{\theta}] - \theta) \big)^2 \, \right] \\[6pt] &= \mathbb{E}\!\left[ (\hat{\theta} - \mathbb{E}[\hat{\theta}])^2 \right] + \mathbb{E}\!\left[ (\mathbb{E}[\hat{\theta}] - \theta)^2 \right] \\[6pt] &= \operatorname{Var}(\hat{\theta}) + \big(\mathbb{E}[\hat{\theta}] - \theta \big)^2 \\[6pt] &= \operatorname{Var}(\hat{\theta}) + b(\theta)^2 \end{align*}\]

즉 $ \mathrm{MSE} = \mathrm{Variance} + \mathrm{Bias}^2 $

수식이 잘 이해 안된다고? 이렇게 전개해보자. Thank you ChatGPT

\[\text{MSE}(\hat{\theta}) = \mathbb{E}\big[(\hat{\theta} - \theta)^2\big]\]

(1) 기대값을 더하고 빼기

$\mathbb{E}\big[(\hat{\theta} - \theta)^2\big] = \mathbb{E}\big[(\hat{\theta} - \mathbb{E}[\hat{\theta}] + \mathbb{E}[\hat{\theta}] - \theta )^2\big]$

여기서,

$A = \hat{\theta} - \mathbb{E}[\hat{\theta}]$
$B = \mathbb{E}[\hat{\theta}] - \theta$

라 두면,
$= \mathbb{E}[(A + B)^2]$

(2) 제곱 전개

$\mathbb{E}[(A + B)^2] = \mathbb{E}[A^2 + 2AB + B^2]$

(3) 기대값의 선형성과 항별 계산

$= \mathbb{E}[A^2] + 2\mathbb{E}[A]B + \mathbb{E}[B^2]$

$\mathbb{E}[A] = \mathbb{E}[\hat{\theta} - \mathbb{E}[\hat{\theta}]] = 0$
$B$는 상수이므로 $\mathbb{E}[B^2] = B^2$

따라서, $= \mathbb{E}[A^2] + B^2$

(4) Var와 Bias로 표현

$= \operatorname{Var}(\hat{\theta}) + (\mathbb{E}[\hat{\theta}] - \theta)^2$

즉, $\boxed{\text{MSE} = \text{Variance} + \text{Bias}^2}$

5. MVUE (Minimum Variance Un-biased Estimator)

Find Estimator which minimizes the variance from a set of un-biased estimators.
un-biased 추정량들 사이에서 최소 분산을 갖는 추정량을 찾는 과정이다.

MVUE란 기댓값이 참값과 같은(불편성, unbiased) 추정량(Estimator)들 중에서, 그중 분산이 최소인 추정량(Estimator)를 찾는다

불편 추정량 (Unbiased Estimator): $ \mathbb{E}[\hat{\theta}] = \theta $ 를 만족하는 추정기
MVUE: 불편 추정량 중에서 분산이 가장 작은 추정량

$\hat{\theta}_{MVUE} = \arg\min_{\hat{\theta} \in U} \operatorname{Var}(\hat{\theta})$ ($U$: Unbiased Estimator들의 집합)

(예시 1).

모집단: $X_1, X_2, \dots, X_n \overset{iid}{\sim} \mathcal{N}(\mu, \sigma^2)$
목표: $\mu$의 추정

추정량	정의	불편성 확인	분산
표본평균 $\hat{\mu}_1$	$\hat{\mu}1 = \frac{1}{n}\sum{i=1}^n X_i$	$ \mathbb{E}[\hat{\mu}_1] = \mu $	$ \operatorname{Var}(\hat{\mu}_1) = \frac{\sigma^2}{n} $
첫 샘플 $\hat{\mu}_2$	$\hat{\mu}_2 = X_1$	$ \mathbb{E}[\hat{\mu}_2] = \mu $	$ \operatorname{Var}(\hat{\mu}_2) = \sigma^2 $

첫 샘플의 $\sigma^2$는 모집단에서 이미 정의되었다. 표본평균의 분산은 앞서 수식(1)을 참조하자. 저~~기 위에 있다.

비교:
$ \operatorname{Var}(\hat{\mu}_1) = \frac{\sigma^2}{n} \leq \sigma^2 = \operatorname{Var}(\hat{\mu}_2) $
→ 따라서 표본평균 $\hat{\mu}_1$ 이 MVUE.

(예시 2): 모분산 $\sigma^2$ 추정

모집단: $X_1, \dots, X_n \overset{iid}{\sim} \mathcal{N}(\mu, \sigma^2)$

추정기:
$ \hat{\sigma}^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2 $

불편성: $ \mathbb{E}[\hat{\sigma}^2] = \sigma^2 $
최소 분산도 만족

→ 따라서 $\hat{\sigma}^2$ 은 $\sigma^2$의 MVUE.

Appendix. Summary. Estimator / Estimate / 평균 추정량 구분

구분	기호	정의	성질	예시
모수 (Parameter)	$\theta$	모집단의 참값 (고정, 미지)	확률변수가 아님	모집단 평균 $\mu$
추정량 (Estimator)	$\hat{\theta}$	표본 데이터의 함수 (랜덤)	확률변수	$\hat{\mu} = \frac{1}{n}\sum X_i$
추정값 (Estimate)	$\hat{\theta}(x_1,\dots,x_n)$	실제 데이터 대입 후 계산된 값	고정된 수치	$\hat{\mu} = 5.3$
여러 추정량	$\hat{\theta}_1, \hat{\theta}_2, \dots, \hat{\theta}_n$	동일 모수를 다른 방식(혹은 독립 시도)으로 추정한 값들	서로 uncorrelated, unbiased 가정	각기 다른 실험에서 얻은 평균 추정량
평균 추정량 (Pooled Estimator)	$\hat{\theta} = \frac{1}{n}\sum_{i=1}^n \hat{\theta}_i$	여러 추정량을 평균내어 만든 새로운 추정량	불편성 유지, 분산이 $1/n$로 감소	표본평균의 분산이 $\sigma^2/n$이 되는 원리와 동일

끝.

Twitter Facebook LinkedIn

송영국