모수란
- 통계적 모델링은 적절한 가정 위에서 확률 분포를 추정이 목표
- 유한한 개수의 데이터만 관찰해서 모집단의 분포를 정확하게 알기는 힘듦
- 데이터가 특정 확률 분포를 따른다고 선험적으로(a priori) 가정한 후 그 분포를 결정하는 모수(parameter)를 추정하는 방법 → 모수적(parameteric) 방법론
- Ex. 정규 분포를 가지고 확률 분포를 모델링한다고 할 때 정규 분포의 모수(평균, 분산)를 추정하는 방법을 통해 데이터 학습
- 특정 확률 분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면 비모수(nonparametric) 방법론이라고 함
- 모수가 없는 경우가 아니라 모수가 무한히 많거나 모수의 개수가 데이터에 따라 바뀌는 경우를 의미
확률 분포 가정
- 확률 분포 가정하는 방법
- 데이터가 2개의 값(0 또는 1)만 가지는 경우 → 베르누이 분포
- 데이터가 n개의 이산적인 값을 가지는 경우 → 카테고리 분포
- 데이터가 [0, 1] 사이에서 값을 가지는 경우 → 베타 분포
- 데이터가 0 이상의 값을 가지는 경우 → 감마 분포, 로그정규분포 등
- 데이터가 $\R$ 전체에서 값을 가지는 경우 → 정규 분포, 라플라스 분포 등
- 기계적으로 확률 분포를 가정해면 안 됨
- 데이터가 어떻게 생성됐는지 원리를 먼저 고려
- 어떤 확률 분포가 적절한지를 분석 후 선택
- 각 분포마다 검정하는 방법들이 있으므로 모수를 추정한 후에는 반드시 검정
데이터로 모수 추정
- Ex. 정규 분포의 모수(평균과 분산 모수 존재)
- 이를 추정하는 통계량(statistic)은 다음과 같음
- 표본평균: $\bar{X} = \frac{1}{N} \sum^{N}_{i=1} X_i$ → $\mathbb{E}[\bar{X}] = \mu$
- 표본분산: $S^2 = \frac{1}{N-1} \sum^N_{i=1}(X_i- \bar{X})^2$ → $\mathbb{E}[S^2] = \sigma^2$
- 표본분산을 구할 때 $N$이 아니라 $N - 1$로 나누는 이유는 불편(unbiased) 추정량을 구하기 위함
- 표본평균과 표본분산을 정의한 후 주어진 데이터를 가지고 데이터의 확률 분포 모수를 추정이 가능
표집분포와 표본분포
- 표집분포와 표본 분포는 다름
- 표집분포(Sampling distribution)
- 통계량의 확률분포
- 표본들의 분포가 아니라 표본 평균과 표본 분산의 확률 분포 → 표집 분포
- 표본평균의 표집분포는 N이 커질수록(데이터를 많이 모을수록) 정규분포를 따름
→ 중심 극한 정리(Central Limit Theorem)
- 표본분포(Sample distribution)
- Ex. 모집단의 분포가 정규분포를 따르지 않는다
→ Sample distribution은 데이터를 많이 모아도 정규분포가 될 수 없음
Maximum Likelihood Estimation(MLE)
- 표본 평균이나 표본 분산은 중요한 통계량이지만 확률 분포마다 사용하는 모수가 다르므로 적절한 통계량이 조금씩 달라질 수 있음
- 이론적으로 가장 가능성이 높은 모수(Parameter)를 추정하는 방법
→ Maximum Likelihood Estimation(MLE)
- $\hat{\theta}_{MLE} = \underset{\theta}{\argmax}~~L(\theta;x) = \underset{\theta}{\argmax}~~P(x|\theta)$
- Likelihood 함수란
- $L(\theta;x)$로 정의
- Likelihood와 확률의 차이
- 관점의 차이가 존재
- Likelihood는 주어진 $x$ 데이터에 대해서 모수 $\theta$를 변수로 둔 함수
- 확률 질량 함수 or 확률 밀도 함수는 $\theta$가 주어졌을 때 $x$에 대한 함수
- 확률밀도함수나 확률질량함수와 같은 공식을 사용하지만 $\theta$에 대해 적분을 하거나 다 더했을 경우 1이 되는 개념이 아니기 때문에 "확률"로 이해하면 안됨
- 모수 $\theta$를 따르는 분포가 데이터 $x$를 관찰할 가능성
→ 확률로 해석하면 안 됨