자유도 (Degree of Freedom)
필자는 기계 전공이지만 가끔 실무에 통계분석을 하는 경우가 있다. 그 과정에서 표본의 개수가 n개 일 때 '왜 분산의 자유도는 n-1 인가?' 에 대한 의문을 가진 적이 있다. 인터넷 Q & A 나 블로그들을 보면 복잡한 설명과 함께 틀린 내용이 대부분인데 그 중 통계 지식이 있으신 분들의 간단 명료하게 이해되는 답변들이 있다.
본 글에서의 자유도는 확률 통계 항목에 있으므로 통계학에서의 자유도이다. 다음과 같이 자유도의 개념을 정리해 보았다.
- 표본의 개수가 n개 일 때 평균의 자유도는 n 이다. (개별 값을 더해서 그 개수로 나눈 것이므로 아무런 제약이 없다.)
\(x_1,\,x_2,\,\cdot\cdot\cdot,\,x_n\) → n 개 → 평균 : \(\begin{align}\overline x={1\over n}\sum_{i=1}^nx_i\end{align}\)
- 표본 분산의 자유도는 n-1 이다. (분산은 개별 편차의 제곱에 합하여 그 개수 n으로 나눈 것인데 모든 편차의 합은 '0'이 된다는 제약이 있어 자유도 하나를 빼준다.)
\((x_1-\overline x)^2,\,(x_2-\overline x)^2,\,\cdot\cdot\cdot,\,(x_n-\overline x)^2\) → n개
\((x_1-\overline x)+(x_2-\overline x)+\cdot\cdot\cdot+(x_n-\overline x)=(x_1+x_2+\cdot\cdot\cdot+x_n)-n\overline x=0\) → -1개
분산 : \(\begin{align}s^2=\frac{\begin{align}\sum_{i=1}^n(x_i-\overline x)^2\end{align}}{n-1}\end{align}\)
댓글
댓글 쓰기