자유도 (Degree of Freedom)

필자는 기계 전공이지만 가끔 실무에 통계분석을 하는 경우가 있다. 그 과정에서 표본의 개수가 n개 일 때 '왜 분산의 자유도는 n-1 인가?' 에 대한 의문을 가진 적이 있다. 인터넷 Q & A 나 블로그들을 보면 복잡한 설명과 함께 틀린 내용이 대부분인데 그 중 통계 지식이 있으신 분들의 간단 명료하게 이해되는 답변들이 있다.

본 글에서의 자유도는 확률 통계 항목에 있으므로 통계학에서의 자유도이다. 다음과 같이 자유도의 개념을 정리해 보았다.

- 정의 : 통계량(평균, 분산 등)을 정의하기 위해 필요한 개별 값의 수
- 표본의 개수가 n개 일 때 평균의 자유도는 n 이다. (개별 값을 더해서 그 개수로 나눈 것이므로 아무런 제약이 없다.)

\(x_1,\,x_2,\,\cdot\cdot\cdot,\,x_n\) → n 개 → 평균 : \(\begin{align}\overline x={1\over n}\sum_{i=1}^nx_i\end{align}\)

- 표본 분산의 자유도는 n-1 이다. (분산은 개별 편차의 제곱에 합하여 그 개수 n으로 나눈 것인데 모든 편차의 합은 '0'이 된다는 제약이 있어 자유도 하나를 빼준다.)

\((x_1-\overline x)^2,\,(x_2-\overline x)^2,\,\cdot\cdot\cdot,\,(x_n-\overline x)^2\) → n개

\((x_1-\overline x)+(x_2-\overline x)+\cdot\cdot\cdot+(x_n-\overline x)=(x_1+x_2+\cdot\cdot\cdot+x_n)-n\overline x=0\) → -1개

분산 : \(\begin{align}s^2=\frac{\begin{align}\sum_{i=1}^n(x_i-\overline x)^2\end{align}}{n-1}\end{align}\)

댓글

이 블로그의 인기 게시물

전단응력 (Shear Stress)

표면장력 공식

엑셀 상자그림(Box Plot) 그리기