F-분포 (F-distribution)

X1,X2,,Xn1Y1,Y2,,Yn2가 각각 정규 모집단 N(μ1,σ12),N(μ2,σ22) 으로부터 추출된 표본크기 n1,n2의 서로 독립인 확률표본일 때, 다음 확률변수 F는 자유도 (n11,n21)인 F-분포를 따른다.

F=S12σ12/S22σ22=(S12S22)/(σ12σ22)

여기서

 X=1ni=1n1XiS12=i=1n1(XiX)2n11Y=1ni=1n2YiS22=i=1n2(YiY)2n21

특징

표본분산의 비를 나타내는 분포이다. 확률변수의 분자, 분모에 포한된 자유도(n11,n21)에 따라 분포의 형태가 달라 지며 XF(n11,n21)로 표시한다. 왼쪽으로 치우친 분포이지만 자유도가 증가할 수록 대칭 분포에 근접한다. 등분산 검정 / 분산분석 / 실험계획법 등에 사용한다.

F-분포, d1=5,d2=10

F-분포와 관련해 흥미로운 사실은 분산분석(ANOVA)를 설명하는 인기 통계 블로그 어디에도 F-ratio의 P-value 값이 F-분포의 확률밀도함수로 어떻게 구해지는지 나와 있지 않다는 것이다. 아마도 엑셀이나 통계 프로그램에서 자동으로 구할 수 있어서 실용적인 면에서 무의미해서 그랬을 것이다.

필자도 통계 전공이 아니고 인자의 유의성이나 중요도만 평가하면 그만이라 그 과정을 알 필요는 없다. 하지만 과거 컴퓨터가 없었던 시절에는 직접 계산을 했을 것이고 지적 호기심이 있어서 그 과정을 계산해 보았다.

먼저 F-분포의 확률 밀도함수는

f(x;d1,d2)=(d1x)d1d2d2(d1x+d2)d1+d2xB(d12,d22), 베타함수 B(d12,d22)=01td1/21(1t)d2/21dt

이제 분산분석 글 예제의 F-비 값, 0.006621에 대한 P-값을 구해 보자. 자유도 d1=1,d2=18 이므로 베타 함수는

B(12,182)=01t12(1t)8dt0.59908

확률밀도함수는

f(x,1,18)=1818x(x+18)190.59908x

P-값은 확률밀도함수의 x=F-비 오른쪽 면적이므로

F(x)=xf(x)dx,F(0.006621)=0.0066211818x(x+18)190.59908x=0.936041

계사된 P-값은 0.936041 이고 엑셀 분석도구 P-값은 0.936046이다. 엑셀을 이용할 때는 통계함수 F.DIST.RT(x,d1,d2)나 '데이터-데이터 분석-분산분석'을 쓰면 된다.

댓글

이 블로그의 인기 게시물

전단응력 (Shear Stress)

절대압력과 계기압력

엑셀 상자그림(Box Plot) 그리기