상관분석 (Correlation Analysis)

상관분석(Correlation Analysis)

두 변수 간의 선형관계를 규명하는 통계적인 분석 방법으로 상관분석은 두 변수 간의 선형관계 여부를 추론하는 가설검정이다.

- 귀무가설(H0) : 두 변수는 상관관계가 없다. (r=0)
- 대립가성(H1) : 두 변수는 상관관계가 있다. (r≠0)

대립가설의 형태가 'r이 0 이 아니다'이므로 양측검정이다.

상관계수(Correlation Coefficient)

두 변수 간 선형관계의 방향과 강도를 나타낸다. (-1≤r≤1)

피어슨 상관계수

양적 변수 간의 선형관계 척도로서 n 개의 데이터 (X1,Y1),(X2,Y2),,(Xn,Yn)이 주어지는 경우 상관계수는 다음과 같이 정의 한다.

r=i=1n(XiX)(YiY)i=1n(XiX)2i=1n(YiY)2

스피어만 순위 상관계수

순위 변수 간의 선형관계 척도로서 diXi 순위와 Yi 순위의 차이라고 할 때 순위 상관계수는 다음과 같이 정의한다. (순위 : 관측치를 크기의 순서대로 정렬했을 때의 Rank)

 ρ=16i=1ndi2n(n21)=i=1n(SiS)(RiR)i=1n(SiS)2i=1n(RiR)2

여기서 Si:Xi의 순위, Ri:Yi의 순위, di=SiRi

위의 식에서 알 수 있듯이 스피어만 상관계수는 각 변수 순위 간의 피어슨 상관계수와 같다.

피어슨 상관계수의 검정통계량

검정에 사용되는 확률분포로 t-분포를 사용한다.

t=rn21r2 t(n2)

스피어만 순위 상관계수의 검정통계량

검정에 사용되는 확률분포로 표준정규분포를 사용한다.

Z=ρn1 N(0,1)

상관계수 해석 시 유의점

● 양의 부호 : 한 변수의 값이 커지면/작아지면, 다른 변수도 커진다/작아진다.
● 음의 부호 : 한 변수의 값이 커지면/작아지면, 다른 변수도 작아진다/커진다.
● 상관계수는 선형관계를 나타내는 척도이다.
● 상관계수는 이상치에 영향을 받는다.
● 데이터의 개수가 많아지면 상관계수의 값의 크기는 무조건 커진다.
● 상관계수의 유의성은 상관계수의 크기로 판단하는 것이 아니라, 검정결과의 유의확률에 의해 판정한다.
● 변수의 관측값이 충분한 연속성을 보이지 않을 경우 상관계수의 크기와 상관관계의 유의성은 비례하는 것이 아니다.

[예제] 아래의 데이터에 대한 상관계수를 구하고 남편과 아내의 키는 상관관계가 있는지 판정하라. 단, 유의수준 5%에서 검정한다.

남편아내
186175
180168
160154
186166
163162
172152
192179
170163
174172
191170
182170
178147
181165
168162
162154
188166

1) 상관계수 계산

남편의 키를 Xi, 아내의 키를 Yi로 놓으면 각각의 평균은

X=116i=116(Xi)=116(186+180++188)=177.063
Y=116i=116(Yi)=116(175+168++166)=164.063

상관계수는 공식에 대입하여 구하면 다음과 같다. (실제로는 엑셀의 CORREL 함수를 사용하면 편리하다.)

r=i=116(Xi177.063)(Yi164.063)i=116(Xi177.063)2i=116(Yi164.063)2=(186177.063)(175164.063)++(188177.063)(166164.063)(186177.063)2++(188177.063)2(175164.063)2++(166164.063)2=0.648

양의 부호이고 아래 산포도를 참조하면 아내의 키가 크면 남편의 키도 큰 경향이 있다. 

산포도

2) 가설설정

- 귀무가설 (H0) : 남편과 아내의 키는 상관관계가 없다. (r=0)
- 대립가설 (H1) : 남편과 아내의 키는 상관관계가 있다. (r≠0)

3) 검정통계량 계산

상관계수와 표본 수를 대입하여 t-검정통계치를 구한다. (유의수준의 검정통계치는 엑셀 TINV 함수로 구한다 : t(0.05)=TINV(0.05, 16-2)=2.145)

t=0.64816210.6482=3.180>t(0.05)=2.145

검정통계치(3.180)가 유의수준 α=0.05의 검정통계치(2.145) 보다 크므로 귀무가설을 기각한다. 즉, 남편과 아내의 키는 상관관계가 있으며 본인의 키에 따라 배우자의 키를 선호하는 경향이 있다.

댓글

이 블로그의 인기 게시물

전단응력 (Shear Stress)

절대압력과 계기압력

엑셀 상자그림(Box Plot) 그리기