상관분석 (Correlation Analysis)

상관분석(Correlation Analysis)

두 변수 간의 선형관계를 규명하는 통계적인 분석 방법으로 상관분석은 두 변수 간의 선형관계 여부를 추론하는 가설검정이다.

- 귀무가설(\(H_0\)) : 두 변수는 상관관계가 없다. (r=0)
- 대립가성(\(H_1\)) : 두 변수는 상관관계가 있다. (r≠0)

대립가설의 형태가 'r이 0 이 아니다'이므로 양측검정이다.

상관계수(Correlation Coefficient)

두 변수 간 선형관계의 방향과 강도를 나타낸다. (-1≤r≤1)

피어슨 상관계수

양적 변수 간의 선형관계 척도로서 n 개의 데이터 \((X_1,\,Y_1),\,(X_2,\,Y_2),\cdot\cdot\cdot,\,(X_n,\,Y_n)\)이 주어지는 경우 상관계수는 다음과 같이 정의 한다.

\(r=\dfrac{\sum_{i=1}^n(X_i-\overline X)(Y_i-\overline Y)}{\sqrt{\sum_{i=1}^n(X_i-\overline X)^2}\sqrt{\sum_{i=1}^n(Y_i-\overline Y)^2}}\)

스피어만 순위 상관계수

순위 변수 간의 선형관계 척도로서 \(d_i\)를 \(X_i\) 순위와 \(Y_i\) 순위의 차이라고 할 때 순위 상관계수는 다음과 같이 정의한다. (순위 : 관측치를 크기의 순서대로 정렬했을 때의 Rank)

 \(\rho=1-\dfrac{6\sum_{i=1}^nd_i^2}{n(n^2-1)}=\dfrac{\sum_{i=1}^n(S_i-\overline S)(R_i-\overline R)}{\sqrt{\sum_{i=1}^n(S_i-\overline S)^2}\sqrt{\sum_{i=1}^n(R_i-\overline R)^2}}\)

여기서 \(S_i:X_i\)의 순위, \(R_i:Y_i\)의 순위, \(d_i=S_i-R_i\)

위의 식에서 알 수 있듯이 스피어만 상관계수는 각 변수 순위 간의 피어슨 상관계수와 같다.

피어슨 상관계수의 검정통계량

검정에 사용되는 확률분포로 t-분포를 사용한다.

\(t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}\ \sim t(n-2)\)

스피어만 순위 상관계수의 검정통계량

검정에 사용되는 확률분포로 표준정규분포를 사용한다.

\(Z=\rho\sqrt{n-1}\ \sim N(0,\,1)\)

상관계수 해석 시 유의점

● 양의 부호 : 한 변수의 값이 커지면/작아지면, 다른 변수도 커진다/작아진다.
● 음의 부호 : 한 변수의 값이 커지면/작아지면, 다른 변수도 작아진다/커진다.
● 상관계수는 선형관계를 나타내는 척도이다.
● 상관계수는 이상치에 영향을 받는다.
● 데이터의 개수가 많아지면 상관계수의 값의 크기는 무조건 커진다.
● 상관계수의 유의성은 상관계수의 크기로 판단하는 것이 아니라, 검정결과의 유의확률에 의해 판정한다.
● 변수의 관측값이 충분한 연속성을 보이지 않을 경우 상관계수의 크기와 상관관계의 유의성은 비례하는 것이 아니다.

[예제] 아래의 데이터에 대한 상관계수를 구하고 남편과 아내의 키는 상관관계가 있는지 판정하라. 단, 유의수준 5%에서 검정한다.

남편아내
186175
180168
160154
186166
163162
172152
192179
170163
174172
191170
182170
178147
181165
168162
162154
188166

1) 상관계수 계산

남편의 키를 \(X_i\), 아내의 키를 \(Y_i\)로 놓으면 각각의 평균은

\(\overline X={1\over16}\sum_{i=1}^{16}(X_i)={1\over16}(186+180+\cdot\cdot\cdot+188)=177.063\)
\(\overline Y={1\over16}\sum_{i=1}^{16}(Y_i)={1\over16}(175+168+\cdot\cdot\cdot+166)=164.063\)

상관계수는 공식에 대입하여 구하면 다음과 같다. (실제로는 엑셀의 CORREL 함수를 사용하면 편리하다.)

\(\begin{split}r&=\frac{\sum_{i=1}^16(X_i-177.063)(Y_i-164.063)}{\sqrt{\sum_{i=1}^{16}(X_i-177.063)^2}\sqrt{\sum_{i=1}^{16}(Y_i-164.063)^2}}\\&=\frac{(186-177.063)(175-164.063)+\cdot\cdot\cdot+(188-177.063)(166-164.063)}{\sqrt{(186-177.063)^2+\cdot\cdot\cdot+(188-177.063)^2}\sqrt{(175-164.063)^2+\cdot\cdot\cdot+(166-164.063)^2}}\\&=0.648\end{split}\)

양의 부호이고 아래 산포도를 참조하면 아내의 키가 크면 남편의 키도 큰 경향이 있다. 

산포도

2) 가설설정

- 귀무가설 \((H_0)\) : 남편과 아내의 키는 상관관계가 없다. (r=0)
- 대립가설 \((H_1)\) : 남편과 아내의 키는 상관관계가 있다. (r≠0)

3) 검정통계량 계산

상관계수와 표본 수를 대입하여 t-검정통계치를 구한다. (유의수준의 검정통계치는 엑셀 TINV 함수로 구한다 : t(0.05)=TINV(0.05, 16-2)=2.145)

\(t=\dfrac{0.648\sqrt{16-2}}{\sqrt{1-0.648^2}}=3.180>t(0.05)=2.145\)

검정통계치(3.180)가 유의수준 α=0.05의 검정통계치(2.145) 보다 크므로 귀무가설을 기각한다. 즉, 남편과 아내의 키는 상관관계가 있으며 본인의 키에 따라 배우자의 키를 선호하는 경향이 있다.

댓글

이 블로그의 인기 게시물

전단응력 (Shear Stress)

표면장력 공식

엑셀 상자그림(Box Plot) 그리기